Přejít k obsahu


MCLAAS - integrovaný systém vyhledávání ve vícejazyčném audioarchívu výpovědí svědků holocaustu

Citace:
ŠVEC, J., CHÝLEK, A., STANISLAV, P., IRCING, P., PRAŽÁK, A., PSUTKA, J., SALAJKA, P., ZELINKA, J., SKORKOVSKÁ, L., ZAJÍC, Z., SOUTNER, D., MÜLLER, L., BOJAR, O., TAMCHYNA, A., MAREČEK, D., ŽABOKRTSKÝ, Z., POPEL, M., GALUŠČÁKOVÁ, P., UREŠOVÁ, Z., HAJIČ, J. MCLAAS - integrovaný systém vyhledávání ve vícejazyčném audioarchívu výpovědí svědků holocaustu. 2015.
Druh: PROTOTYP, FUNKČNÍ VZOREK
Jazyk publikace: cze
Anglický název: MCLAAS - integrated search system for multilingual archive of testimonies of the Holocaust witnesses
Rok vydání: 2015
Název zdroje: Západočeská univerzita v Plzni, Univerzita Karlova v Praze
Autoři: Ing. Jan Švec Ph.D. , Ing. Adam Chýlek , Ing. Petr Stanislav , Ing. Pavel Ircing Ph.D. , Ing. Aleš Pražák Ph.D. , Ing. Mgr. Josef Psutka Ph.D. , Ing. Petr Salajka , Ing. Jan Zelinka PhD. , Ing. Lucie Skorkovská , Ing. Zbyněk Zajíc Ph.D. , Ing. Daniel Soutner , Doc. Ing. Luděk Müller Ph.D. , RNDr. Ondřej Bojar Ph.D. , Mgr. Aleš Tamchyna , Mgr. David Mareček Ph.D. , doc. Ing. Zdeněk Žabokrtský Ph.D. , Mgr. Martin Popel , Mgr. Petra Galuščáková , PhDr. Zdeňka Urešová , prof. Dr. RNDr. Jan Hajič
Abstrakt CZ: Tento funkční vzorek slouží pro vícejazyčné (české a anglické) vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Tento archiv obsahuje více než 110 tisíc hodin záznamů v 32 jazycích, přičemž přibližně polovina těchto rozhovorů je vedena v angličtině. Česká část archivu obnáší zhruba jeden tisíc hodin. Funkční vzorek se skládá ze serverového počítače, softwarových modulů MCLASS (http://www.kky.zcu.cz/cs/sw/MCLAAS), WFBAS (http://www.kky.zcu.cz/cs/sw/WFBAS), pracovní databáze sestavené softwary SEASR-CZE (http://www.kky.zcu.cz/cs/sw/SEASR-CZE) a SEASR-ENG (http://www.kky.zcu.cz/cs/sw/SEASR-ENG) a tenkého klienta s obvyklým webovým prohlížečem. Serverový počítač je počítač s konfigurací odpovídající náročnosti vykonávané úlohy s připojením k internetu. Počítač použitý pro funkční vzorek má 2 procesory Intel(R) Xeon(R) CPU E5-2620 v2 @ 2.10GHz. Pro účely vyhledávání v systému jsou česká a anglická řečová data nejprve zpracována příslušným modulem rozpoznávání řeči (SEASR-CZE, resp. SEASR-ENG).. Každý ze systémů v současnosti hledá výskyty slov či frází zhruba v 1000 hodin videozáznamů. V případě češtiny jde o veškerá dostupná data; v angličtině je k dispozici více než 50 tisíc hodin, ale rozpoznání a zaindexování celého tohoto objemu bude vyžadovat paralelizaci jednotlivých procesů. Pro křížové vyhledávání (dotaz v češtině, data/rozhovory v angličtině a češtině) v softwaru byl použit systém překladu dotazu. Implementace byla provedena jako zvláštní verze systému MTMonkey (http://ufal.mff.cuni.cz/mtmonkey)
Abstrakt EN: This functional prototype is used for multi-lingual (Czech and English) search for relevant words or short phrases in the archive of Holocaust survivors, managed by USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/), which contains more than 110,000 hours of records in 32 languages, with approximately half of these interviews is conducted in English. Czech part of the archive accounts for approximately one thousand hours. For the purposes of searching in the system MCLAAS are Czech and English speech data first processed with the appropriate speech recognition module (SEASR-CZE - see http://www.kky.zcu.cz/en/sw/SEASR-CZE or SEASR-ENG - see http://www.kky.zcu.cz/en/sw/SEASR-ENG) and then a so-called index is created, which is a machine representation of recognized utterances, which speeds up the search for a desired word or phrase. Those are all data available in the case of Czech; in English there are more than 50,000 hours, but the recognition and indexing of all this volume will require parallelization of individual processes. Cross-searching (query in English, data / interviews in English and Czech) in the system is facilitated by automatic query translation. Implementation was carried out as a special version of MTMonkey (http://ufal.mff.cuni.cz/mtmonkey).
Klíčová slova

Zpět

Patička