Přejít k obsahu


MCLAAS - integrovaný systém vyhledávání ve vícejazyčném audioarchívu

Citace:
ŠVEC, J., VALENTA, T., STANISLAV, P., IRCING, P., MÜLLER, L., BOJAR, O., TAMCHYNA, A., MAREČEK, D., ŽABOKRTSKÝ, Z., POPEL, M., GALUŠČÁKOVÁ, P., HAJIČ, J. MCLAAS - integrovaný systém vyhledávání ve vícejazyčném audioarchívu. 2014.
Druh: SOFTWARE
Jazyk publikace: cze
Anglický název: MCLAAS - integrated search system for multilingual archive
Rok vydání: 2014
Název zdroje: Západočeská univerzita v Plzni, Univerzita Karlova v Praze
Autoři: Ing. Jan Švec Ph.D. , Ing. Tomáš Valenta , Ing. Petr Stanislav , Ing. Pavel Ircing Ph.D. , Doc. Ing. Luděk Müller Ph.D. , RNDr. Ondřej Bojar Ph.D. , Mgr. Aleš Tamchyna , Mgr. David Mareček Ph.D. , Doc. Ing. Zdeněk Žabokrtský Ph.D. , Mgr. Martin Popel , Mgr. Petra Galuščáková , prof. Dr. RNDr. Jan Hajič
Abstrakt CZ: Software slouží pro vícejazyčné (české a anglické) vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Tento archiv obsahuje více než 110 tisíc hodin záznamů v 32 jazycích, přičemž přibližně polovina těchto rozhovorů je vedena v angličtině. Pro účely vyhledávání v systému MCLAAS jsou česká a anglická řečová data nejprve zpracována příslušným modulem rozpoznávání řeči (SEASR-CZE - viz http://www.kky.zcu.cz/cs/sw/SEASR-CZE, resp. SEASR-ENG - viz http://www.kky.zcu.cz/cs/sw/SEASR-ENG) a poté je vytvořen tzv. index, což je strojová reprezentace rozpoznaných promluv, která umožňuje co nejrychlejší vyhledání požadovaného slova či fráze. Oba vyhledávací systémy pracují momentálně pouze s indexem založeným na slovní reprezentaci – fonémové vyhledávání bude implementováno později. Každý ze systémů v současnosti hledá výskyty slov či frází zhruba v 1000 hodin videozáznamů. V případě češtiny jde o veškerá dostupná data; v angličtině je k dispozici více než 50 tisíc hodin, ale rozpoznání a zaindexování celého tohoto objemu bude vyžadovat paralelizaci jednotlivých procesů. Pro křížové vyhledávání (dotaz v češtině, data/rozhovory v angličtině a češtině) byl použit systém překladu dotazu. Implementace byla provedena jako zvláštní verze systému MTMonkey (http://ufal.mff.cuni.cz/mtmonkey).
Abstrakt EN: This software is used for multi-lingual (Czech and English) search for relevant words or short phrases in the archive of Holocaust survivors, managed by USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/), which contains more than 110,000 hours of records in 32 languages, with approximately half of these interviews is conducted in English. Czech part of the archive accounts for approximately one thousand hours. For the purposes of searching in the system MCLAAS are Czech and English speech data first processed with the appropriate speech recognition module (SEASR-CZE - see http://www.kky.zcu.cz/en/sw/SEASR-CZE or SEASR-ENG - see http://www.kky.zcu.cz/en/sw/SEASR-ENG) and then a so-called index is created, which is a machine representation of recognized utterances, which speeds up the search for a desired word or phrase. Both retrieval systems currently operate only with an index based on word representation - phonetic search will be implemented later. Each system is currently looking for occurrences of words or phrases in about 1000 hours of video. Those are all data available in the case of Czech; in English there are more than 50,000 hours, but the recognition and indexing of all this volume will require parallelization of individual processes. Cross-searching (query in English, data / interviews in English and Czech) in the system is facilitated by automatic query translation. Implementation was carried out as a special version of MTMonkey (http://ufal.mff.cuni.cz/mtmonkey).
Klíčová slova

Zpět

Patička