Přejít k obsahu


Czech Malach Speech Corpus

Citace: [] PSUTKA, J., PSUTKA, J., RADOVÁ, V., IRCING, P., MATOUŠEK, J., MÜLLER, L. Czech Malach Speech Corpus. 2003.
Druh: Zaniklé typy
Jazyk publikace: eng
Anglický název: Czech Malach Speech Corpus
Rok vydání: 2003
Název zdroje: Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni, Johns Hopkins University v Baltimore, Shoah Visual History Foundati
Autoři: Josef Psutka , Josef Psutka , Vlasta Radová , Pavel Ircing , Jindřich Matoušek , Luděk Müller
Abstrakt CZ: Visual History Foundation shromáždila v minulých létech cca 52 tisíc výpovědí svědků holocaustu namluvených ve 32 jazycích. Českých výpovědí je k dispozici cca 570 s celkovou délkou asi 1 200 hodin. Korpus českých výpovědí projektu Malach byl připraven pro konstrukci systému automatického rozpoznávání spontánní řeči, který bude využit pro automatické hledání klíčových slov a topiků ve výpovědích. Pro trénování systému bylo zpracováno a speciálním způsobem anotováno celkem 336 patnáctiminutových segmentů výpovědí (celkem 84 hodin), pro testy bylo zpracováno 10 celých výpovědí od různých řečníků (celkem cca 20 hodin). Všechny manuální anotace byly provedeny v ortografickém tvaru slov. Znamená to, že případná hovorová slova nebyla ani transformována do standardních (tj. nehovorových) tvarů ani nebyla zapsána foneticky. Hovorová slova nejsou v češtině obvykle uvažována, že jsou to fonetické varianty standardních českých slov, proto tato slova jsou zapsána ve svém ortografickém tvaru.
Abstrakt EN: Visual History Foundation collected recently at least 52 thousand testimonies of holocaust survivors pronounced at 32 different languages. The Czech collection is created by about 570 testimonies with the total length of about 1,200 hours. The corresponding Czech Malach Speech Corpus was annotated with the goal to build the large vocabulary continuous speech recognition system. For this purpose it was selected and manually transcribed 336 15-minute speech segments of individual speakers (for training purposes) and whole testimonies of 10 different survivors (about 20 hours of speech) for tests. All manual annotations were performed in the orthographic form of the words. This means that the eventual colloquial words were neither transformed to standard (formal, non-colloquial) forms nor written phonetically. Czech colloquial words are usually not considered to be phonetic variants of standard Czech words therefore they are written in their colloquial orthographic form.
Klíčová slova

Zpět

Patička