Přejít k obsahu


USC-SFI MALACH Interviews and Transcripts Czech

Citace:
PSUTKA, J., RADOVÁ, V., IRCING, P., MATOUŠEK, J., MÜLLER, L. USC-SFI MALACH Interviews and Transcripts Czech. 2014.
Druh: SOFTWARE
Jazyk publikace: eng
Anglický název: USC-SFI MALACH Interviews and Transcripts Czech
Rok vydání: 2014
Název zdroje: Západočeská univerzita v Plzni
Autoři: Ing. Mgr. Josef Psutka Ph.D. , Doc. Dr. Ing. Vlasta Radová , Ing. Pavel Ircing Ph.D. , Doc. Ing. Jindřich Matoušek Ph.D. , Doc. Ing. Luděk Müller Ph.D. ,
Abstrakt CZ: Tento korpus obsahuje anotované nahrávky rozhovorů s lidmi, kteří přežili Holokaust. Řečová data obsažená v tomto korpusu byla shromážďována od roku 1994, v nejrůznějších podmínkách od tichých po hlučné (např. hluk větru, konverzace pozadí a hluku dálnice). Původní rozhovory byly zaznamenány na Sony Beta SP pásky, pak digitalizovány do 3 MB / s MPEG-1 proudu 128 kb / s (44 kHz), stereo audio. Zvukové soubory v tomto korpusu jsou jednokanálové FLAC komprimovaný PCM WAV formátu se vzorkovací frekvencí 16 kHz. Přibližně 570 ze všech USC SFI nahrávek obsahuje rozhovory v českém jazyce a v průměru má každý přibližně 2,25 hodiny. Rozhovory jsou rozděleny do trénovací množiny (400 rozhovorů) a testovací sady (20 rozhovorů). Prvních patnáct minut druhého pásku z každého rozhovoru bylo přepsáno ve formátu .trs pomocí Transcriber 1.5.1. Zkušební rozhovory byly přepsány úplně. Korpus se tedy skládá ze 229 hodin řeči (186 hodin trénovacího materiálu plus 43 hodin testovacích dat), z toho 143 hodin je přepsaných (100 hodin trénovacích dat + celá testovací data). Některé nahrávky zahrnují také rozhovory s rodinnými příslušníky přeživšího.
Abstrakt EN: The corpus contains the annotated recordings of the interviews with the Holocaust survivors. The speech data in this release was collected beginning in 1994 under a wide variety of conditions ranging from quiet to noisy (e.g., airplane overflights, wind noise, background conversations and highway noise). Original interviews were recorded on Sony Beta SP tapes, then digitized into a 3 MB/s MPEG-1 stream with 128 kb/s (44 kHz) stereo audio. The sound files in this release are single channel FLAC compressed PCM WAV format at a sampling frequency of 16 kHz. Approximately 570 of all USC-SFI collected interviews are in Czech and average approximately 2.25 hours each. The interviews sessions in this release are divided into a training set (400 interviews) and a test set (20 interviews). The first fifteen minutes of the second tape from each training interview (approximately 30 total minutes of speech) were transcribed in .trs format using Transcriber 1.5.1. The test interviews were transcribed completely. Thus the corpus consists of 229 hours of speech (186 hours of training material plus 43 hours of test data) with 143 hours transcribed (100 hours of training material plus 43 hours of test data). Certain interviews include speech from family members in addition to that of the subject and the interviewer. Accordingly, the corpus contains speech from more than 420 speakers, who are more or less equally distributed between males and females.
Klíčová slova

Zpět

Patička