Přejít k obsahu


Voice of America (VOA) Broadcast News Czech Transcript Corpus

Citace: [] PSUTKA, J., RADOVÁ, V., MÜLLER, L., IRCING, P., MATOUŠEK, J. Voice of America (VOA) Broadcast News Czech Transcript Corpus. 2001.
Druh: Zaniklé typy
Jazyk publikace: eng
Anglický název: Voice of America (VOA) Broadcast News Czech Transcript Corpus
Rok vydání: 2001
Název zdroje: Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni (práva k šíření předána Linguistic Data Consortium, University of Pe
Autoři: Josef Psutka , Vlasta Radová , Luděk Müller , Pavel Ircing , Jindřich Matoušek
Abstrakt CZ: Linguistic Data Consortium shromáždilo v roce 2000 přibližně 30 hodin záznamů vysílaných zpráv Hlasu Ameriky v češtině. 62 souborů dat, které jsou součástí tohoto korpusu, jsou reprezentovány přepisy vysílání 30 minutových zpráv. Transkripty byly zpracovány rodilými Čechy, Pavlem Ircingem, Jindřichem Matouškem, Luďkem Müllerem a Vlastou Radovou, kteří pracovali na katedře kybernetiky Západočeské univerzity v Plzni, pod vedením Josefa Psutky. Při práci byl využíván transkripční software opatřený LDC., který byl vyvinut Eduoardem Geoffroisem a Claudem Barrasem z DGA ve Francii, za asistence Zhibiao Wu z LDC. Korpus je aktuálně dostupný na LDC web: www.ldc.upenn.edu.
Abstrakt EN: The Linguistic Data Consortium collected in 2000 approximately 30 hours of broadcast audio from the Voice of America news service in Czech. The 62 data files presented in this corpus represent the transcripts of the daily broadcasts of 30-minute news programs. The transcriptions were created by native Czech speakers, Pavel Ircing, Jindrich Matousek, Ludek Muller, and Vlasta Radova, working at the Department of Cybernetics, University of West Bohemia (UWB) in Pilsen under the direction of Josef Psutka. They used transcription software provided by the LDC (the "transcriber" package), developed by Eduoard Geoffrois and Claude Barras at DGA, France, with assistance from Zhibiao Wu at the LDC. The package is currently available from the LDC web site: www.ldc.upenn.edu. The version of transcriber used for this project produced a text file format which is no longer supported by the current version of the software; also, the format does not resemble any previous transcription format published by the LDC.
Klíčová slova

Zpět

Patička