Přejít k obsahu


Czech Broadcast News Corpus

Citace: [] RADOVÁ, V., PSUTKA, J., PSUTKA, J., MÜLLER, L., IRCING, P., MATOUŠEK, J., BYRNE, W. Czech Broadcast News Corpus. 2004.
Druh: Zaniklé typy
Jazyk publikace: eng
Anglický název: Czech Broadcast News Corpus
Rok vydání: 2004
Název zdroje: Katedra kybernetiky, fakulta aplikovaných věd, Západočeská univerzita v Plzni (práva k šíření předána Linguistic Data Consortium, University of Pe
Autoři: Vlasta Radová , Josef Psutka , Josef Psutka , Luděk Müller , Pavel Ircing , Jindřich Matoušek , William Byrne
Abstrakt CZ: Softwarový produkt obsahuje 286 audio záznamů (přibližně 50 hodin rozhlasového a televizního vysílání zpráv). Transkripty obsahují přibližně 196k běžných slov a 27k slov ve slovníku. Záznamy neobsahují předpovědi počasí, sportovní zprávy a dopravní hlášení. Transkripty byly vytvořeny na katedře kybernetiky, Západočeské univerzity v Plzni, pod vedením Vlasty Radové. Transkripce byly provedeny manuální anotací využitím speciálního software opatřeného Linguistic Data Consortium (Transcriber 1.4.1). Ty části audiozáznamů, které neobsahují řeč anebo kde je signál zarušen, nebyly transkribovány. V důsledku toho obsahuje korpus asi 23 hodin řeči. Transkripty jsou opatřeny pro znakové sady ISO-8859-2 a Windows-1250.
Abstrakt EN: There are 286 transcripts, corresponding to the 286 audio files (approximately 50 hours of broadcast news). The transcripts contain approximately 196K words and 27K unique words. The news does not contain weather forecasts, sports news, or traffic announcements. The transcripts were created by native Czech speakers working at the Department of Cybernetics, University of West Bohemia in Pilsen, under the direction of Vlasta Radova. The transcription was done using software provided by the LDC (Transcriber 1.4.1). Those parts of the audio recordings that do not contain speech or where the signal was disrupted were not transcribed. As a consequence, the corpus contains about 23 hours of transcribed speech. The transcriptions are provided both in the ISO-8859-2 and Windows-1250 character set.
Klíčová slova

Zpět

Patička