Přejít k obsahu


SEASR-ENG - rozpoznávač řeči pro účely vyhledávání s modely pro angličtinu

Citace:
PRAŽÁK, A., PSUTKA, J., ŠVEC, J., ZELINKA, J., IRCING, P., MÜLLER, L. SEASR-ENG - rozpoznávač řeči pro účely vyhledávání s modely pro angličtinu. 2014.
Druh: SOFTWARE
Jazyk publikace: cze
Anglický název: SEASR-ENG - speech recognizer tailored for subsequent search - English models
Rok vydání: 2014
Název zdroje: Západočeská univerzita v Plzni
Autoři: Ing. Aleš Pražák Ph.D. , Ing. Mgr. Josef Psutka Ph.D. , Ing. Jan Švec Ph.D. , Ing. Jan Zelinka PhD. , Ing. Pavel Ircing Ph.D. , Doc. Ing. Luděk Müller Ph.D. ,
Abstrakt CZ: Rozpoznávač řeči s modely pro angličtinu pro účely vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Standardní systém rozpoznávání řeči sestává z akustického modelu, modulu pro parametrizaci řeči a jazykového modelu. Akustické modely v našem systému jsou založeny na architektuře skrytých Markovových modelů (HMM), která představuje ?lege artis? přístup v současném rozpoznávání mluvené řeči. Jsou použity standardní třístavové akustické modely s Gaussovskými směsmi. Řeč je parametrizována pomocí 15 PLP koeficientů a jejich delta a delta-delta derivací. Příznaky jsou extrahovány 100x za vteřinu a je aplikována kepstrální normalizace na úrovni řečníka. Systém obsahuje též zobecněný model ticha a při jeho tvorbě byly použity špičkové metody pro adaptivní a diskriminativní trénování. Jednou z klíčových komponent systému pro rozpoznávání spontánních promluv uložených ve zpracovávaném archivu je také modul pro automatickou segmentaci akustického signálu. Nahraný stereo signál totiž teoreticky sice obsahuje řeč moderátora v jednom kanálu a přeživšího v kanálu druhém, ale v praxi dochází k tzv. přeslechům, kdy oba kanály obsahují oba dva zvukové ?proudy?, ale s různou intenzitou. Pro dobré výsledky rozpoznávání je nezbytné správně vybrat ten kanál, kde je signál právě hovořícího řečníka kvalitnější. Byl proto vyvinut modul, který ve vstupním signálu na základě výpočtu krátkodobé energie signálu a k-means shlukovací metody takovéto vhodné úseky označí. V ?produkční? verzi SEASR-ENG byl použit osvědčený jazykový model založený na lineární interpolaci trigramových pravděpodobností získaných z přepisů části rozhovorů (tyto přepisy byly pořízeny primárně pro účely trénování akustického modelu) - slovník cca 30 tisíc (různých) slov, více než 2 miliony slov v textu a databáze Google N-grams ? slovník cca 230 tisíc slov
Abstrakt EN: This SW module constitutes a crucial part of the search engine used for multi-lingual (Czech and English) search for relevant words or short phrases in the archive of Holocaust survivors, managed by USC (University of Southern California) Shoah Foundation Institute which contains more than 110,000 hours of records in 32 languages. Standard speech recognition system consists of acoustic model, module for parameterization of speech and language model. Acoustic models in our system are based on the Hidden Markov Models (HMM) architecture, which represents the state-of-the-art approach in the current speech recognition. They used a standard tri-state acoustic models with Gaussian mixtures. Speech is parameterized using the PLP coefficients 15 and delta and delta-delta derivatives. Acoustic features are extracted 100 times per second and cepstral normalization is applied at the level of the speaker. The system also includes a generalized model of silence and employ state-of-the-art methods for adaptive discriminative training. One of the key components of the system for recognition of spontaneous speech stored in the archive is also a module for automatic segmentation of the acoustic signal. The recorded stereo signal in theory contains the speech of the moderator in one channel and the speech of the survivor in the second one, but in practice there are often situations when both channels contain both audio "streams", but with varying intensity. We have also developed a module which identifies the "better" channel by using a short-term energy of the signal and the k-means clustering. The SW uses well-tested anguage model based on linear interpolation of trigram probabilities obtained from transcripts of the interviews (these transcripts were acquired primarily for the purpose of the acoustic model training) - a vocabulary of about 30,000 words, more than 2 million tokens in the text and database Google N-grams - a vocabulary of about 230 thousand words
Klíčová slova

Zpět

Patička