Přejít k obsahu


Exploiting linguistic knowledge in language modeling of Czech spontaneous speech

Citace: [] IRCING, P., HOIDEKR, J., PSUTKA, J. Exploiting linguistic knowledge in language modeling of Czech spontaneous speech. In Proceedings of LREC 2006. Paris: ELRA, 2006. s. 2600-2603. ISBN: 2-9517408-2-4
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Exploiting linguistic knowledge in language modeling of Czech spontaneous speech
Rok vydání: 2006
Místo konání: Paris
Název zdroje: ELRA
Autoři: Pavel Ircing , Jan Hoidekr , Josef Psutka
Abstrakt CZ: V článku představujeme metodu, která umožňuje využití lingvistické informace v jazykovém modelu, který je pak zapojen do systému rozpoznávání spontánní řeči. Využíváme přitom princip třídového jazykového modelu - pro rozdělení slov do tříd používáme morfologické značky. Vzhledem k tomu, že počet různých značek je minimálně o jeden řád nižší než počet různých slov ve slovníku středního rozsahu, značkový model může být robustně natrénován i z relativně malého množství dat. Bohužel, tato robustnost je vykoupena omezenou prediktivní silou třídového modelu. Proto aplikujeme dvouprůchodovou strategii rozpoznávání, kde první průchod je realizován s klasickým slovním n-gramem a výsledné mřížky jsou pak ve druhém průchodu reskórovány zmíněným třídovým modelem.
Abstrakt EN: In our paper, we present a method for incorporating available linguistic information into a statistical language model that is used in ASR system for transcribing spontaneous speech. We employ the class-based language model paradigm and use the morphological tags as the basis for world-to-class mapping. Since the number of different tags is at least by one order of magnitude lower than the number of words even in the tasks with moderately-sized vocabularies, the tag-based model can be rather robustly estimated using even the relatively small text corpora. Unfortunately, this robustness goes hand in hand with restricted predictive ability of the class-based model. Hence we apply the two-pass recognition strategy, where the first pass is performed with the standard word-based n-gram and the resulting lattices are rescored in the second pass using the aforementioned class-based model.
Klíčová slova

Zpět

Patička