Přejít k obsahu


Using lemmatization technique for automatic diacritics restoration

Citace: [] KANIS, J., MÜLLER, L. Using lemmatization technique for automatic diacritics restoration. In SPECOM 2005 proceedings. Moscow : Moscow State Linguistic University, 2005. s. 255-258. ISBN: 5-7452-0110-X
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Using lemmatization technique for automatic diacritics restoration
Rok vydání: 2005
Místo konání: Moscow
Název zdroje: Moscow State Linguistic University
Autoři: Jakub Kanis , Luděk Müller
Abstrakt CZ: Tento článek se zabývá automatickou konstrukcí lematizátoru z Plný tvar - Lema trénovacího slovníku a lematizací nových, v trénovacím slovníku neviděných, tj. OOV slov. Jsou představeny tři metody pro lematizaci tří různých typů OOV slov (chybějící plné tvary, složená a neznámá slova). Nakonec je posána aplikace metody pro automatickou konstrukci lematizátoru na problém obnovení diakritiky.
Abstrakt EN: This paper is devoted to automatic construction of a lemmatizer from a Full Form - Lemma (FFL) training dictionary, and to lemmatization of new, in the FFL dictionary unseen - i.e. out-of-vocabulary (OOV), words. Three methods of lemmatization of three kinds of OOV words (missing full forms, unknown words, and compound words) are introduced. In addition, the application of lemmatizer automatic construction to the problem of automatic diacritics restoration is described.
Klíčová slova

Zpět

Patička