Přejít k obsahu


HPS: High precision stemmer

Citace:
BRYCHCÍN, T., KONOPÍK, M. HPS: High precision stemmer. Information Processing and Mangement, 2015, roč. 51, č. 1, s. 68-91. ISSN: 0306-4573
Druh: ČLÁNEK
Jazyk publikace: eng
Anglický název: HPS: High precision stemmer
Rok vydání: 2015
Autoři: Ing. Tomáš Brychcín , Ing. Miloslav Konopík Ph.D. ,
Abstrakt CZ: Výzkum v oblasti stemování s učením bez učitele se v posledních letech vyvinul ve velice účinné metody. Náš přístup posouvá hranice vědy poskytováním přesnějších výsledků stemování. Myšlenka našeho přístupu spočívá v budování stemmeru ve dvou fázích. První fáze je založena na shlukování, které kombinuje lexikální a sémantickou podobnost slov a připravuje tak trénovací data pro druhou fázi. Druhá fáze algoritmu používá maximum entropy klasifikátor. Stemovací funkce pomáhají klasifikátoru v rozhodnutí kde a jak ostemovat dané slovo. V našem výzkumu jsme se rozhodli vytvořit multifunkční stemovací nástroj. Jeho návrh otvírá možnosti řešit netradiční úlohy jako například: aproximace lemmat nebo zlepšení jazykového modelování. Současně však dosahujeme velmi dobrých výsledků v tradiční úloze vyhledávání dokumentů. Naše testy ukazují výjimečnou úspěšnost ve všech výše zmíněných úlohách. Naše stemovací metoda je porovnávána s třemi nejlepšími statistickými algoritmy a jedním pravidlovým. Používáme korpusy v Češtině, Slovenštině, Polštině, Maďarštině, Španělštině a Angličtině. Náš algoritmus exceluje zejména ve stemování předem neviděných slov. Navíc bylo zjištěno, že náš přístup vyžaduje pouze velmi malé množství trénovačích dat v porovnání s konkurenčními metodami.
Abstrakt EN: Research into unsupervised ways of stemming has resulted, in the past few years, in the development of methods that are reliable and perform well. Our approach further shifts the boundaries of the state of the art by providing more accurate stemming results. The idea of the approach consists in building a stemmer in two stages. In the first stage, a stemming algorithm based upon clustering, which exploits the lexical and semantic information of words, is used to prepare large-scale training data for the second-stage algorithm. The second-stage algorithm uses a maximum entropy classifier. The stemming-specific features help the classifier decide when and how to stem a particular word. In our research, we have pursued the goal of creating a multi-purpose stemming tool. Its design opens up possibilities of solving non-traditional tasks such as approximating lemmas or improving language modeling. However, we still aim at very good results in the traditional task of information retrieval. The conducted tests reveal exceptional performance in all the above mentioned tasks. Our stemming method is compared with three state-of-the-art statistical algorithms and one rule-based algorithm. We used corpora in the Czech, Slovak, Polish, Hungarian, Spanish and English languages. In the tests, our algorithm excels in stemming previously unseen words (the words that are not present in the training set). Moreover, it was discovered that our approach demands very little text data for training when compared with competing unsupervised algorithms.
Klíčová slova

Zpět

Patička