Přejít k obsahu


Semantic Spaces for Improving language Modeling

Citace: BRYCHCÍN, T., KONOPÍK, M. Semantic Spaces for Improving language Modeling. Computer Speech and Language, 2014, roč. 28, č. 1, s. 192-209. ISSN: 0885-2308
Druh: ČLÁNEK
Jazyk publikace: eng
Anglický název: Semantic Spaces for Improving language Modeling
Rok vydání: 2014
Autoři: Ing. Tomáš Brychcín , Ing. Miloslav Konopík Ph.D. ,
Abstrakt CZ: Jazykové modely jsou velmi důležitou součástí mnoha úloh v NLP (zpracování přirozeného jazyka) a n-gramy jsou nejlepším způsobem, jak je vytvořit. Hodně snahy bylo v minulosti vyvinuto pro vylepšení n-gramových jazykových modelů. Přidáním externí informace (morfologie, syntaxe, rozdělení textu na dokumenty, atd.) do modelů může vést k významnému vylepšení. Modely však můžou být vylepšeny i bez externí informace a vyhlazování je výborný příklad takového vylepšení. V tomto článku představujeme další způsob vylepšení jazykových modelů, který nevyžaduje informaci přidanou z vnějšku. Pomocí sémantických prostorů (HAL, COALS, BEAGLE a dalších popsaných v tomto článku) zkoumáme skryté vzory, které lze nalézt ve velkých korpusech. Tyto sémantické prostory nebyly zatím nikdy testovány v oblasti jazykových modelů. Naše metoda používá sémantické prostory a klastrování k vytvoření slovních tříd pro jazykové modely založené na třídách. Jazykový model založený na třídách je poté kombinován se standardním n-gramovým modelem pro vytvoření velmi efektivního jazykového modelu. Naše experimenty ukazují, že vytvořené modely snižují perplexitu a vylepšují úspěšnost n-gramových jazykových modelů bez přidání externí informace. Naše modely jsou trénovány metodou učení bez učitele. Jsou velmi efektivní pro flektivní jazyky, které se obtížně modelují. V článku popisujeme výsledky pro pět různých sémantických prostorů s různým nastavením a různým počtem tříd. Testování perplexity společně s překladem mezi jazyky dokazuje schopnost našich modelů vylepšit výkonnost praktických aplikací.
Abstrakt EN: Language models are crucial for many tasks in NLP (Natural Language Processing) and n-grams are the best way to build them. Huge effort is being invested in improving n-gram language models. By introducing external information (morphology, syntax, partitioning into documents, etc.) into the models a significant improvement can be achieved. The models can however be improved with no external information and smoothing is an excellent example of such an improvement. In this article we show another way of improving the models that also requires no external information. We examine patterns that can be found in large corpora by building semantic spaces (HAL, COALS, BEAGLE and others described in this article). These semantic spaces have never been tested in language modeling before. Our method uses semantic spaces and clustering to build classes for a class-based language model. The class-based model is then coupled with a standard n-gram model to create a very effective language model. Our experiments show that our models reduce the perplexity and improve the accuracy of n-gram language models with no external information added. Training of our models is fully unsupervised. Our models are very effective for inflectional languages, which are particularly hard to model. We show results for five different semantic spaces with different settings and different number of classes. The perplexity tests are accompanied with machine translation tests that prove the ability of proposed models to improve performance of a real-world application.
Klíčová slova

Zpět

Patička