Přejít k obsahu


Latent semantics in language models

Citace:
BRYCHCÍN, T., KONOPÍK, M. Latent semantics in language models. Computer Speech and language, 2015, roč. 33, č. 1, s. 88-108. ISSN: 0885-2308
Druh: ČLÁNEK
Jazyk publikace: eng
Anglický název: Latent semantics in language models
Rok vydání: 2015
Autoři: Ing. Tomáš Brychcín , Ing. Miloslav Konopík Ph.D. ,
Abstrakt CZ: Tento článek zkoumá tři různé zdroje informací a jejích použití v jazykovém modelování. Globální sémantika je modelována Latentní Dirichletovo alokací a přináší globální vztahy do jazykových modelů. Slovní třídy získané ze sémantických prostorů obohacují tyto jazykové modely o lokální sémantiku. Nakonec je použit náš vlastní stemovací algoritmus k ještě dalšímu vylepšení jazykového modelování u flektivních jazyků. Náš výzkum ukazuje, že se tyto tři zdroje informací navzájem obohacují a jejich kombinace dramaticky zlepšuje jazykové modelování. Všechny studované modely jsou založené na trénování bez učitele. Ukazujeme efektivnost našich metod na několika jazycích, např. čeština, slovinština, slovenština, polština, maďarština a angličtina, což dokazuje jazykovou nezávislost. Testování perplexity je doplněno o testy na strojovém překladu, což dokazuje schopnost našich metod zlepšit reálnou aplikaci
Abstrakt EN: This paper investigates three different sources of information and their integration into language modelling. Global semantics is modelled by Latent Dirichlet allocation and brings long range dependencies into language models. Word clusters given by semantic spaces enrich these language models with short range semantics. Finally, our own stemming algorithm is used to further enhance the performance of language modelling for inflectional languages. Our research shows that these three sources of information enrich each other and their combination dramatically improves language modelling. All investigated models are acquired in a fully unsupervised manner. We show the efficiency of our methods for several languages such as Czech, Slovenian, Slovak, Polish, Hungarian, and English, proving their multilingualism. The perplexity tests are accompanied by machine translation tests that prove the ability of the proposed models to improve the performance of a real-world application.
Klíčová slova

Zpět

Patička