Přejít k obsahu


Detection of Semantic Compositionality using Semantic Spaces

Citace: [] KRČMÁŘ, L., JEŽEK, K., POESIO, M. Detection of Semantic Compositionality using Semantic Spaces. In TSD 2012. Heidelberg: Springer, 2012. s. 353-361. ISBN: 978-3-642-32789-6
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Detection of Semantic Compositionality using Semantic Spaces
Rok vydání: 2012
Místo konání: Heidelberg
Název zdroje: Springer
Autoři: Ing. Lubomír Krčmář , Prof. Ing. Karel Ježek CSc. , Massimo Poesio
Abstrakt CZ: Každý systém zpracovávající přirozený jazyk, který bere v úvahu význam textu, spoléhá na předpoklad sémantické složitelnosti: význam složeniny je určen významem částí této složeniny a jejich kombinováním. Předpoklad sémantické složitelnosti však neplatí pro mnoho idiomatických výrazů jako je "blue chip". Tento článek se zaměřuje na plně automatickou detekci těchto, dále nazývaných nesložitelné, složenin. Navrhli a otestovali jsme intuitivní přístup založený na nahrazování částí složenin sémanticky podobnými slovy. Naše modely určující složitelnost kombinují jednoduché statistické přístupy se sémantickým prostorem COALS. Pro vyhodnocení byla použita data pro Distributional Semantics and Compositionality 2011 workshop (DISCO 2011). Náš přístup jsme také porovnali s tradičně používanou technikou Pointwise Mutual Information (PMI). Naše nejlepší modely překonávají všechny systémy soutěžící v DISCO 2011.
Abstrakt EN: Any Natural Language Processing (NLP) system that does semantic processing relies on the assumption of semantic compositionality: the meaning of a compound is determined by the meaning of its parts and their combination. However, the compositionality assumption does not hold for many idiomatic expressions such as ?blue chip?. This paper focuses on the fully automatic detection of these, further referred to as non-compositional compounds. We have proposed and tested an intuitive approach based on replacing the parts of compounds by semantically related words. Our models determining the compositionality combine simple statistic ideas with the COALS semantic space. For the evaluation, the shared dataset for the Distributional Semantics and Compositionality 2011 workshop (DISCO 2011) is used. A comparison of our approach with the traditionally used Pointwise Mutual Information (PMI) is also presented. Our best models outperform all the systems competing in DISCO 2011.
Klíčová slova

Zpět

Patička