Přejít k obsahu


Novel Unsupervised Features for Czech Multi-label Document Classification

Citace:
BRYCHCÍN, T., KRÁL, P. Novel Unsupervised Features for Czech Multi-label Document Classification. In Human-Inspired Computing and Its Applications. Heidelberg: Springer, 2014. s. 70-79. ISBN: 978-3-319-13646-2 , ISSN: 0302-9743
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Novel Unsupervised Features for Czech Multi-label Document Classification
Rok vydání: 2014
Místo konání: Heidelberg
Název zdroje: Springer
Autoři: Ing. Tomáš Brychcín , Ing. Pavel Král Ph.D. ,
Abstrakt CZ: Tento článek se zabývá automatickou více-třídní klasifikací dokumentů v rámci vývoje reálné aplikace pro Českou tiskovou kancelář. Hlavním cílem této práce spočívá v návrhu nových příznaků vytvořených bez pomoci učitele založených na neřízeném Stemmeru, latentní Dirichletově alokaci a na sémantických prostorech (HAL a COALS). Navržené příznaky jsou integrovány do úlohy klasifikace dokumentů. Dalším zajímavým přínosem je, že tyto dva sémantické prostory nebyly nikdy dříve použity v souvislosti s klasifikací dokumentů. Výsledky navržených metod jsou vyhodnoceny na českém novinovém korpusu. Experimentálně jsme ukázali, že téměř všechny navrhované příznaky výrazně zlepší přesnost klasifikace dokumentů. Použitý korpus je volně k dispozici pro výzkumné účely.
Abstrakt EN: This paper deals with automatic multi-label document classification in the context of a real application for the Czech News Agency. The main goal of this work consists in proposing novel fully unsupervised features based on an unsupervised stemmer, Latent Dirichlet Allocation and semantic spaces (HAL and COALS). The proposed features are integrated into the document classification task. Another interesting contribution is that these two semantic spaces have never been used in the context of document classification before. The proposed approaches are evaluated on a Czech newspaper corpus. We experimentally show that almost all proposed features significantly improve the document classification score. The corpus is freely available for research purposes.
Klíčová slova

Zpět

Patička