Přejít k obsahu


Extending the single words-based document model: a comparison of bigrams and 2-itemsets

Citace: [] TESAŘ, R., POESIO, M., STRNAD , V., JEŽEK, K. Extending the single words-based document model: a comparison of bigrams and 2-itemsets. In Proceedings of the 2006 ACM symposium on Document engineering. New York : ACM, 2006. s. 138-146. ISBN: 1-59593-515-0
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Extending the single words-based document model: a comparison of bigrams and 2-itemsets
Rok vydání: 2006
Místo konání: New York
Název zdroje: ACM
Autoři: Roman Tesař , Massimo Poesio , Václav Strnad , Karel Ježek
Abstrakt CZ: V článku je srovnáno zvýšení celkové úspěšnosti klasifikace textu při rozšíření bag-of-words modelu dokumentu o bigramy a 2-itemsety na dvou standardizovaných kolekcích: Reuters21578 a 20Newsgroups. Zároveň jsou prezentovány i algoritmy pro hledání bigramů a 2-itemsetů.
Abstrakt EN: We compare the performance improvement in terms of classification accuracy when bigrams and 2-itemsets are used to extend the single words-based document representation on two standard text corpora: Reuters-21578 and 20Newsgroups. Algoritms for bigrams and 2-itemsets discovery are presented as well.
Klíčová slova

Zpět

Patička