Přejít k obsahu


Comparing Semantic Models for Evaluating Automatic Document Summarization

Citace:
CAMPR, M., JEŽEK, K. Comparing Semantic Models for Evaluating Automatic Document Summarization. In Text, Speech, and Dialogue. Cham: Springer, 2015. s. 252-260. ISBN: 978-3-319-24032-9 , ISSN: 0302-9743
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Comparing Semantic Models for Evaluating Automatic Document Summarization
Rok vydání: 2015
Místo konání: Cham
Název zdroje: Springer
Autoři: Ing. Michal Campr , Prof. Ing. Karel Ježek CSc.
Abstrakt CZ: Hlavním tématem tohoto článku je prozkoumání sémantických modelů v kontextu automatické sumarizace dokumentů a jejího vyhodnocení. Hlavní oblastí našeho výzkumu je extraktivní sumarizace, konkrétněji kontrastivní sumarizace názorů. Stejně jako sumarizace, i její vyhodnocení je složitým problémem. V dnešní době se nejčastěji používá ROUGE (Recall-Oriented Understudy for Gisting Evaluation), který automaticky měří (např. Počtem překrývajících se n-gramů nebo sekvencí slov) souhrny jejich porovnáváním s ideálními ručně vytvořenými souhrny. Avšak tyto míry neberou v potaz sémantiku slov a tím pádem nejsou např. Synonyma prána v potaz. Tento problém zkoumáme v experimentech s různými jazykovými modely (TfIdf, LSA, LDA, Word2Vec a Doc2Vec) pro extrakci vlastností dokumentů. Vyhodnocení experimentů proběhlo na naší kolekci a výsledky každého modelu byly porovnány s hodnotami od anotátorů. Navíc také porovnáváme tyto hodnoty s ROUGE a sledujeme korelace mezi nimi. Cílem těchto experimentů je nalezení modelu, který by dobře imitoval lidský odhad podobnosti dokumentů.
Abstrakt EN: The main focus of this paper is the examination of semantic modelling in the context of automatic document summarization and its evaluation. The main area of our research is extractive summarization, more specifically, contrastive opinion summarization. And as it is with all summarization tasks, the evaluation of their performance is a challenging problem on its own. Nowadays, the most commonly used evaluation technique is ROUGE (Recall-Oriented Understudy for Gisting Evaluation). It includes measures (such as the count of overlapping n-grams or word sequences) for automatically determining the quality of summaries by comparing them to ideal human-made summaries. However, these measures do not take into account the semantics of words and thus, for example, synonyms are not treated as equal. We explore this issue by experimenting with various language models, examining their performance in the task of computing document similarity. In particular, we chose four semantic models (LSA, LDA, Word2Vec and Doc2Vec) and one frequency-based model (TfIdf), for extracting document features. The experiments were then performed on our custom dataset and the results of each model are then compared to the similarity values assessed by human annotators. We also compare these values with the ROUGE scores and observe the correlations between them. The aim of our experiments is to find a model, which can best imitate a human estimate of document similarity.
Klíčová slova

Zpět

Patička