Přejít k obsahu


Multilingual Plagiarism Detection

Citace: [] ČEŠKA, Z., TOMAN, M., JEŽEK, K. Multilingual Plagiarism Detection. In Artificial Intelligence: Methodology, Systems and Applications. Berlin: Springer, 2008. s. 83-92. ISBN: 978-3-540-85775-4
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Multilingual Plagiarism Detection
Rok vydání: 2008
Místo konání: Berlin
Název zdroje: Springer
Autoři: Zdeněk Češka , Michal Toman , Karel Ježek
Abstrakt CZ: Vícejazyčné zpracování je v současnoti velmi rostoucím odvětvím. Tento trend byl navíc zvýrazněn globální integrací evropských států a mizejícími kulturními a sociálními hranicemi. Vícejazyčné zpracování se postupně stalo důležitou oblastí přinášející mnoho zajímavých problémů. Tento článek popisuje nový postup v detekci plagiátů napříč různými jazyky. Navrhli jsem novou metodu MLPlag, která je schopna detekovat plagiáty textových dokumentů ve vícejazyčném prostředí. Tato metoda je založena na slovní analýze slov, která využívá EuroWordNet teraurus pro transformaci slov do jazykové nezávislé formy. Pro ověření výsledků naší metody jsme provedli s rovnání na několika korpusech v jednojazyčném a vícejazyčném prostředí.
Abstrakt EN: Multilingual text processing has been gaining more and more attentin in recent. years. This trend has been accentuated by the global integration of European states and the vanishing cultural and social boundaries. Multilingual text processing has become an important field brigning a lot of new and interesting problems. This paper describes a novel approach to multilingual plagiarism detection. We propose a new method called MLPlag for plagiarism detection in multilingual environment. This method is based on alanylis of word positions.It utilizes the EuroWordNet thesaurus which transform words into language independent form. This allows to identify documents plagiarized from sources written in other languages. We performed and evaluated our experiments on monolingual and multilingual corpora and results are presented in this paper.
Klíčová slova

Zpět

Patička