Přejít k obsahu


Exploration of Document Classification with Linked Data and pageRank

Citace: DOSTAL, M., NYKL, M., JEŽEK, K. Exploration of Document Classification with Linked Data and pageRank. In Intelligent Distributed Computing VII. Cham: Springer, 2014. s. 37-43. ISBN: 978-3-319-01570-5 , ISSN: 1860-949X
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Exploration of Document Classification with Linked Data and pageRank
Rok vydání: 2014
Místo konání: Cham
Název zdroje: Springer
Autoři: Ing. Martin Dostal , Ing. Michal Nykl , Prof. Ing. Karel Ježek CSc.
Abstrakt CZ: V tomto článku bychom rádi představili nový přístup ke klasifikaci s využitím Linked Data a PageRank. Náš výzkum se soustředí na klasifikační metody, které jsou rozšířeny o sémantické informace. Sémantické informace lze získat z ontologie nebo z Linked Data. V našem případě byla použita DBPedia jako zdroj Linked Data. Metoda volby vlastnosti vychází ze sémantických informací, takže vlastnost může být rozpoznána neprofesionálním uživatelem, neboť je v čitelné a srozumitelné formě. PageRank je používán ve fázi výběru vlastnosti a ve fázi klasifikace pro rozšíření základních vlastností na více obecné vlastnosti. To znamená, že volba vlastnosti a PageRank zpracování jsou založeny na síti vztahů získaných z Linked Data. Nalezené vlastnosti lze použít standardními klasifikačními algoritmy. V článku prezentujeme slibné výsledky, které ukazují jednoduchou použitelnost tohoto přístupu ověřenou na dvou rozdílných kolekcích dat.
Abstrakt EN: In this article, we would like to present a new approach to classification using Linked Data and PageRank. Our research is focused on classification methods that are enhanced by semantic information. The semantic information can be obtained from ontology or from Linked Data. DBpedia was used as a source of Linked Data in our case. The feature selection method is semantically based so features can be recognized by non-professional users as they are in a human readable and understandable form. PageRank is used during the feature selection and generation phase for the expansion of basic features into more general representatives. This means that feature selection and PageRank processing is based on network relations obtained from Linked Data. The discovered features can be used by standard classification algorithms. We will present promising results that show the simple applicability of this approach to two different datasets.
Klíčová slova

Zpět

Patička