Přejít k obsahu


Text-Mining with Linked Data

Citace:
DOSTAL, M. Text-Mining with Linked Data. 1. vyd. Plzeň : neuveden, 2014, 106 s. ISBN: neuvedeno
Druh: KNIHA
Jazyk publikace: eng
Anglický název: Text-Mining with Linked Data
Rok vydání: 2014
Místo konání: Plzeň
Název zdroje: neuveden
Autoři: Ing. Martin Dostal Ph.D.
Abstrakt CZ: Tato práce představuje moje výsledky v oblasti text-miningu realizované s využitím sémantické informace získané z Linked Data. Tento přístup je demonstrován na dobře známých text-miningových úlohách jako je volba vlastností, klasifikace a shlukování. Tyto techniky jsou vyhodnoceny s využitím běžných datových kolekcí a s využitím několika vlastních korpusů v případech, kdy dostatečně velké korpusy nebyly k dispozici nebo nebyly vhodné pro daný experiment. Standardní datové kolekce zahrnují: • 20 News Groups, • Reuters-21578, • The Open Directory Project, • Kolekci článku z WOS pro citační analýzu, • Datové kolekce ze Stanford University. Následující korpusy byly vytvořeny v průběhu mého doktorského studia a jsou na základě žádosti k dispozici pro ostatní vědecko-výzkumné pracovníky: • Kolekce Call for papers oznámení – přibližně 18 000 • Kolekce novinových článků – přibližně 32 000: o BBC a CNN, o The New York Times, o The Washington Post. Některé navržené metody, prezentované v této práci, však musely být vyhodnoceny manuálně z důvodu neexistence vhodného korpusu, jehož vytvoření by bylo značně náročné. Tato práce pokrývá i některé další experimenty, které byly realizovány s mými kolegy a zahrnují infometrii, citační analýzu a vylepšení grafových algoritmů typu PageRank.
Abstrakt EN: This thesis proposes the progress in the area of text-mining realized with methods improved by semantic information from Linked Data. This approach is demonstrated on well-known text-mining tasks like feature extraction, classification and clustering. This approach is evaluated with common available data corpuses and with my own several corpuses in cases when the large enough corpuses were not available or were not suitable for an experiment. The standard explored data sets include: • 20 News Groups, • Reuters-21578, • The Open Directory Project, • WOS data collection for citation analysis, • data collections from Stanford University. These corpuses were created and they are available on demand for other academic researchers: • Collection of Call for papers announcements - approx. 18 000 • Newspaper collections – approx. 32 000: o BBC and CNN, o The New York Times, o The Washington Post. Anyway some of the proposed methods had to be evaluated manually because the convenient corpus was not available and its creation would be quite challenging. This thesis also covers some experiments from my other areas of interest close to text-mining and that are related to my field of study. These experiments were realized with my coworkers and they include infometrics, citation analysis and enhancement of PageRank-style graph algorithms.
Klíčová slova

Zpět

Patička