Přejít k obsahu


From CiteSeer to CiteSeerX: Author rankings based on coauthorship networks

Citace:
FIALA, D. From CiteSeer to CiteSeerX: Author rankings based on coauthorship networks. Journal of Theoretical and Applied Information Technology, 2013, roč. 58, č. 1, s. 191-204. ISSN: 1992-8645
Druh: ČLÁNEK
Jazyk publikace: eng
Anglický název: From CiteSeer to CiteSeerX: Author rankings based on coauthorship networks
Rok vydání: 2013
Autoři: Ing. Dalibor Fiala Ph.D.
Abstrakt CZ: CiteSeer byl digitální knihovna a vyhledávač, který z webu shromažďoval odborné články především z oboru informatiky. Po několika letech stagnace byl v dubnu 2010 definitivně nahrazen novou verzí nazvanou CiteSeerX. Neboť oba CiteSeery poskytují volně dostupná metadata o indexovaných článcích, je možné analyzovat dva různé datové soubory, abychom zjistili rozdíly mezi CiteSeerem a CiteSeeremX. Přesněji řečeno, prozkoumali jsme metadata článků ze CiteSeeru (stažená v prosinci 2005) a ze CiteSeeruX (získaná v březnu 2011) za účelem vytvoření žebříčků význačných informatiků. Jelikož volně dostupná metadata článků získaná z webové stránky CiteSeeruX se odlišují od těch ze CiteSeeru v tom smyslu, že systematicky neobsahují propojení na citované články, jedinou možností jak vytvořit takovéto žebříčky je založit je na sítích spoluautorství (spolupráce) v obou CiteSeerech. V této studii jsme vygenerovali žebříčky autorů za použití 12 různých hodnoticích metod včetně PageRanku a jeho variant, porovnali jsme je se seznamy vědců oceněných Turingovou cenou od ACM a Coddovou cenou za inovace od ACM SIGMOD a dospěli jsme k závěru, že žebříčky vědců podle CiteSeeruX jsou lepší než podle CiteSeeru.
Abstrakt EN: CiteSeer was a digital library and a search engine gathering its mainly computer science research papers from the World Wide Web. After a few years of stagnation, it was definitely replaced with a new version called CiteSeerX in April 2010. As both CiteSeers provide(d) freely available metadata on the articles they index(ed), it is possible to analyze two different data sets to see the differences between CiteSeer and CiteSeerX. More specifically, we examined the article metadata from CiteSeer (downloaded in December 2005) and from CiteSeerX (harvested in March 2011) with a view of creating rankings of prestigious computer scientists. Since the free article metadata acquired from the Web site of CiteSeerX differ from those in CiteSeer in that they do not systematically include cited references, the only possibility of creating such rankings is to base them on the coauthorship networks in both CiteSeers. In this study, we produce these rankings using 12 different ranking methods including PageRank and its variants, compare them with the lists of ACM A. M. Turing Award and ACM SIGMOD E. F. Codd Innovations Award winners and conclude that the rankings generated from CiteSeerX data outperform those from CiteSeer.
Klíčová slova

Zpět

Patička