Přejít k obsahu


Influence of ratio of auxiliary pages on the pre-processing phase of web usage mining

Citace:
MUNK, M., BENKO, Ĺ., GANGUR, M., TURČÁNI, M. Influence of ratio of auxiliary pages on the pre-processing phase of web usage mining. E + M. Ekonomie a Management, 2015, roč. 18, č. 3, s. 144-159. ISSN: 1212-3609
Druh: ČLÁNEK
Jazyk publikace: eng
Anglický název: Influence of ratio of auxiliary pages on the pre-processing phase of web usage mining
Rok vydání: 2015
Autoři: Doc. RNDr.. Michal Munk Ph.D. , Mgr. Ĺubomír Benko , RNDr. Mikuláš Gangur Ph.D. , prof. Ing. Milan Turčáni CSc.
Abstrakt CZ: Dolování dat patří k jednomu z důležitých nástrojů business inteligence. Je to prostředek ke zvýšení konkurenceschopnosti firmy. Objevování znalostí z využití webu je realizováno dolováním dat z log souborů webového serveru a odhaluje chování uživatele webu. První krok v procesu objevování znalostí z využití webu je předzpracování dat získaných z logovacího souboru webového serveru. Předzpracování dat je důležitou součástí objevování znalostí z využití webu. Nalezení vzorců chování návštěvníků webu závisí na kvalitě této přípravné fáze. Proto je důležité pochopení používaných metod. Tento příspěvek podává souhrn přípravných fází a zejména fáze identifikace sezení. Jsou představeny dva algoritmy čistění dat a identifikace sezení využívající metodu Reference length. Hlavním cílem článku je srovnání výpočtu mezního času a jeho vlivu na objevené užitečné, triviální a nevysvětlitelná pravidla. Mezní čas je důležitou součástí identifikace sezeni při použití metody Reference length. Byl srovnáván vliv podílu navigačních stránek na výpočet, který je založený na odhadu z mapy webu a na subjektivním odhadu. K určení odlišností mezi těmito dvěma přístupy byly použity statistické metody. Dále byl zkoumán podíl nalezených pravidel z hlediska kvantity i kvality. Podíl navigačních stránek má vliv pouze na množství nalezených pravidel v souborech s doplněním cest. Na druhou stranu nemá žádný vliv na podíl nalezených užitečných pravidel, nepřesný odhad podílu navigačních stránek může být příčinou nárůstu triviálních a nevysvětlitelných pravidel.
Abstrakt EN: Data mining belongs to the one of the important tools for Business Intelligence. It is a means to increase competitiveness of a company. Web usage mining is engaged in data mining of web server log file and it analyzes the user´s behavior on the web site. The first step of web usage mining process is data pre-processing obtained from a web log file. Data pre-processing is an important part of web usage mining. Discovering patterns of behavior of web visitors depends on the quality of pre-processing phase. Therefore it is important to understand the used methods. This paper summarizes the pre-processing phases and especially the phases of session identification. There are introduced two algorithms for data cleaning and session identification using the reference length method. The main aim of this paper is to compare a calculation of cutoff time and its influence on discovered useful, trivial and inexplicable rules. Cutoff time is an important part of the session identification using the Reference Length method. The influence of ratio of auxiliary pages on the calculation based on a sitemap and subjective estimation was compared. Statistical methods were used to determine the difference between these two approaches. In this paper was examined the portion of found rules based on quantity and quality. The ratio of auxiliary pages has only an impact on quantity of extracted rules in the files with path completion. It has no impact on portion of extracted useful rules, on the other hand, inappropriate estimation of the ratio of auxiliary pages may cause increasing of trivial and inexplicable rules.
Klíčová slova

Zpět

Patička