Přejít k obsahu


Convolutional Neural Network in the Task of Speaker Change Detection

Citace:
HRÚZ, M., KUNEŠOVÁ, M. Convolutional Neural Network in the Task of Speaker Change Detection. In Speech and Computer 18th International Conference, SPECOM 2016, Budapest, Hungary, August 23-27, 2016, Proceedings. Heidelberg: Springer, 2016. s. 191-198. ISBN: 978-3-319-43957-0 , ISSN: 0302-9743
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Convolutional Neural Network in the Task of Speaker Change Detection
Rok vydání: 2016
Místo konání: Heidelberg
Název zdroje: Springer
Autoři: Ing. Marek Hrúz Ph.D. , Ing. Marie Kunešová ,
Abstrakt CZ: Článek představuje přístup k detekci změny řečníka v telefónních koverzacích. Problém detekce řečníka je představen jako klasifikační problém. Používáme konvoluční neuronovou síť k analýze krátkých řečových segmentů. Síť je použita jako regresor. Její výstup popisuje věrohodnost změny řečníka pro daný segment. Použitím prahování je provedeno rozhodnutí o daném segmentu. Experimenty ukazují, že konvoluční neronová síť dosahuje lepších výsledků než referenční systém založen na Bayesově informačním kritériu. Síť velice dobře reaguje na něviděná data produkována dosud neslyšenými řečníky.
Abstrakt EN: This paper presents an approach to detect speaker changes in telephone conversations. The speaker change problem is presented as a classification problem. We use a Convolutional Neural Network to analyze short audio segments. The Network plays a role of a regressor. It outputs higher values for segments that are more likely to contain a speaker change. Upon thresholding the regressed value the decision about the segment is made. The experiment shows that the Convolutional Neural Network outperforms a baseline system based on the Bayesian Information Criterion. It behaves very well on previously unseen data produced by previously unheard speakers.
Klíčová slova

Zpět

Patička