Přejít k obsahu


Tuning Limited Domain Speech Synthesis Using General Text-to-Speech System

Citace:
JŮZOVÁ, M., TIHELKA, D. Tuning Limited Domain Speech Synthesis Using General Text-to-Speech System. In Text, Speech, and Dialogue, 17th International Conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014. Proceedings. Heidelberg: Springer, 2014. s. 408-415. ISBN: 978-3-319-10815-5 , ISSN: 0302-9743
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Tuning Limited Domain Speech Synthesis Using General Text-to-Speech System
Rok vydání: 2014
Místo konání: Heidelberg
Název zdroje: Springer
Autoři: Ing. Markéta Jůzová , Ing. Daniel Tihelka Ph.D.
Abstrakt CZ: Tématem prezentovaného článku je vytváření systému syntézy řeči z limitované oblasti, kde lze využít konkatenace delších jednotek, jako jsou slova a fráze. Místo vytvoření jednoúčelového doménově orientovaného systému pracujícího s delšími jednotkami však ukazujeme, že je možné využít obecný TTS systém jako emulační nástroj, který zajistí správnou funkčnost doménově orientovaného systému. Protože současný obecný systém syntézy řeči používající metodu unit selection pracuje s krátkými řečovými jednotnotkami (difóny), algoritmus výběru jednotek byl modifikován tak, aby předstíral konkatenaci slov nebo dokonce celých frází, přestože interně pracuje stále s difóny. Chování systému je testováno na dvou limitovaných oblastech a jeho výstup je porovnán s výstupem obecné (nemodifikované) verze téhož TTS systému. Výsledky jasně podporují postavení "reálného" doménově orientovaného systému.
Abstrakt EN: The subject of the present paper is the building of a limited domain speech synthesis system, where longer units, like words and phrases, can naturally be concatenated together. However, instead of building a single-purpose domain-oriented engine working with longer units, we show that a general-purpose TTS system can be used as a good emulation tool to ensure that a real domain-oriented engine will work correctly. Since the current general speech synthesis system embedding unit selection method concatenates short speech units (diphones), the selection algorithm has been modified to pretend the concatenation of words or even the whole phrases, while still concatenating diphones internally. The behaviour of the system is tested on two limited domains and its output is compared to the output of general (unmodified) version of the same TTS system. The results show clear encouragement for the build of the ?real? domain-oriented engine.
Klíčová slova

Zpět

Patička