Přejít k obsahu


Experiments on Reducing Footprint of Unit Selection TTS System

Citace: HANZLÍČEK, Z., MATOUŠEK, J., TIHELKA, D. Experiments on Reducing Footprint of Unit Selection TTS System. In Text, Speech, and Dialogue. Heidelberg: Springer, 2013. s. 249-256. ISBN: 978-3-642-40584-6 , ISSN: 0302-9743
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Experiments on Reducing Footprint of Unit Selection TTS System
Rok vydání: 2013
Místo konání: Heidelberg
Název zdroje: Springer
Autoři: Ing. Zdeněk Hanzlíček Ph.D. , Doc. Ing. Jindřich Matoušek Ph.D. , Ing. Daniel Tihelka Ph.D.
Abstrakt CZ: Kvalita řeči produkované moderními TTS systémy využívajícími metodu výběru jednotek je vysoká, avšak systémové nároky jsou veliké. Paměťové požadavky jsou přímo úměrné velikosti inventáře řečových jednotek, ze kterého jsou jednotky v průběhu syntézy vybírány. Článek obsahuje analýzu této problematiky a popis experimentů provedených na dvou velkých řečových korpusech. Je zde navržena procedura vylučování celých vět z výchozího řečového korpusu založená na statistikách využití jednotlivých řečových jednotek. Experimenty jsou provedeny pro různé úrovně redukce. Výsledná syntetická řeč byla ohodnocena s využitím navržené statistiky založené na hustotě bodů řetězení. Kvalita výsledné řeči byla rovněž ohodnocena v poslechových testech, v nichž byla hodnocena jako mírně horší než v případě výchozího systému.
Abstrakt EN: The quality of speech produced by modern TTS systems utilizing the unit selection approach is very high. However, the system demands are enormous. The storage requirements are directly proportional to the size of speech unit inventory from which the units are selected during the synthesis process. This paper presents the analysis and reduction experiments performed on two large speech corpora employed by a unit selection TTS system for the Czech language. A procedure for exclusion of utterances from the default speech corpus based on statistics of the usage of particular speech units was proposed. The exclusion of whole utterances from the corpus was preferred over the exclusion of individual speech units in order to preserve the fundamental feature of the unit selection method ? selection of possibly longest sequences of speech units. Experiments were performed for several reduction levels. Resulting synthetic speech was evaluated by a proposed statistics based on the concatenation points density. Moreover, the speech quality was evaluated in listening tests. All reduced versions of TTS system were evaluated as similar or slightly worse than the baseline system.
Klíčová slova

Zpět

Patička