Přejít k obsahu


Reducing Footprint of Unit Selection TTS System by Excluding Utterances from Source Speech Corpus

Citace: [] MATOUŠEK, J., TIHELKA, D., HANZLÍČEK, Z. Reducing Footprint of Unit Selection TTS System by Excluding Utterances from Source Speech Corpus. In Speech Processing. Prague: Institute of Photonics and Electronics AS CR, 2009. s. 92-99. ISBN: 978-80-86269-18-4
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Reducing Footprint of Unit Selection TTS System by Excluding Utterances from Source Speech Corpus
Rok vydání: 2009
Místo konání: Prague
Název zdroje: Institute of Photonics and Electronics AS CR
Autoři: Doc. Ing. Jindřich Matoušek Ph.D. , Ing. Daniel Tihelka Ph.D. , Ing. Zdeněk Hanzlíček
Abstrakt CZ: Současné systémy syntézy řeči na principu výběru jednotek jsou schopné vytvářet řeč vysoké kvality na úkor extrémních výpočetních a paměťových nároků. V tomto článku je provedena analýza stávajícího velkého řečového korpusu používaného pro syntézu české řeči metodou výběru jednotek. Následně je navržena metoda pro vyhození určitého počtu promluv ze zdrojového řečového korpusu. Procedura vychází ze statistik využívání všech promluv během TTS syntézy velkého množství textu. Vyhození celých promluv bylo preferováno před vyhazováním konkrétních instancí řečových jednotek, aby byla zachována hlavní vlastnost principu výběru jednotek - výběr co možná nejdelší posloupnosti spojitých řečových jednotek. Po vyhození vybraných vět se paměťové nároky snížily přibližně o 42 %. Kvalita výsledné syntetizované řeči byla hodnocena pomocí 5-ti bodových poslechových testů CCR v průměru jako "trochu horší" než řeč generovaná původním (tj. neredukovaným) systémem.
Abstrakt EN: Current unit selection speech synthesis systems are capable of producing speech of a high quality at the expense of enormous computational and storage requirements. In this paper, the analysis of an existing large speech corpus employed for unit-selection-based synthesis of Czech speech is performed. Subsequently, a procedure for the exclusion of some amount of utterances from the source speech corpus is proposed. The procedure is based on the statistics of the utilisation of all utterances during text-to-speech synthesis of a large portion of texts. The exclusion of whole utterances was preferred over the exclusion of the particular instances of speech units in order to preserve the main feature of unit selection framework - to select as longest sequence of contiguous speech units as possible. After the exclusion, the footprint of the system was reduced approximately by 42 %. The resulting synthetic speech was then judged by means of 5-scale CCR listening tests and evaluated in average as only "slightly worse" than speech generated by the baseline (i.e. not reduced) system.
Klíčová slova

Zpět

Patička