Přejít k obsahu


REDUCING FOOTPRINT OF UNIT SELECTION TTS SYSTEM BY REMOVING LINGUISTIC SEGMENTS WITH RARELY SELECTED UNITS

Citace:
GRŮBER, M., MATOUŠEK, J., TIHELKA, D., HANZLÍČEK, Z. REDUCING FOOTPRINT OF UNIT SELECTION TTS SYSTEM BY REMOVING LINGUISTIC SEGMENTS WITH RARELY SELECTED UNITS. In Proceedings,12th International Conference on Signal Processing. Beijing: IEEE, 2014. s. 494-499. ISBN: 978-1-4799-2188-1 , ISSN: 2164-5221
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: REDUCING FOOTPRINT OF UNIT SELECTION TTS SYSTEM BY REMOVING LINGUISTIC SEGMENTS WITH RARELY SELECTED UNITS
Rok vydání: 2014
Místo konání: Beijing
Název zdroje: IEEE
Autoři: Ing. Martin Grůber Ph.D. , Doc. Ing. Jindřich Matoušek Ph.D. , Ing. Daniel Tihelka Ph.D. , Ing. Zdeněk Hanzlíček Ph.D. ,
Abstrakt CZ: Článek se zabývá redukcí velikosti řečových korpusů, které se používají v TTS systémech založených na metodě výběru jednotek. Velikost korpusu ovlivňuje požadavky na systém, jako například systémové úložiště, paměť a výpočetní náročnost. Korpusy obvykle obsahují několik tisíc vět proto, aby výsledná syntéza řeči byla co nejvyšší kvality. Vhodná redukce řečového korpusu může snížit nároky na systém. V této práci je prezentováno srovnání dopadů redukce řečového korpusu na výslednou kvalitu řeči při odstranění specifických realizací lingvistických segmentů různých typů, a to: celých vět, frází, slov a difonů. Z korpusu jsou vždy odstraněny pouze ty segmenty, které obsahují nejméně používané řečové jednotky, tak, aby výsledná velikost korpusu dosáhla předem definované hodnoty. Výsledky potvrzují, že syntetická řeč generovaná TTS systémy s redukovanými korpusy je o něco horší kvality než řeč generovaná původním TTS systémem využívajícím celý řečový korpus. Je také ukázáno porovnání syntetické řeči generované TTS systémy s různě redukovanými korpusy.
Abstrakt EN: This paper is focused on reducing the size of speech corpora that are used in the unit-selection-based TTS systems. The size of a speech corpus influences the system requirements like storage and memory demands and computational complexity. For high quality speech synthesis, the speech corpus usually consists of several thousands of sentences. Thus an appropriate reduction of the corpus size is likely to lead to a decrease in the system requirements. In this work, a comparison of impacts on synthetic speech quality is presented when removing specific instances of different linguistic segment types from the original corpus. Removal of the following segment types is used and compared with each other: whole sentences, phrases, words, and diphones. Only segments with rarely selected units are removed from the corpus so that the resulting footprint size reaches a predefined value. Results confirm that synthetic speech generated by the TTS systems using the reduced corpora is of a slightly worse quality when compared with speech produced by the system employing the original full corpus. The comparison of the reduction based on different linguistic segments is also presented here.
Klíčová slova

Zpět

Patička