Přejít k obsahu


Speech synthesis in ARTIC TTS system

Citace: [] MATOUŠEK, J., ROMPORTL, J., TIHELKA, D. Speech synthesis in ARTIC TTS system. In Speech processing. Prague: Academy of Sciences of the Czech Republic, 2004. s. 135-139. ISBN: 80-86269-11-6
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Speech synthesis in ARTIC TTS system
Rok vydání: 2004
Místo konání: Prague
Název zdroje: Academy of Sciences of the Czech Republic
Autoři: Jindřich Matoušek , Jan Romportl , Daniel Tihelka
Abstrakt CZ: ARTIC je korpusově orientovaný systém využívající pečlivě připravený rozsáhlý řečový korpus nahraný jedním řečníkem. Inventář akustických jednotek se vytváří zcela automaticky pomocí statistického přístupu. Bylo dosaženo několika vylepšení, vedoucích ke zvýšení srozumitelnosti výsledné řeči. Dále byly navrženy 2 přístupy ke generování prozodických charakteristik řeči. Pravidlově založený přístup využívá lingvisticky motivovaná pravidla odvozená na základě fonetického výzkumu a popisu suprasegmentálních vlastností řeči. Datově řízený přístup využívá prozodický model, jehož parametry se nastavují automaticky z reálných řečových dat uložených v korpusu. Byly též provedeny experimenty s on-line výběrem jednotek (za účelem vytvoření co nejplynuleší syntetické řeči). Řeč se vytváří pomocí metody OLA. Experimentovali jsme též s harmonickým/šumovým modelem vytváření řeči. V současné době ARTIC obsahuje 2 české hlasy a také moduly německého a slovenského jazyka.
Abstrakt EN: ARTIC is a corpus-based system that employs a carefully designed large speech corpus collected from a single speaker. Statistical approach is applied to create an acoustic unit inventory in a fully automatic way. Several improvements have been accomplished to increase the intelligibility of the resulting speech. Two approaches to the generation of prosodic features were proposed. The rule-based approach applies a set of linguistically motivated rules derived from phonetic research and description of the suprasegmental speech phenomena. The data-driven approach employs a prosodic model, which parameters are set up automatically using real speech data from a corpus. To produce as smooth synthetic speech as possible, a on-line unit candidate selection was experimented with as well. Speech is produced using an OLA method. Some experiments were also made with an harmonic/noise-based speech production method. Nowadays, Slovak and German language modules are implemented besides two Czech voices.
Klíčová slova

Zpět

Patička