Přejít k obsahu


HMM-based Speech Synthesis: Fist Experiments for the Czech Language

Citace: [] HANZLÍČEK, Z. HMM-based Speech Synthesis: Fist Experiments for the Czech Language. In Speech Processing. Prague: Institute of Photonics and Electronics Academy of Sciences of the Czech Republic, Prague, 2010. s. 128-135. ISBN: 978-80-86269-21-4
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: HMM-based Speech Synthesis: Fist Experiments for the Czech Language
Rok vydání: 2010
Místo konání: Prague
Název zdroje: Institute of Photonics and Electronics Academy of Sciences of the Czech Republic, Prague
Autoři: Ing. Zdeněk Hanzlíček Ph.D.
Abstrakt CZ: Článek pojednává o prvních experimentech s HMM syntézou pro český jazyk. Řečový signál je reprezentován pomocí tradiční melovské kepstrální analýzy, případně je použita vysoce kvalitní metoda STRAIGHT. Prozodické a lingvistické charakteristiky českého jazyka jsou zohledněny při návrhu tzv. kontextuálních faktorů. V experimentech je sledován např. vliv množství trénovacích dat. Ukázalo se, že pro dostatečné množství dat systém produkuje řeč podobné kvality jako referenční konkatenační TTS systém ARTIC. Dále bylo provedeno několik základních experimentů s adaptací natrénovaných HMM modelů, tím lze získat nový hlas s mnohem nižšími požadavky na množství dat.
Abstrakt EN: In this paper, first experiments on statistical parametric HMM-based speech synthesis for the Czech language are described. For speech representation, two different analysis/synthesis methods were employed: traditional Mel cepstral analysis and a high-quality analysis/synthesis method STRAIGHT. Regarding the prosodic and linguistic characteristics of the Czech language, a basic set of contextual factors was proposed. Our experiments showed that disregarding syllabic structure of speech has an insignificant influence on resulting speech quality. The effect of training data amount was also studied. Results indicate, that our experimental HMM-based TTS system can produce speech of a similar quality as unit selection-based TTS system trained with a larger amount of speech data. Furthermore some simple experiments with the adaptation of trained HMMs were performed. In this manner new voices could be obtained with significantly lower amount of speech data.
Klíčová slova

Zpět

Patička