Přejít k obsahu


Modelling F0 Dynamics in Unit Selection Based Speech Synthesis

Citace:
TIHELKA, D., MATOUŠEK, J., HANZLÍČEK, Z. Modelling F0 Dynamics in Unit Selection Based Speech Synthesis. In Text, Speech, and Dialogue, 17th International Conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014. Proceedings. Heidelberg: Springer, 2014. s. 457-464. ISBN: 978-3-319-10815-5 , ISSN: 0302-9743
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Modelling F0 Dynamics in Unit Selection Based Speech Synthesis
Rok vydání: 2014
Místo konání: Heidelberg
Název zdroje: Springer
Autoři: Ing. Daniel Tihelka Ph.D. , Doc. Ing. Jindřich Matoušek Ph.D. , Ing. Zdeněk Hanzlíček Ph.D.
Abstrakt CZ: V obvyklých implementacích metody syntézy řeči výběrem jednotek se měří spojitost F0 jako jeden z příznaků ceny řetězení, a předpokládá se, že dostatečně malý rozdíl hodnot F0 zajistí plynulý přechod mezi jednotkami (co se týče melodie řeči). K měření spojistosti se obvykle používá statická hodnota F0 spočtená na hranicích jednotek. V tomto článku ale ukážeme, že použití statické hodnoty F0 k dosažení plynulého řetězení řečových jednotek nestačí, a že je třeba brát v úvahu dynamickou podstatu průběhu F0 kontur. Ukážeme dvě schemata jak pracovat s dynamickou konturou F0 a k jejich porovnání použijeme poslechové testy, ve kterých jsou obsaženy speciálně vybrané fráze obsahující nepřirozené artefakty. Také prodiskutijeme výhody a nevýhody jednotlivých schémat.
Abstrakt EN: In the common unit selection implementations, F0 continuity is measured as one of concatenation cost features with the expectation that smooth units transition (regarding speech melody) is ensured when the difference of F0 is low enough. This measure generally uses a static F0 value computed at the units boundary. In the present paper we show, however, that the use of static F0 values is not enough for smooth speech units concatenation, and that a dynamic nature of the F0 contour must be taken into account. Two schemes of dynamic F0 handling are presented, and speech generated by both schemes is compared by means of listening tests on specially selected phrases which are known to carry unnatural artefacts. Advantages and disadvantages of the individual schemes are also discussed.
Klíčová slova

Zpět

Patička