Pomůcky pro sluchově postižené
Sluchově postižený uživatel nemá při používání počítače v cestě prakticky žádné bariéry. Jediné, o co je zcela nebo částečně ochuzen, je zvuk. Na tuto skutečnost bychom měli pamatovat. Informace, kterou chceme sdělit pomocí zvuku, musíme zprostředkovat i alternativním textovým zápisem. Videa je vhodné doplnit o titulky.
V tomto směru začal podnikat kroky i známý video server Youtube, jenž vyvíjí technologii, která bude schopna rozpoznávat řeč. Tímto stylem chce Youtube otitulkovat všechna svá videa.
Technologie rozpoznávání řeči existuje už 50 let, říká technik Googlu Mike Cohen, který na ní pracuje 25 let. "Konečně se však stala dostatečně dobrou pro použití v širším měřítku," řekl Cohen. "Podařilo se ji postupně zlepšit, je to výsledek práce mnoha a mnoha let. Musíme však ještě vyřešit mnoho různých problémů jako rozdíly v přízvuku, hluk v pozadí, rozdíly v jazyce a ve výslovnosti,"

Ilustrace 34: Obecné schéma systému Mluvící hlava

Ilustrace 33: Reálná fotografie a na jejím základě vytvořený počítačový model
Pracovníci z Youtube na tomto projektu spolupracují mimo jiné s Yalskou univerzitou nebo
s universitou v Berkley. Ovšem server Youtube není jediný, kdo pracuje na rozpoznání řeči a jejím následném převodu do psané podoby. V tomto oboru se také velice aktivně angažuje Katedra kybernetiky na Fakultě aplikovaných věd na Západočeské univerzitě v Plzni. V oddělení umělé inteligence na této katedře se věnují vývoji technologie, v rámci projektu s názvem Audiovizuální syntéza řeči, která je schopna převést psaný text do mluvené podoby počítačovým softwarem
s označením "Mluvící hlava". Na následujících ilustracích je znázorněno obecné schéma tohoto systému a zmiňovaná mluvící hlava.
U převodu textu na řeč vývoj neskončil, v rámci dalšího projektu s názvem "Audiovizuální rozpoznávání řeči" byla vyvinuta další technologie schopná převádět mluvenou řeč do textové podoby. Díky tomu lze získaný text použít či interpretovat několika způsoby. Tento software lze použít k otitulkování videí, čímž může být zvuková stopa zpřístupněna neslyšícímu uživateli.
Řeč je produkována řečovým ústrojím a výsledkem produkce řeči člověkem je akustický signál, který můžeme slyšet, a pohyb řečového ústrojí, který můžeme vidět.
Rozpoznání mluvené řeči je složeno ze dvou částí, tedy z části akustické a vizuální. Část vizuální se skládá ze tří základních bloků. Prvním blokem je rozpoznání oblasti zájmu, který má za úkol nalezení hlavy řečníka a nalezení jeho úst na obraze. Dále musí vizuální část projít blokem parametrizace, jehož úkolem je popsání vizuální složky řeči tak, aby popis obsahoval co nejvíce informací o řeči, ale žádné informace o řečníkovi. Poté následuje blok rozpoznání řeči, kde se kombinují informace z vizuální i akustické části, která také prošla blokem parametrizace. Tento systém je zobrazen na následující ilustraci.

Ilustrace 35: Audiovizuální rozpoznávání řeči
U akustického rozpoznání řeči nastává problém, potřebujeme-li technologii využít v hlučném prostředí. Proto je v takovém prostředí vhodné použít k rozpoznávání řeči audiovizuální metodu, porovnávající informace z obou složek řeči, a výsledek je tedy daleko přesnější.

Ilustrace 36: Příklad virtuálního tlumočníka
Získáme-li z mluvené řeči text, můžeme výsledek dále interpretovat například pomocí výše zmiňované "mluvící hlavy" či pro neslyšícího velmi užitečnou syntézou znakové řeči. Kombinací těchto technologií získá neslyšící uživatel virtuálního tlumočníka, který dokáže překládat mluvenou řeč do řeči znakové.

Ilustrace 37: Postup sledování rukou a hlavy
Převod textu do znakové řeči je pro neslyšícího velmi užitečným nástrojem. V Oddělení umělé inteligence Západočeské univerzity v Plzni také vyvinuli technologii, která dokáže rozpoznávat znakovou řeč a tu pak převádět do formy textu. Vstup tohoto rozpoznávače může tvořit například kamera, díky které je získána sekvence snímků, na kterých jsou pak detekovány ruce a hlava.
a) původní snímek b) detekce barvy kůže c) detekce rukou a hlavy d) trajektorie pohybu rukou celého znaku e) detekce polohy hlavy, očí a úst.
Znaková řeč je stejně jako mluvená řeč tvořena dvěma složkami. V tomto případě se jedná
o složku manuální a nemanuální. Do manuální je zařazen tvar, pohyb a orientace rukou a také místa artikulace. Nemanuální složku tvoří výraz obličeje, artikulace rtů, póza těla či rychlost mluvy.
Pro zjištění trajektorie pohybu rukou se používá takzvaný tracking, což je algoritmus, který je schopen sledovat pohyb objektu na po sobě jdoucích snímcích. Toto funguje za předpokladu, že je pohyb objektu spojitý a nemění rapidně svůj vzhled. Vážný problém u této technologie nastává, když se ruce překrývají, k čemuž u znakové řeči dochází poměrně často.
Důležitá část nemanuální složky je tvar rtů. Ten se zkoumá i u audiovizuálního rozpoznávání řeči a analogicky se dá převést na problém rozpoznávání znakové řeči. Výraz v obličeji se dá zkoumat jako emoce.
Je-li vytvořen popis na základě pozorovaných snímků vstupní sekvence, nastává fáze rozpoznávání. To probíhá postupným "učením" systému tím, že mu předkládáme jednotlivé, staticky popsané znaky znakové abecedy. Systém poté porovnává znaky ze své databáze se znaky získanými ze vstupu a vyhodnotí jejich podobnost.