Data: Środa, 23 stycznia 2008, 10:12

Szeptanie wystarczy


Cyfrowe kamery wideo już dawno przestały służyć jedynie do rejestrowania obrazu. Coraz częściej stosowane są automaty czytające tablice rejestracyjne samochodów, rozpoznające rysy twarzy, czy poszukujące podejrzanych pakunków na dworcach i lotniskach. Najnowszą umiejętnością maszyn może stać się czytanie z ruchu warg i przekształcanie "oglądanych" rozmów na pliki tekstowe.

Twórcami oprogramowania analizującego nagrania wideo są naukowcy z University of East Anglia i Surrey University. Podstawowym celem ich pracy jest stworzenie narzędzia dla osób niesłyszących, które pozwalałoby wydawać komputerom polecenia "głosowe" w głośnym otoczeniu. Aby osiągnąć planowaną skuteczność, opracowywany system będzie musiał śledzić ruchy głowy mówiącego i wydobywać potrzebne do analizy informacje pomimo zmiennych kątów "patrzenia" na twarz danej osoby. Ponadto konieczne jest prawidłowe kojarzenie rozpoznanych ruchów z informacjami tekstowymi.

Pierwsza część oprogramowania, śledząca mówiącego i rozpoznająca ruchy warg, już została napisana. Obecnie trwają prace nad stworzeniem bazy danych wiążącej owe ruchy i grymasy twarzy z różnymi kombinacjami liter. Zdaniem uczestniczącego w pracach doktora Richarda Harveya, działający prototyp oprogramowania będzie gotowy w ciągu dwóch lat.

Przemysław Kobel
| Drukuj | Zamknij |