O komputerowym systemie syntezy mowy, skonstruowanym w Gdańsku, leżącym u podstaw m.in.. "Wpinacza" WP
Latem 2001 r. w Gdańsku skonstruowano nowy programowy syntezator naśladujący mowę polską. Czy ten model zaspokoi oczekiwania i potrzeby niewidomych użytkowników komputera i coraz liczniejszego kręgu internautów z wadami widzenia?
Już jako student Politechniki Gdańskiej Łukasz Osowski zainteresował się syntezą mowy komputerowej. W ubiegłym roku, wkrótce po zakończeniu nauki, wraz z dwoma młodszymi kolegami: Arturem Redźko — specjalistą od głosów — oraz Michałem Kaszczukiem — troszczącym się o syntezatorowy „engin” (ang. silnik, mechanizm), otworzyli firmę zajmującą się m.in. produkcją nowego „gadacza”.
Dużej miary sukcesem młodych twórców było opracowanie „Wpinacza” i „Kontaktu” na „Wirtualnej Polsce”, które po raz pierwszy w dziejach nadwiślańskiej i nadodrzańskiej Sieci WWW pozwoliły internautom posmakować tekstu odczytywanego przez wirtualną maszynę.
— Synteza oraz rozpoznawanie mowy to był zawsze mój „konik” — mówi Łukasz Osowski. — Wpadłem kiedyś na pomysł, że fajnie byłoby rozmawiać z przyjaciółmi na czacie, słysząc, a nie tylko czytając ich wiadomości. Udało mi się w „Wirtualnej Polsce” zainteresować szefostwo pomysłem przygotowania mówiącego komunikatora internetowego, oraz mówiącego „Wpinacza”. Oprócz tego prowadziłem również inny duży projekt oparty na syntezie mowy. Program „Kontakt” z wbudowaną syntezą mowy okazał się przebojem rynkowym, między innymi właśnie dzięki tej innowacji. Pierwszym syntezatorem, który słyszałem, był SAM na Atari. Niestety, mówił tylko po angielsku i trudno było go zrozumieć.
Mowa syntetyczna nie ma jeszcze takiego wdzięku jak głos lektorskiej prezentacji, ale ma już swoich zwolenników, również i wśród tych, którzy do tej pory przywykli do czytania tekstu oczyma. Niewidomym internetowe dokumenty „głosem pisane” dostarczyły nowych doznań i otworzyły niedostępne dotychczas obszary sieciowego uniwersum.
Potem przyszedł czas na pracę nad produktem firmowym. Jej efektem jest Spiker IVO, syntezator mogący zainteresować przede wszystkim niewidomych. Program umożliwia im samodzielną obsługę komputera. IVO to odwołanie do określenia: Interactive VOice Software. Podczas prac nad tym urządzeniem gdańscy informatycy musieli rozwiązać wiele problemów dotyczących sposobu używania takiej aplikacji przez osoby z wadami widzenia. Z poradą i wskazówką pośpieszyli im inwalidzi wzroku, od lat posługujący się akustycznym oprotezowaniem peceta, m.in. dr Ryszard Kowalik z Gdańska i Jacek Zadrożny z Warszawy. Prace nad wersją 1.0 Spikera zostały zakończone we wrześniu 2001 roku. Kolejną, udoskonaloną wersję 2.00 zapowiadają na najbliższe tygodnie. Ich syntezator należy do najtańszych. Obecnie kosztuje 399 zł.
Współpracują z IVO popularne screenreadery: Window-Eyes i JAWS. Zastosowanie interfejsu programowego MS SAPI ułatwia podłączenie syntezatora do tych screenreaderów i innych aplikacji korzystających z takich rozwiązań. Użytkownik może swobodnie regulować częstotliwość, szybkość i głośność odczytu.
Twórcy oferują oprogramowanie inteligentne i nowoczesne. Zapewniają, że stosują najnowsze technologie i dzięki takiemu podejściu uzyskują jakość najlepszą z możliwych. Aby osiągnąć taki standard, współpracują z ośrodkami akademickimi w Polsce i na całym świecie.
— Prowadzimy prace nad dalszym rozwojem Spikera — mówi Łukasz Osowski. — Chcemy, aby osoby niewidome w Polsce miały dostęp do takiej jakości programów jak niewidomi w bogatych krajach Europy Zachodniej czy USA. Jednocześnie niewielka cena jest realnym odzwierciedleniem kosztów poniesionych przez twórców i producentów. Obecnie zajmuję się doskonaleniem nowego algorytmu syntezy, który już działa i operuje mową o jakości niewiele różniącej się od naturalnego, żywego języka. Jeszcze trochę badań przede mną — dodaje.
Spikerem IVO posługują się niewidomi w 10 polskich ośrodkach szkolno-wychowawczych. Gdańszczanie obiecują, że w najbliższym czasie podarują swoje syntezatory wszystkim oddziałom wojewódzkim Polskiego Związku Niewidomych. Liczbę użytkowników tego syntezatora w kraju szacują na około 100 osób.
Wszedłem na strony firmowe twórców nowego syntezatora i skopiowałem wersję demonstracyjną. Po zainstalowaniu przekonałem się, jak współpracuje ze screenreaderem Window Eyes 4.11. Trzeba przyznać, że ten głos — zarówno w wersji męskiej i kobiecej brzmi najbardziej naturalnie spośród dotychczas dostępnych polskich syntezatorów, ba, jest tak dalece prawdziwy, że nawet kresowych akcentów można się w nim dosłuchać. Chwilami przypomina sampling, z jakim spotykamy się w udźwiękowionych windach albo automatach telefonicznych. Od doskonałości dzieli go jednak pewien dystans. Brakuje mu jeszcze różnych detali. Trochę nienaturalnie odczytuje zgłoskę „r”.
To niezbyt ładne „r” Osowski tłumaczy niedoskonałością technologii. Miejmy nadzieję, że w kolejnych wersjach Spikera będziemy mieli do czynienia wyłącznie z poprawną generacją polskiej mowy syntetycznej.
— Każdy, kto miałby problemy ze Spikerem, powinien się z nami skontaktować. Chciałbym znaleźć ewentualne błędy i usterki w programie, aby je czym prędzej usunąć.
* * *
Więcej informacji o systemie syntezy mowy można znaleźć w internecie, pod adresem: www.ivo.pl
Stamtąd można też skopiować demonstracyjną wersję najmłodszego polskiego gadacza dla niewidomych użytkowników komputera.
opr. mg/mg