Sinteza govora
Sinteza govora je veštačko proizvođenje ljudskog govora. Računarski sistem koji se koristi za ovu svrhu zove se sintisajzer govora i može biti ugrađen u softver ili u hardver. Tekst-u-govor sistem (TGS) konvertuje pisani tekst u govor; ostali sistemi prebacuju simboličke lingvističke reprezentacije, kao što su fonetska transkripcija, u govor.
Sintezovan govor može biti kreiran i spajanjem delova snimljenog govora koji je smešten u bazi podataka. Sistemi se razlikuju u veličini skladištenih govornih jedinica; sistem koji skladišti glasove ili dvoglase omogućava najširi spektar izlaznih podataka ali jasnoća može biti nešto lošija. Za specifične domene upotrebe skladištenje celih reči ili rečenica omogućava izlazne podatke visokog kvaliteta. Alternativno, sintisajzer može uključiti i model vokalnog trakta i druge karakteristike ljudskog glasa da bi kreirao u potpunosti „vestačke“ izlazne podatke glasa.
Kvalitet sintisajzera govora određuje se po njegovoj sličnosti sa ljudskim govorom i po njegovoj razumljivosti. Razumljivost tekst-u-govor programa omogućava ljudima sa oštećenim vidom i problemima sa čitanjem da slušaju napisana dela na kućnom računaru. Od ranih osamdesetih godina dvadesetog veka mnogi računarski operativni sistemi u sebi sadrže sintisajzer govora.
Opšti pregled obrade teksta
[уреди | уреди извор]Tekst-u-govor sistem (ili „mašina“) je sastavljena iz dva dela: front-end-a i back-end-a. Front-end ima dva osnovna zadatka. Prvo, on konvertuje sirov tekst koji sadrži brojeve i skraćenice u njihove ekvivalente napisanih reči. Ovaj proces se obično naziva normalizacija, pred-obrada ili tokenizacija teksta. Front-end tada dodeljuje fonetsku transkripciju svakoj reči, deli i obeležava tekst u prozodijske jedinice, poput fraza, klauza i rečenica. Proces dodeljivanja fonetske transkripcije rečima zove se konverzija tekst-u-fonemu ili grafema-u-fonemu. Fonetska transkripcija i informacija o prozodiji zajedno čine simboličku lingvističku reprezentaciju koja postaje izlazni podatak putem front-end-a. Back-end, o kojem se obično govori kao o sintisajzeru, onda konvertuje simboličku lingvističku reprezentaciju u govor.
Istorija
[уреди | уреди извор]Mehanički uređaji
[уреди | уреди извор]Mnogo pre nego što je izmišljena obrada elektronskih signala postojali su ljudi koji su pokušavali da naprave mašine koje će proizvesti ljudski govor. Rane primere „glava koje govore“ napravili su Gerbert od Aurilaka, Albert Veliki i Rodžer Bejkon.
Godine 1779. danski naučnik Kristijan Kratenstajn, radeći za Rusku akademiju nauka, napravio je modele ljudskog vokalnog trakta koji je mogao da proizvede pet dugih vokala ([aː], [eː], [iː], [oː] and [uː]). Nakon toga napravljena je „akustičko-mehanička govorna mašina“ koja je radila na principu mehova, koju je napravio Volfgang fon Kempelen iz Beča. Opisao ju je u svom radu iz 1791. godine. Ovoj mašini dodati su modeli jezika i usana, omogućivši joj da proizvodi kako konsonante tako i vokale. Čarls Vitstoun napravio je 1837. „govornu mašinu“ zasnovanu na von Kempelenovom dizajnu, a 1857. M. Faber je napravio „Eufoniju“. Vitstounov dizajn je ponovo uveden 1923. od strane Padžeta.
Tridesetih godina dvadesetog veka, u Bel Laboratorijama napravljen je VOKODER, elektronski analizator i sintisajzer govora kojim se upravlja putem tastature, koji je bio vrlo razumljiv. Homer Dadli je usavršio ovaj uređaj u VODER, koji je izložio na Njujorškom Svetskom Sajmu 1939.
Ponovljeni model su napravili dr Frenklin S. Kuper i njegovi saradnici u Haskins Laboratorijama kasnih 1940-ih, a završili su ga 1950. godine. Bilo je nekoliko raznih verzija ovog hardverskog uređaja ali samo jedan je opstao i do danas. Ova mašina konvertuje slike akustičkih uzoraka govora u formi spektograma u zvuk. Koristeći ovaj uređaj Alvin Liberman i njegove kolege uspeli su da otkriju akustičke signale za percepciju fonetskih segmenata (konsonanata i vokala).
Rani elektronski sintisajzeri govora su zvučali poput robota i često su bili jedva razumljivi. Kako bilo, kvalitet sintetizovanog govora vremenom se poboljšao i izlazne podatke savremenih sistema sinteze govora je ponekad teško razlikovati od pravog ljudskog govora.
Elektronski uređaji
[уреди | уреди извор]Prvi sistem sinteze govora zasnovan na radu računara napravljen je kasnih 1950-ih godina, a prvi kompletan tekst-u-govor sistem je završen 1968. godine. 1961. godine, fizičar Džon Lari Keli Junior i njegov kolega Luis Grestman koristili su računar IBM 704 za sintezu govora, što je bio jedan od značajnijih događaja u istoriji Bel Laboratorija. Kelijev sintisajzer snimanja glasa (vokoder) reprodukovao je pesmu Daisy Bell uz muzičku pratnju Maksa Metjuza. Slučajno, Artur Klark bio je u poseti kod svog prijatelja i kolege Džona Pirsa u Murej Hil ustanovi pri Bell Laboratorijama. Klark je bio toliko impresioniran demonstracijom da ju je iskoristio u uzbudljivoj sceni svog scenarija za svoju novelu 2001:Odiseja u svemiru, gde računar HAL 9000 peva istu pesmu dok ga astronaut Dejv Bovman uspavljuje. Uprkos uspehu potpune elektronske sinteze govora i dalje se vrše istraživanja o mehaničkim sintisajzerima govora za upotrebu za čovekolike robote.
Tehnologije sintisajzera
[уреди | уреди извор]Najvažniji kvaliteti sistema sinteze govora su prirodnost i jasnoća. Prirodnost opisuje koliko izlazni podaci zvuče kao ljudski govor, dok jasnoća predstavlja nivo razumljivosti izlaznih podataka. Idealni govorni sintisajzer je kombinacija prirodnosti i jasnoće tako da sistem sinteze govora obično pokušava da zastupi obe karakteristike u što većoj meri.
Dve osnovne tehnologije za generisanje talasnih formi sintetičkog govora su povezivačka sinteza i formantska sinteza. Svaka od ove dve sinteze ima svoje dobre i loše strane, a koja od sinteza će se upotrebiti zavisi od upotrebne namere.
Povezivačka sinteza
[уреди | уреди извор]Povezivačka sinteza se zasniva na povezivanju segmenata snimljenog govora. U suštini, povezivačka sinteza proizvodi sintetični govor koji zvuči najprirodnije. Kako bilo, razlike između prirodnih varijacija u govoru i prirode automatizovanih tehnika za segmentiranje talasnih formi ponekad mogu rezultovati vidnim greškama u izlaznim podacima. Postoje tri glavna podtipa povezivačke sinteze.
Sinteza selekcije jedinica
[уреди | уреди извор]Sinteza selekcije jedinica koristi velike baze podataka za snimanje govora. Tokom pravljenja baze podataka svaka snimljena rečenica se segmentuje u neke ili sve od sledećih: pojedinačne glasove, slogove, morfeme, reči, fraze i rečenice. Deljenje na segmente se izvodi korišćenjem specijalno modifikovanog prepoznavača govora podešenog na mod „prisiljenog svrstavanja“ posle čega se ručno vrše korekcije koristeći vizuelne reprezentacije kao što su talasne forme i spektogram. Indeks jedinica u bazi podataka govora se onda kreira na osnovu segmentacije i akustičkih parametara u koje spadaju osnovna frekvencija (pič), trajanje, pozicija u slogu i susedni glasovi. Za vreme izvršenja, željna ciljana rečenica se kreira determinisanjem najboljeg lanca kandidatskih jedinica iz baze podataka (selekcija jedinica). Ovaj proces se uglavnom postiže posebno značajnim stablom odluke.
Selekcija jedinica omogućava najveću prirodnost zato što priključuje samo malu količinu digitalne obrade signala (DOS) u snimljen govor. DOS obično čini snimljeni govor manje prirodnim iako neki sistemi koriste male količine procesuiranja govora u tački koncentracije da bi ublažili talasne forme. Izlazni podaci formirani najboljom selekcijom jedinica sistema se uglavnom ne razlikuju od pravog ljudskog govora, posebno u kontekstima u kojima je uključen TTS sistem. U principu, maksimalna prirodnost zahteva da baze podataka selekcije jedinica govora budu vrlo velike, a koje se u nekim sistemima mere gigabajtima snimljenih podataka, predstavljajući tako desetine sati govora.
Sinteza dvoglasa
[уреди | уреди извор]Sinteza dvoglasa koristi minimalnu bazu podataka govora koja sadrži sve dvoglase (prelaze iz glasa u glas) koji se javljaju u jeziku. Broj dvoglasa zavisi od fonotaktike jezika: npr. španski jezik ima oko 800 dvoglasa, a nemački oko 2500. U sintezi dvoglasa, samo jedan primer svakog dvoglasa je sadržan u bazi podataka govora. Za vreme izvršenja, ciljana prozodija rečenice je dodata ovim minimalnim jedinicama putem tehnika procesuiranja digitalnih signala kao što su predvidivo linearno kodiranje, PSOLA i MRBOLA. Kvalitet krajnjeg govora je uglavnom lošiji od govora sistema selekcije jedinica, ali zvučnost je prirodnija od izlaznih jedinica sisntisajzera formanata. Mane sinteze dvoglasa su to što imaju akustičke smetnje pri povezivačkoj sintezi, kao i to što zvuče poput robota u formantskoj sintezi i imaju samo nekoliko prednosti bilo kog pristupa i pored male veličine. Kao takva, upotreba sinteze dvoglasa u komercijalne svrhe opada, ali se i dalje koristi u istraživanjima jer sadrži brojne besplatno dostupne softverske alatke.
Sinteza specifičnih domena
[уреди | уреди извор]Sinteza specifičnih domena sakuplja prethodno snimljene reči i fraze da bi sastavila cele rečenice. Koristi se u aplikacijama gde je raznovrsnost tekstova koje će sistem izvršiti ograničen na određeni domen, kao što je prelazni plan najavljivanja vremenske prognoze. Tehnologiju je veoma jednostavno sprovesti i koristi se u komercijalne svrhe veoma dugo u uređajima poput sata koji govori i kalkulatorima. Nivo prirodnosti ovih sistema može biti veoma visok jer je raznolikost tipova rečenica ograničena i jer se one u velikoj meri podudaraju sa prozodijom i intonacijom originalnih snimaka.
Zbog ograničenosti ovih sistema rečima i frazama iz njihovih baza podataka, oni se ne koriste u široke svrhe i mogu sintenzovati samo kombinacije reči i fraza koje su programirane. Spajanje reči u prirodnom izgovornom jeziku može i dalje zadavati probleme osim ako su mnoge varijacije uzete u obzir. Na primer, u nerotičkim dijalektima engleskog jezika <r> u rečima poput <clear> /ˈkliːə/ se izgovara uglavnom samo kada sledeća reč za svoje prvo slovo ima vokal (npr. <clear out> se izgovara /ˌkliːəɹˈɑʊt/). Ova alternacija ne može biti reprodukovana jednostavnim sistemom povezivanja reči, koji bi zahtevao dodatnu kompleksnost da bude kontekstno osetljiva.
Sinteza formanata
[уреди | уреди извор]Sinteza formanata ne koristi uzorke ljudskog govora tokom izvršenja. Umesto njih, izlazni podaci sintezovanog govora kreiraju se korišćenjem akustičkog modela. Parametri poput nivoa osnovne frekvencije, zvučnosti i glasnoće se menjaju tokom vremena da bi stvorili talasnu formu veštačkog govora. Ovaj metod se ponekad naziva sinteza na bazi pravila; kako bilo, mnoge povezivačke sinteze takođe imaju komponente zasnovane na pravilima.
Mnogi sistemi zasnovani na tehnologiji sinteze govora generišu veštački govor koji zvuči poput govora robota koji se nikako ne bi mogao pomešati sa ljudskim govorom. Maksimalna prirodnost nije uvek cilj sistema sinteze govora i sistemi sinteze formanata imaju prednost u odnosu na povezivačke sisteme. Formantski sintezovan govor može biti pouzdano razumljiv čak i pri veoma velikoj brzini, izbegavajući akustičke smetnje koje obično spajaju povezivačke sisteme. Sintenzovan govor velike brzine koriste osobe sa oštećenim vidom da bi lakše upravljale računarom koristeći čitač ekrana. Sintisajzeri formanata su češće manji programi nego povezivački sistemi jer nemaju bazu podataka sa uzorcima govora. Zbog toga mogu biti korišćeni u ugrađenim sistemima, gde su memorija i snaga mikroprocesora posebno ograničeni. Zato što sistemi bazirani na obradi formanata imaju potpunu kontrolu nad svim aspektima izlaznih jedinica govora, velika raznovrsnost prozodije i intonacija može se čuti u izlaznim jedinicama prenoseći tako ne samo pitanja i stavove, već i razne emocije i tonove glasa.
Primeri ne kratkog vremena već visoko precizne kontrole intonacije u sintezi formanata sačinjeni su u radu iz kasnih '70-ih za igračku Govori i Čitaj koja je rađena u fabrici Texas Instruments i radu rađenom ranih 80-ih, Sega mašine. Kreiranje odgovarajuće intonacije za ove projekte bilo je marljivo, a rezultati će tek biti podešeni kratkovremenskim tekst-u-govor interfejsovima.
Altikulatorna sinteza
[уреди | уреди извор]Artikulatorna sinteza se odnosi na računarske tehnike za sintetizovanje govora zasnovano na modelima ljudskog vokalnog trakta i artikulatornim procesima koji se tamo dešavaju. Prvi artikulatorni sintisajzer koji je redovno korišćen u laboratorijskim eksperimentima napravio je Filip Rubin u Haskins laboratorijama sredinom 1970-ih godina. Ovaj sintisajzer, poznat kao ASY, bio je zasnovan na modelima vokalnog trakta napravljenog u Bel Laboratorijama od strane Pola Melmerstajna, Sesila Kupera i njihovih kolega.
Do skoro, modeli artikulatorne sinteze nisu bili ugrađivani u komercijalne sisteme sinteze govora. Jedini izuzetak je sistem baziran na NeXT sistemu koji je prvobitno napravio i izbacio na tržište Trillium Sound Research kompanija u okviru Univerziteta u Kalgariju, gde je i obavljen najveći deo istraživanja. Prateći neuspehe raznih inkarnacija NeXT-a (koje je započeo Stiv Džobs kasnih 1980-ih godina, a spojio se sa Apple Computer-ima 1997. god.) Trillium softver je objavljen od strane GNU General Public Licence, a rad se nastavio kao gnugovor (engl. gnuspeech). Sistem, prvobitno pušten u marketing 1994, omogućava potpunu tekst-u-govor konverziju zasnovanu na artikulaciji pomoću talasa ili linijskog prenošenja analognog ljudskoj usnoj ili nosnoj duplji koju kontroliše Kareov „model karakterističnog regiona“.
Sinteza na osnovu SMM-a
[уреди | уреди извор]Sinteza na osnovu SMM-a je metod sinteze zasnovan na skrivenim Markovljevim modelima. U ovom sistemu, frekvencijski spektar (vokalni trakt), osnovna frekvencija (vokalni izvor), i trajanje (prozodija) govora su istovremeno modelovani od stane SMM-a. Talasne forme govora generisane su iz SMM-a zasnovane na kriterijumu maksimalne verovatnoće.
Sinewave sinteza
[уреди | уреди извор]Sinewave sinteza je tehnika sintetizovanja govora zamenom formanata čistim tonskim zvižducima.
Izazovi
[уреди | уреди извор]Izazovi normalizacije teksta
[уреди | уреди извор]Proces normalizacije teksta je retko jasan. Tekstovi su puni heteronima, brojeva i skraćenica, koje zahtevaju proširenje u fonetsku reprezentaciju. U engleskom jeziku postoje reči koje se u zavisnosti od konteksta različito izgovaraju, a isto se pišu. Na primer, u rečenici „My latest project is to learn how to better project my voice“ reč „project“ se pojavljuje dva puta ali se ne izgovara isto.
Većina tekst-u-govor sistema ne generiše semantičke informacije svog teksta, jer procesi koji ovo rade nisu pouzdani, dovoljno razumljivi ili računarski efikasni. Kao rezultat, razne heurističke tehnike koriste se kao podesan način za razlikovanje homografa, poput ispitivanja okolnih reči i korišćenja statistike o tome koliko često se neka reč pojavljuje u tekstu.
Rešavanje kako će se konvertovati brojevi je drugi problem koji TUG sistemi treba da reše. To se rešava jednostavnim programom koji prebacuje brojeve u reči, npr. „1325“ postaje „jedna hiljada tri stotine i dvadesetpet“. Kako bilo, brojevi se pojavljuju u dosta različitih konteksta; kada su u sklopu adrese „1325“ bi trebalo pročitati „trinaest dvadesetpet“, ili, u broju socijalnog osiguranja „jedan tri dva pet“. TUG sistem uglavnom može da zaključi kako da razvije broj na osnovu okolnih reči, brojeva i izgovora, a nekada sistem može da predvidi kako da specifikuje kontekst ako postoji više mogućnosti.
Slično, skraćenice mogu biti višeznačne. Na primer, „in“ koje označava „inč“ mora biti razlikovano od reči „in“ (predlog „u“). TUG sistem sa bogatim front end-ovima može napraviti izuzetne pretpostavke u vezi sa višeznačnim skraćenicama, dok drugi daju iste rezultate u svim slučajevima, tako dajući besmislene (i ponekad smešne) izlazne podatke.
Tekst-u-fonemu izazovi
[уреди | уреди извор]Sistem sinteze govora koristi dva osnovna pristupa da odredi izgovor reči zasnovan na pisanoj formi, proces koji se obično naziva tekst-u-fonemu ili grafema-u-fonemu konverzija (fonema je termin koji koriste lingvisti za opisivanje distinktivnih glasova u jeziku). Najjednostavniji pristup za tekst-u-govor konverziju je pristup na bazi rečnika, gde je veliki rečnik koji sadrži sve reči jezika i njihovim tačnim izgovorom sadržan u programu. Određivanje tačnog izgovora svake reči vrši se traženjem svake reči u rečniku i zamenjivanjem pisane forme izgovorom koji je specifikovan u rečniku. Drugi pristup je zasnovan na pravilima, gde su pravila izgovora data uz reči da odrede njihov izgovor na osnovu njihove pisane forme. Ovo je slično kao pristup „sounding out“ (engleski termin) ili sintetičke akustike učenja izgovora.
Svaki pristup ima svoje prednosti i nedostatke. Pristup na bazi rečnika je brz i precizan, ali u potpunosti greši u slučaju da se data reč ne nalazi u rečniku. Kako veličina rečnika raste, tako rastu i zahtevi prostora memorije sistema sinteze. S druge strane, pristup na bazi pravila radi sa svim ulaznim podacima, ali kompleksnost pravila konstantno raste kako sistem uzima u obzir i nepravilne izgovore pisanih formi. (Uzmite u obzir reč „of“ koja je vrlo česta u engleskom jeziku, a jedina je u kojoj se „f“ izgovara [v].) Kao rezultat svega ovoga, skoro svaki sistem sinteze govora koristi kombinaciju oba ova pristupa.
Neki jezici, poput španskog, imaju veoma pravilan sistem pisanja, pa je predvidivost izgovora reči bazirana na njihovoj pisanoj formi dosta uspešna. Sistem sinteze govora u takvim jezicima često koristi metodu baziranu na pravilima, pribegavajući korišćenju rečnika samo za onaj mali broj reči, poput stranih imena i pozajmljenica, čiji izgovor nije očigledan iz njihove pisane forme. Sa druge strane, sistem sinteze govora u jezicima kao što je engleski, koji ima krajnje nepravilan sistem pisanja, verovatnije će se oslanjati na rečnike i na metode na bazi pravila samo za neobične reči ili reči koje se ne nalaze u njihovim rečnicima.
Računarski operativni sistemi ili proizvodi za sintezom govora
[уреди | уреди извор]Apple
[уреди | уреди извор]Prvi govorni sistem integrisan u operativni sistem bio je Apple Computer’s MacInTalk 1984. godine. Tokom većine godina početka 1990-ih, Apple glasovi su bili sintetički. U skorije vreme, Apple je dodao glasove na bazi uzoraka. Počevši kao radoznalost, sistem govora Apple-ovog Macintosh-a na kraju se razvio u potpuno podržan program, PlainTalk, za ljude sa otežanim vidom. VoiceOver, koji je sad u sklopu Mac OS 10.4 Tiger je uključen sa svim instalacijama Tiger-a.
AmigaOS
[уреди | уреди извор]Drugi operativni sistem sa naprednim mogućnostima sinteze govora bio je AmigaOS, koji je predstavljen 1985. Sintezu glasa je licencirala softverska kuća treće stane (Don’t ask Software, sada Softvoice, Inc.) Commodore International-a napravivši kompletan sistem glasovne jednakosti (emulation), za ženski i muški glas i markera za indikaciju naglaska, tako omogućenu naprednim osobinama audio čipseta Amiga hardvera. Sinteza glasa bila je podeljena na uređaj za pričanje i na biblioteku prevođenja. AmigaOS je smatrala sintezu govora virtuelnim hardverskim uređajem, tako da je korisnik mogao da preusmeri konzolu sa izlaznim podacima ka njemu. Neki Amiga programi, kao što je procesor reči, koristili su široku primenu sistema govora.
Microsoft Windows
[уреди | уреди извор]Moderni Windows koristi sistem govora baziran na SAPI4- i SAPI5- koji sadrži mašinu prepoznavanja govora (SRE). SAPI4.0 je bio dostupan u operativnim sistemima Microsoft-a poput Windows 95 i Windows 98. Windows 2000 i Windows XP odlikuju se programom sinteze govora koji se zove Narrator koji je direktno dostupan korisnicima. Svi Windows-komatibilni programi mogu da koriste proizvode sinteze govora dostupne kroz menije kad se instaliraju u sistem. Microsoft Speech Server je kompletan paket za glasovnu sintezu i prepoznavanje namenjen komercijalnoj upotrebi poput call-centara.
Veb sajtovi
[уреди | уреди извор]Veb sajtovi kao što je Bluemountain.com, daju mogućnost e-čestitke koje korisniku omogućuju da naprave privatne glasovne čestitke realizovane pomoću računarski generisanog glasa. Ove e-čestitke obično sadrže prethodno ubačene slike, ali neke omogućavaju korisniku da ubaci bilo koju sliku koju želi. Svaka e-čestitka dozvoljava korisniku da izabere vokabular koji će računar koristiti.
Drugo
[уреди | уреди извор]- 1979. i 1981. Texas Instruments TI-99/4 i TU-94/4A kućni računari omogućavali su sintezu tekst-u fonemu ili recitovanje celih reči i fraza (tekst-u-rečnik) koristeći vrlo popularni periferni sintisajzer govora. TI je koristio zakonom zaštićen kodek za ugrađivanje kompletnih izgovorenih fraza u aplikacije, prvenstveno video igrice.
- Sistemi koji rade u GNU-Linux sistemima su različiti, i koriste programe otvorenog koda kao što je Festival Speech Synthesis System koji koristi sintezu na bazi dvoglasa (i može da koristi samo ograničen broj MBROLA glasova) i gnugovora (eng. gnuspeech) koji koristi artikulatornu sintezu iz Free Software Foundation. Drugi prodavac komercijalnih softvera takođe radi u GNU/Linux-u.
- Sistem za sintezu govora na srpskom, hrvatskom i makedonskom jeziku je proizveden u Novosadskoj kompaniji AlfaNum koja je ponikla iz projekta Katedre za telekomunikacije na Fakultetu tehničkih nauka u Novom Sadu. AlfaNum prizvodi nekoliko varijanti sintetizatora od kojih je najpoznatiji anReader SAPI 4 i SAPI 5.1 kompatibilan modul.
- Nekoliko drugih komercijalnih sistema za sintezu govora su kreirani, uključujući tu i sada zastareli Learnout & Hauspie koji se zove TTS 3000. Acapela Group, AT&T, Cepstral, DECtalk, IBM ViaVoice, NeoSpeech, Nuance Communications takođe imaju ovakve komercijalne proizvode.
- Sharp Zaurus SL-C3200 dolazi u paketu sa tekst-u-govor programom koji potiče od Nuance Communications.
Sinteza govora jezika za obeležavanje
[уреди | уреди извор]Broj jezika za obeležavanje ustanovljen je za izradu teksta kao govora u XML-podržanom formatu. Najskoriji je jezik za obeležavanje sinteze govora (SSML), koji je prerastao u W3C preporuku 2004. Ostali SSML uključuju java jezik za obeležavanje govora (JSML) i SABLE. Iako je svaki od ovih predložen za standard, nijedan nije široko prihvaćen.
Jezici za obeležavanje sinteze govora se razlikuju od jezika za obeležavanje dijaloga. VoiceXML, na primer, sadrži informacije vezane za prepoznavanje govora i menadžment dijaloga kao dodatak obeležavanju teksta-u-govor.
Aplikacije za ljude sa nedostacima
[уреди | уреди извор]Sinteza govora već je dugo vitalna alatka pomoćne tehnologije i njegova upotreba u ovoj oblasti je značajna i široko rasprostranjena. Ona omogućava da barijere koje nas okružuju budu premošćene za ljude sa velikim brojem nadostataka. Aplikacija koja je najvećoj upotrebi je ona za čitanje sa ekrana za ljude sa oštećenim vidom, ali tekst-u-govor sistemi su sada u čestoj upotrebi od strane ljudi sa disleksijom i drugim problemima pri čitanju u istoj meri kao i od strane dece koja uče da čitaju. Takođe su i u učestaloj upotrebi za pomoć onima sa retkim govornim problemima, uglavnom kroz komunikacionu pomać glasovnih izlaznih podataka.
Vidi još
[уреди | уреди извор]- Artikulatorna sinteza
- Sinewave sinteza
- Procesuiranje govora
- Prepoznavanje govora
- Posebni programi:
Spoljašnje veze
[уреди | уреди извор]- comp.speech Frequently Asked Questions Архивирано на сајту Wayback Machine (19. април 2014)
- Projekat AlfaNum na Fakultetu tehničkih nauka u Novom Sadu
- Kompanija AlfaNum
- How To Configure and Use Text-to-Speech in Windows.
- Audio of 1962 Bell Laboratories computer speech demonstration
- Talking Heads website Архивирано на сајту Wayback Machine (7. децембар 2006)
- Text To Speech
- WordTalk Архивирано на сајту Wayback Machine (20. фебруар 2020) a free text-to-speech macro for Microsoft Word