Avantajele și dezavantajele interfețelor vocale. Interfețe de vorbire de la Speereo

Interfață vocală(sau „interfață utilizator vocală”), folosind o platformă de voce/vorbire, permite interacțiunea om-calculator pentru a rula un serviciu sau un proces automatizat.

Anterior, controlul unui dispozitiv cu vocea era posibil doar în science fiction. Până de curând, era considerat domeniul inteligenței artificiale. Cu toate acestea, odată cu dezvoltarea tehnologiei, GI a devenit din ce în ce mai răspândită, iar oamenii profită din ce în ce mai mult de această tehnologie fără contact.

Cu toate acestea, utilizarea GI are propriile sale dificultăți. Oamenii au puțină răbdare pentru o „mașină care nu înțelege”. Prin urmare, GI-ul trebuie să funcționeze aproape fără erori și, prin urmare, să reacționeze stabil la datele de intrare, altfel utilizatorii nu vor folosi GI-ul sau GI-ul va deveni un obiect de ridicol. Crearea unei interfețe vocale valoroase necesită cunoștințe interdisciplinare în informatică, lingvistică și psihologie - abilități costisitoare care nu sunt ușor de dobândit. Chiar și cu instrumente avansate de dezvoltare, atunci când creați un IG eficient, trebuie să fiți conștienți de ce sarcini va îndeplini GI-ul și de publicul țintă căruia i se adresează. Cu cât GI se potrivește mai bine modelului cognitiv al sarcinii utilizatorului, cu atât va fi mai ușor să folosești GI fără sau cu o pregătire minimă, ceea ce îi va crește eficacitatea și satisfacția utilizatorului.

Caracteristicile sunt foarte importante public țintă. De exemplu, atunci când creați un GI pentru publicul larg, trebuie să acordați o atenție deosebită ușurinței utilizării și unui număr mare de instrucțiuni și sfaturi pentru începători. În timp ce veniți cu un GI pentru un grup mic de utilizatori avansați (inclusiv suport tehnic), trebuie să vă gândiți mai mult la productivitate decât la sfaturi și instrucțiuni. Astfel de aplicații ar trebui să sistematizeze procesarea apelurilor, să minimizeze numărul de solicitări, să elimine repetarea inutilă și să utilizeze un principiu de „inițiativă mixtă” care să permită apelantului să introducă diferite tipuri de informații într-o singură pronunțare și în orice ordine sau combinație. Cu alte cuvinte, IG-ul trebuie creat special pentru procese tehnologice specifice care trebuie automatizate.

Interfața vocală nu este potrivită pentru toată lumea proces tehnologic. În general, cu cât interogările și operațiunile sunt mai complexe, cu atât vor fi mai dificil de automatizat și cu atât este mai mare probabilitatea ca GI-ul să nu fie adecvat pentru utilizare de către publicul larg. În unele cazuri, automatizarea procesului este practic imposibilă, așa că singura cale de ieșire este să folosiți un consultant uman. De exemplu, va fi foarte dificil de automatizat linia fierbinte suport juridic. Pe de altă parte, GI este perfect pentru procesarea operațiunilor rapide și monotone, cum ar fi schimbarea stării unei comenzi, completarea coloanei „timp” sau „cost” sau transferul de fonduri între conturi.

YouTube enciclopedic

    1 / 2

    Yandex.SpeechKit - un complex de tehnologii de vorbire Yandex

Subtitrări

Utilizare ulterioară

ÎN dispozitive de mana dispozitivele, cum ar fi PDA-urile sau telefoanele mobile, folosesc butoane mici pentru a introduce informații care sunt fie integrate în gadget, fie parte dintr-o interfață cu ecran tactil, cum ar fi pe Apple iPod Touch sau iPhone. Apăsarea constantă a butoanelor unor astfel de dispozitive este plictisitoare și poate duce, de asemenea, la erori, așa că o interfață vocală ușor de utilizat, precisă și fiabilă ar putea fi o descoperire globală în utilizarea dispozitivelor portabile. În plus, GI ar putea fi eficientă în utilizarea laptopurilor și computerelor desktop, abordând problemele asociate cu utilizarea tastaturii și a mouse-ului, inclusiv leziunile legate de stres, cum ar fi sindromul de tunel carpian, precum și eliminând barierele din calea formei de viteză scăzută de imprimare, care este important pentru utilizatorii începători. Mai mult, dacă utilizați o tastatură, aceasta presupune că vă aflați în permanență în fața monitorului, în timp ce interfața vocală vă permite să vă mișcați liber, deoarece intrare vocală informația nu implică deloc că te vei uita la tastatură.

Astfel de îmbunătățiri vor schimba literalmente designul dispozitivelor și vor transforma complet interacțiunea cu acestea. Ecrane dispozitive mobile va deveni mai mare, deoarece tastatura nu va mai fi necesară. Pe dispozitivele tactile nu va fi nevoie să împărțiți afișajul în conținut și tastatură pe ecran, ceea ce înseamnă că informațiile pot fi vizualizate în Ecran complet. Laptopurile vor fi de fapt reduse la jumătate, deoarece nu va fi nevoie de o tastatură, toate componentele interne se vor potrivi în spatele afișajului, prin urmare, laptopul se va transforma pur și simplu într-un computer tabletă. Calculator desktop ar consta dintr-o unitate de sistem și un monitor, iar spațiul de pe desktop ocupat de o tastatură simplă, precum și o tastatură retractabilă, ar fi eliberat. Telecomenzile TV și panourile de control de pe zeci de dispozitive - de la un cuptor cu microunde la o mașină de copiat - ar deveni, de asemenea, inutile.

Cu toate acestea, un număr mare de probleme ar trebui depășite pentru a face GI o realitate. În primul rând, GI-ul trebuie să fie atât de bine proiectat încât să poată distinge între comenzile vocale și conversația normală; în caz contrar, introducerea incorectă a datelor va fi înregistrată, iar dispozitivul va răspunde incorect. Linia standard „Computer!” după cum spun personajele din faimoasa epopee științifico-fantastică Star Trek, ea ar putea activa GI și pregăti dispozitivul pentru a primi informații de la același difuzor. Probabil, GI-ul ar putea avea un aspect uman: o voce sau un personaj de pe ecran care, de exemplu, ar putea răspunde și menține un dialog pentru a clarifica solicitarea utilizatorului.

În al doilea rând, GI-ul ar putea interacționa cu software de înaltă tehnologie pentru a procesa și a găsi (primi) informații cu atenție sau pentru a lua măsuri în conformitate cu preferințele utilizatorului. De exemplu, dacă aveți nevoie de informații dintr-un anumit ziar și sub forma unei liste, atunci puteți spune: „Computer, găsiți informații despre inundația care a avut loc ieri în sudul Chinei” și, ca răspuns, GI, ținând cont de preferințe , va „găsi” fapte despre „potop” din „sudul Chinei” din sursa dorită, o va converti în formă de listă și o va prezenta pe ecran sau în formă audio, citând un citat. Astfel, va fi nevoie de un mecanism precis de recunoaștere a vorbirii, cu un anumit grad de inteligență artificială în dispozitivul GI.


Introducere
În lumea computerelor, tehnologiile vorbirii înseamnă un întreg conglomerat de software și hardware care permite, în primul rând, sinteza și recunoașterea vorbirii umane, precum și dezvoltarea instrumentelor care permit crearea sistemelor de procesare a vorbirii. Crearea și dezvoltarea unei interfețe de vorbire este în prezent una dintre cele mai dificile și controversate sarcini. Pe de o parte, subiectul nu este absolut nou, pe de altă parte, dezvoltarea și aplicarea activă a acestei tehnologii abia la început. Pe de o parte, stereotipurile și prejudecățile stabile au avut timp să se formeze, pe de altă parte, în ciuda a aproape o jumătate de secol de eforturi persistente, problemele cu care s-au confruntat fondatorii contribuției discursului nu au fost rezolvate. Oricum ar fi, căutarea unei interfețe care să se potrivească tuturor va continua. De fapt, acest lucru este exact ceea ce umanitatea s-a străduit întotdeauna prin comunicarea cu un computer.
Începând cu anii 70, a existat un mare interes pentru rezolvarea problemei dialogului vocal al utilizatorului cu tehnologia computerizată. Acest lucru se explică printr-o serie de caracteristici de introducere și ieșire vocală a informațiilor într-un computer:
    cea mai mare naturalețe a comunicării și, ca urmare, o creștere a gradului de concentrare asupra muncii prestate
    creșterea vitezei și fiabilității introducerii informațiilor
    eliberând canalele tactile și vizuale pentru a efectua alte operații
    capacitatea de a lucra într-o cameră întunecată și cu poziție sau mișcare arbitrară a operatorului
    furnizarea de comunicare cu un computer folosind dispozitive (telefon)
Cercetătorii au făcut puține progrese în ultimele decenii, ceea ce îi face pe unii experți extrem de sceptici cu privire la însăși posibilitatea implementării unei interfețe de vorbire în viitorul apropiat. Alții cred că problema este practic rezolvată. Totuși, totul depinde de ceea ce ar trebui considerat o soluție la această problemă.
Astfel, Bill Gates, care într-un fel reprezintă idealul pragmatismului, s-a dovedit a nu fi lipsit de stereotipurile stabilite istoric. Începând din 95-96 cu dezvoltarea propriei noastre sistem universal recunoașterea vorbirii, el a proclamat următoarea eră în 1997 implementare pe scară largă interfață de vorbire. Au fost planificate să fie incluse facilități de introducere a vorbirii Livrare Standard o nouă versiune de Windows NT - un sistem de operare pur de birou. Pentru a evalua munca pe care au făcut-o, este suficient să instalați un fel de „motor” de sunet care interacționează direct cu Microsoft SAPI integrat în sistemul dumneavoastră.
Toți cei care sunt în vreun fel conectați cu dezvoltarea tehnologiilor de vorbire se confruntă cu următoarele întrebări: prima - și, probabil, cea principală - se referă la domeniul de aplicare. Găsirea de aplicații în care recunoașterea vorbirii ar putea demonstra toate avantajele sale, contrar credinței populare, este departe de a fi o sarcină banală. Practica actuală de utilizare a computerelor nu este deloc favorabilă introducerii pe scară largă a interfețelor de vorbire. Pentru a da comenzi legate de poziționarea în spațiu, oamenii au folosit întotdeauna și vor continua să folosească gesturi, adică sistemul „mâini-ochi”. Interfața grafică modernă este construită pe acest principiu. Perspectiva înlocuirii tastaturii și mouse-ului cu o unitate de recunoaștere a vorbirii este complet eliminată. În același timp, câștigul din atribuirea unei părți din funcțiile de control acestuia este atât de mic încât nu ar putea oferi temeiuri suficiente nici măcar pentru implementarea de probă în calculatoare de masă pentru mai mult de treizeci de ani. Aceasta este perioada pentru care se evaluează existența sistemelor de recunoaștere a vorbirii aplicabile comercial.
Pentru comparație: vorbirea spontană se pronunță cu viteza medie 2,5 cuvinte pe secundă, tastare profesională - 2 cuvinte pe secundă, non-profesională - 0,4. Astfel, la prima vedere, intrarea vorbirii are un avantaj semnificativ de performanță. Cu toate acestea, estimarea vitezei medii de dictare în condiții reale este redusă la 0,5-0,8 cuvinte pe secundă din cauza necesității de a pronunța clar cuvintele în timpul introducerii vorbirii și a unui procent destul de mare de erori de recunoaștere care necesită corectare.
Interfața de vorbire este naturală pentru oameni și oferă confort suplimentar la tastarea textelor. Cu toate acestea, chiar și un vorbitor profesionist poate să nu fie mulțumit de perspectiva de a dicta pe un computer „neinteligibil” timp de câteva ore. În plus, experiența existentă în operarea unor astfel de sisteme indică o probabilitate mare de îmbolnăvire a corzilor vocale ale operatorilor, care este asociată cu inevitabila monotonie a vorbirii atunci când dictați către un computer.
Adesea, avantajele introducerii textului vocal includ absența necesității de pregătire preliminară. Cu toate acestea, unul dintre cele mai slabe puncte sisteme moderne recunoașterea vorbirii - sensibilitatea la claritatea pronunției - duce la pierderea acestui avantaj aparent evident. Un operator învață să tasteze pe o tastatură în medie timp de 1-2 luni. Obținerea pronunției corecte poate dura câțiva ani.
Există o altă limitare neplăcută a aplicabilității: operatorul care interacționează cu computerul printr-o interfață de vorbire este forțat să lucreze într-o cameră separată izolată fonic sau să folosească o cască izolată fonic. În caz contrar, el va interfera cu munca vecinilor săi de birou, care, la rândul lor, creând zgomot de fundal suplimentar, vor complica în mod semnificativ munca de recunoaștere a vorbirii. Astfel, interfața de vorbire intră în conflict clar cu structura organizatorică modernă a întreprinderilor axate pe munca colectivă. Situația se îmbunătățește oarecum odată cu dezvoltarea formelor de lucru la distanță, dar de ceva timp încă cea mai naturală formă productivă și potențial răspândită de interfață cu utilizatorul pentru oameni este sortită unei game restrânse de aplicații.
Limitările în aplicabilitatea sistemelor de recunoaștere a vorbirii în cadrul celor mai populare aplicații tradiționale conduc la concluzia că este necesar să se caute aplicații potențial promițătoare pentru implementarea interfețelor vocale în afara sferei tradiționale de birou, ceea ce este confirmat de succesul comercial. a sistemelor de vorbire înalt specializate. Cel mai de succes proiect până în prezent pentru aplicarea comercială a recunoașterii vorbirii este rețeaua de telefonie AT&T. Clientul poate solicita una din cele cinci categorii de servicii, folosind orice cuvinte. El vorbește până când unul dintre cele cinci cuvinte cheie apare în rostirea lui. Acest sistem gestionează în prezent aproximativ un miliard de apeluri pe an.
În ciuda faptului că unul dintre cele mai promițătoare domenii pentru implementarea sistemelor de recunoaștere a vorbirii poate fi domeniul jocurilor pe calculator, al programelor de reabilitare înalt specializate pentru persoanele cu dizabilități, al sistemelor telefonice și informatice, dezvoltatorii de frunte ai recunoașterii vorbirii își sporesc eforturile pentru a realiza universalizarea și crește volumul dicționarului, chiar și în detrimentul reducerii presetării difuzorului procedurii.
Viitorul interfeței de vorbire depinde nu mai puțin de capacitatea cercetătorilor și dezvoltatorilor moderni nu numai de a crea o bază tehnologică pentru intrarea vorbirii, ci și de a îmbina armonios descoperirile tehnologice într-un singur sistem complet logic de interacțiune om-calculator. Lucrarea principală este încă înainte.

Capitolul 1

1.1.Concept general al interfeței de vorbire

Să începem cu termenul principal. Ce este vorbirea? Vorbind despre vorbire, trebuie să facem distincție între concepte precum „vorbire”, „vorbire sonoră”, „semnal sonor”, ​​„mesaj”, „text”. În cazul nostru, atunci când sunt aplicate problemei de recunoaștere, concepte precum „vorbire” și „vorbire sonoră” înseamnă același lucru - un anumit mesaj audio generat de om care poate fi înregistrat, măsurat, stocat, procesat și, mai important, reprodus în mod obiectiv. folosind instrumente și algoritmi. Adică, vorbirea poate fi reprezentată sub forma unui anumit semnal de vorbire, care la rândul său poate fi folosit pentru a reproduce vorbirea în sens invers. Adică putem pune un semn de echivalență între vorbirea audio și reprezentarea acesteia sub forma unui semnal de vorbire . Mai mult, sub conceptul de „mesaj” Orice informație utilă destinatarului, nu doar textul, poate fi ascunsă. De exemplu, dacă nu sunteți interesat de cuvinte, ci de intonații, atunci mesajul va fi nuanțele prozodice ale vorbirii. În ceea ce privește recunoașterea vorbirii, în cazul nostru sarcina se rezumă la extragerea textului din vorbire.
Dar aici ne confruntăm cu o singură contradicție. Textul, după cum știți, este format din litere, cuvinte, propoziții - adică este discret. Vorbirea în condiții normale sună lin. Vorbirea umană, spre deosebire de text, nu constă deloc din litere. Dacă înregistrăm sunetul fiecărei litere individuale pe o bandă sau pe un disc de computer și apoi încercăm să compunem vorbirea din aceste sunete, nu vom reuși.
Oamenii și-au dat seama de ceva vreme că sunetele elementare care alcătuiesc vorbirea nu sunt echivalente cu literele. Prin urmare, au venit cu conceptul de fonem pentru a desemna sunetele elementare ale vorbirii. Deși experții încă nu pot decide câte foneme diferite există. Există chiar și o astfel de ramură a lingvisticii - fonetica. Majoritatea autorilor chiar dau numere diferite de foneme pentru aceeași limbă dialectă. În limba rusă, după unele surse, există 43 de foneme, după altele - 64, după alții - mai mult de o sută... Dar se întâmplă că există un mit despre inviolabilitatea conceptului de fonem. . Și că semnalul de vorbire constă direct din bucăți ale semnalului, fiecare dintre acestea fiind un fonem. Din păcate, totul este departe de a fi atât de simplu.
La început, oamenii de știință au considerat semnalul de vorbire ca un set de anumite universale situate unul după altul pe axa timpului și au considerat fonemele ca fiind aceste universale. Cu toate acestea, studii ulterioare ale semnalelor de vorbire nu au dezvăluit niciun fonem. Atunci unii cercetători au decis pe bună dreptate că la generarea semnalelor de vorbire se observă coarticularea, adică întrepătrunderea sunetelor învecinate (mușchii faciali, limba și maxilarele au inerție diferită). Aceasta înseamnă că semnalul de vorbire ar trebui să fie format nu din foneme, ci din alofoni - combinații de foneme „lipite împreună”.
Alți cercetători, precum fizicienii, au atacat ideea naturii elementare a fonemelor și au început să susțină că fonemele ar trebui să fie împărțite în bucăți și mai scurte sau chiar să renunțe cu totul la acest concept și să „demembreze” semnalul de vorbire într-un alt mod. Așa s-au născut fonoizii și o mulțime de alte nume originale pentru sunete elementare.

Toată lumea a început să examineze semnalul de vorbire din propria poziție, raportând succesele foarte vag. Acesta din urmă poate fi explicat foarte probabil prin dorința de a păstra know-how-ul.

Principala dificultate a abordării fonemice este că rata de vorbire variază foarte mult, adesea de mai multe ori. În acest caz, diferite sunete de vorbire sunt întinse sau comprimate disproporționat. De exemplu, vocalele se schimbă mult mai mult decât semivocalele și mai ales opresc consoanele. Așa-numitele sunete fricative au propriile lor modele. (Semivocalele sunt sunete a căror generare necesită participarea corzilor vocale, ca și sunetele vocale, dar în viața de zi cu zi ele însele sunt considerate consoane. De exemplu, „m”, „n”, „l” și „r” de obicei sunet astfel. Sunetele de oprire sunt formate prin închiderea și deschiderea ascuțită a organelor de articulație. De exemplu, „b”, „l”, „d”, „t”. Formarea sunetelor de slot este asociată cu șuierat și alte turbulențe. efecte în organele articulației. Poate fi numit „v”, „g”, „s” precum și „sh” și alte sibilante. Această proprietate se numește nestaționaritatea temporală a probelor de semnal de vorbire. Pronunțarea aceluiași cuvânt sau frază în timp diferit, sub influența diverșilor factori (dispoziție, stare de sănătate etc.), generăm distribuții de energie spectro-temporale vizibil divergente. Acest lucru este valabil chiar și pentru cuvintele rostite de două ori la rând. Acest efect este mult mai puternic atunci când se compară spectrogramele aceleiași fraze rostite de persoane diferite. Acest efect este de obicei numit o rețea spectrală non-staționară de modele de semnal de vorbire. Modificările ratei de vorbire și claritatea pronunției sunt cauza nestationarității coarticulatorii, ceea ce înseamnă o schimbare a influenței reciproce a sunetelor învecinate de la probă la probă. Trebuie subliniată și problema grupării vorbirii continue. Este destul de dificil să izolați orice unități de vorbire dintr-un flux de vorbire continuu. Multe sunete „se lipesc” sau au limite neclare.

Diverse ramuri ale lingvisticii și știința limbilor sunt de mare interes pentru oamenii de știință care lucrează în domeniul recunoașterii vorbirii. Poate că o sinteză reușită a realizărilor acestor științe și a teoriei prelucrării semnalului de vorbire va duce la crearea cu succes a sistemelor de recunoaștere.
Construcția unei interfețe de vorbire este împărțită în trei componente. Prima sarcină este ca computerul să poată „înțelege” ceea ce îi spune o persoană, adică trebuie să poată extrage informații utile din discursul unei persoane. Până acum, în stadiul actual, această sarcină se rezumă la extragerea părții semantice a discursului, textul (înțelegerea unor componente precum, de exemplu, intonația, nu este încă luată în considerare). Adică, această sarcină se rezumă la înlocuirea tastaturii cu un microfon.
A doua sarcină este ca computerul să perceapă sensul a ceea ce s-a spus. Atâta timp cât mesajul vocal constă dintr-un anumit set standard de comenzi ușor de înțeles de computer (de exemplu, duplicarea elementelor de meniu), nu este nimic complicat în implementarea sa. Cu toate acestea, este puțin probabil ca această abordare să fie mai convenabilă decât introducerea acelorași comenzi de la tastatură sau utilizarea mouse-ului. În mod ideal, un computer ar trebui să „înțeleagă” în mod clar vorbirea umană naturală și să înțeleagă că, de exemplu, cuvintele „Destul!” și „Termină-ți treaba!” înseamnă concepte diferite într-o situație și același lucru în alta.
A treia sarcină este de a permite computerului să convertească informațiile pe care le manipulează într-un mesaj vocal care poate fi înțeles de oameni. Deci, dintre aceste trei probleme, o soluție destul de clară și finală există doar pentru a treia. În esență, sinteza vorbirii este o problemă pur matematică, care acum a fost rezolvată într-o măsură considerabilă. nivel bun. Și în viitorul apropiat, cel mai probabil, doar implementarea sa tehnică va fi îmbunătățită.
Obstacolul în calea soluționării finale a primei probleme este că nimeni încă nu știe cu adevărat să ne disecă discursul pentru a extrage din el acele componente care conțin sens. În fluxul de sunet pe care îl producem atunci când vorbim, este imposibil să distingem fie litere individuale, fie silabe. Dar, în ciuda acestui fapt, după pregătirea preliminară, sistemele moderne de recunoaștere a vorbirii funcționează destul de bine și nu fac mai multe erori decât sistemele optice de recunoaștere a caracterelor tipărite au făcut acum zece ani.
În ceea ce privește a doua sarcină, ea, potrivit celor mai mulți experți, nu poate fi rezolvată fără ajutorul sistemelor de inteligență artificială. Acestea din urmă, după cum știm, nu au fost încă create, deși se pun mari speranțe în apariția așa-numitei IA cuantice. Dacă dispozitive similare va apărea, aceasta va însemna o revoluție calitativă în tehnologii de calcul, și apoi, cine știe, poate că multe dintre abordările actuale ale interfețelor de vorbire se vor dovedi a fi cu totul inutile.
Prin urmare, deocamdată, destinul interfeței de vorbire este doar duplicarea comenzilor prin voce care pot fi introduse de la tastatură sau folosind mouse-ul. Dar aici avantajele sale sunt foarte îndoielnice. Cu toate acestea, există o zonă care poate fi foarte atractivă pentru mulți. Aceasta este introducerea vocală a textelor într-un computer. Într-adevăr, în loc să apeși pe tastatură, este mult mai convenabil să dictezi totul computerului, astfel încât să scrie ceea ce aude într-un fișier text. Aici nu este deloc necesar ca computerul să „înțeleagă” ceea ce aude, iar problema traducerii vorbirii în text este mai mult sau mai puțin rezolvată. Nu este fără motiv că majoritatea programelor de „interfață vocală” lansate în prezent sunt axate în mod special pe intrarea vorbirii.

1.2. Introducerea mesajelor vocale

În mod tradițional, procesul de recunoaștere a vorbirii este împărțit în mai multe etape. În prima etapă, un semnal de vorbire continuă este eșantionat și convertit în formă electrică. De obicei, frecvența de eșantionare este de 10-11 kHz, adâncimea de biți este de 8 biți, ceea ce este considerat optim pentru lucrul cu dicționare mici (10-1000 de cuvinte) și corespunde calității transmisiei vocale a unui canal telefonic (ZHz - 3,4 kHz). ). este clar că o creștere a volumului dicționarului activ ar trebui să fie însoțită de o creștere a frecvenței de digitizare și, în unele cazuri, - ridicând adâncimea de biți.
În a doua etapă, semnalul de vorbire discret este curățat de zgomot și transformat într-o formă mai compactă. Comprimarea se realizează prin calcularea la fiecare 10 ms a unui anumit set de parametri numerici (de obicei nu mai mult de 16) cu pierderi minime de informații care descriu un anumit semnal de vorbire. Compoziția setului depinde de caracteristicile implementării sistemului. Începând cu anii 70, cea mai populară metodă (aproape standardul) pentru construirea unei descrieri parametrice comprimate a devenit codificarea predicativă liniară (LPC), care se bazează pe un model liniar destul de perfect al tractului vocal. Pe locul doi în popularitate este probabil descrierea spectrală obținută folosind transformata Fourier discretă.
Cu toate acestea, rezultate foarte bune pot fi obținute folosind alte metode, adesea mai puțin solicitante din punct de vedere informatic, cum ar fi tăierea. În acest caz, se înregistrează numărul de modificări ale semnului amplitudinii semnalului de vorbire și intervalele de timp dintre ele. Secvența de valori rezultată, care este o estimare a duratei perioadelor în care semnul este păstrat de amplitudine, în ciuda aparentei primitivități a metodei, reprezintă destul de pe deplin diferențele dintre sunetele pronunțate. În special, sistemul de recunoaștere a vorbirii dezvoltat la sfârșitul anilor 80 la Institutul de Cercetare a Mașinilor de Calcul (Moscova) se bazează pe această metodă de preprocesare.
Intervalul de timp (10 ms) de calcul a fost determinat și justificat experimental în zorii dezvoltării tehnologiei de recunoaștere automată a vorbirii. În acest interval, procesul aleator discret reprezentând semnalul de vorbire digitizat este considerat staționar, adică într-un astfel de interval de timp, parametrii tractului vocal nu se modifică semnificativ.
Următoarea etapă este recunoașterea. Standardele de pronunție stocate în memoria computerului sunt comparate la rândul lor cu secțiunea curentă a secvenței de zece vectori de milisecunde care descriu semnalul vocal de intrare. În funcție de gradul de coincidență, se selectează cea mai bună opțiune și se formează o ipoteză despre conținutul enunțului. Aici ne confruntăm cu o problemă foarte semnificativă - necesitatea de a normaliza semnalul la timp. Rata vorbirii, durata pronunției cuvintelor și sunetelor individuale, chiar și pentru un singur vorbitor, variază în limite foarte largi. Astfel, sunt posibile discrepanțe semnificative între secțiunile individuale ale standardului stocat și cel teoretic identic semnal de intrare datorită nepotrivirii lor temporale. Este destul de eficient de rezolvat această problemă permite algoritmul de programare dinamică și variantele acestuia dezvoltate în anii 70 (algoritmul Viterbi). O caracteristică a unor astfel de algoritmi este capacitatea de a comprima și întinde în mod dinamic semnalul de-a lungul axei timpului direct în procesul de comparare cu standardul. De la începutul anilor 80, modelele Markov au fost din ce în ce mai utilizate, permițând, pe baza unei abordări probabilistice pe mai multe niveluri pentru descrierea unui semnal, să efectueze normalizarea temporală și predicția continuărilor, ceea ce accelerează procesul de enumerare a standardelor și crește fiabilitatea recunoașterii. .

Funcționarea oricăror sisteme de intrare a vorbirii se bazează pe principiul recunoașterii modelelor. Sistemul extrage din semnalul de vorbire de intrare un set de anumite caracteristici care alcătuiesc „descrierea” acestuia, apoi compară descrierea rezultată cu cele de referință stocate în memoria sistemului de intrare, adică. calculează măsuri de similitudine. Dacă valoarea măsurii de similitudine depășește un anumit nivel setat, atunci sistemul „recunoaște” semnalul, atribuindu-i valoarea standardului corespunzător. Pe lângă recunoașterea componentelor elementare ale semnalelor de vorbire, sistemul trebuie să interpreteze mesajele de vorbire, i.e. găsiți secvențe de text ortografic corespunzătoare, interpretați și executați comenzi, amintiți și stocați date etc.
Elementul fonologic de bază pentru majoritatea sistemelor de recunoaștere și interpretare a vorbirii este cuvântul; cuvintele rostite pot fi corelate fără ambiguitate cu reprezentarea lor ortografică.
În acest sens, toate sistemele de introducere a vorbirii sunt de obicei împărțite în funcție de următoarele criterii:

    capacitatea de a recunoaște vorbirea continuă sau cuvintele rostite separat;
    volumul dicționarului de cuvinte recunoscute (dicționarele sistemelor existente conțin până la 500 de cuvinte);
    care vizează un vorbitor sau un număr arbitrar de vorbitori.
Cele mai multe sisteme și dispozitive moderne de introducere a vorbirii sunt proiectate pentru microcalculatoare personale și de control; prin urmare, una dintre cerințele principale pentru astfel de sisteme de intrare este costul lor scăzut, care se realizează prin limitarea dicționarului cuvintelor rostite individual și simplificarea algoritmilor de procesare atunci când sistemul este orientat spre un singur vorbitor.
O diagramă bloc generalizată a unui astfel de sistem de introducere a vorbirii:

Semnalul acustic de vorbire este primit de un microfon (M) și transmis ca semnal electric analogic către un filtru de înaltă frecvență (HPF și ADC). Probele digitale de la ieșirea ADC sunt trimise la un preprocesor (PP). Sarcina PP este de a reduce volumul (și, prin urmare, viteza) datelor transmise, păstrând în același timp informațiile esențiale pentru recunoașterea vorbirii. În funcție de setul acceptat de caracteristici care compun descrierea semnalului, PP poate fi un analizor de spectru, un detector de frecvență de format, un analizor LPC etc. Descrierea scurtată a semnalului de vorbire obținut ca rezultat al preprocesării este transmisă procesorului de extracție a caracteristicilor (FEP) și apoi sistemului decizional, care include o unitate de clasificare (BC), o memorie de descriere de referință (RDM). și o unitate de acordare (TU). Sistemul de luare a deciziilor funcționează în două moduri – introducere și învățare.
În modul de intrare, o descriere a semnalului vocal de intrare este transmisă la BC, care calculează măsuri de similitudine a acestei descrieri cu standardele stocate în ROM. Ca urmare a calculării măsurilor de similaritate pentru întregul set de standarde, se poate găsi măsura maximă și se poate lua o decizie dacă semnalul de intrare corespunde unuia dintre standarde. Semnalului vocal de intrare i se atribuie un nume - identificatorul acestui standard. Apoi, identificatorul găsit este transferat către programul de aplicație sau către computerul central prin unitatea de interfață din SUA.
În modul de învățare, descrierile semnalelor vocale de intrare sunt transmise unității de acord. În același bloc, un nume este de obicei introdus folosind tastatura K - identificatorul semnalului de vorbire. BN găsește o descriere „medie” pentru cuvinte sau fraze repetate de mai multe ori de către un vorbitor, apoi atribuie această descriere „medie” unui identificator, de ex. formează un standard.
Toate sistemele de intrare a semnalului de vorbire, precum și sistemele de recunoaștere a imaginilor în general, sunt de obicei caracterizate de probabilitatea recunoașterii corecte, probabilitatea (frecvența) defecțiunilor de recunoaștere și probabilitatea (frecvența) erorilor în timpul recunoașterii. Valorile numerice ale acestor caracteristici depind de dimensiunea dicționarului și de algoritmii de recunoaștere utilizați. Pentru dicționarele cu un volum de 200-300 de cuvinte și fraze, probabilitatea de recunoaștere corectă este de 95-98%.
Sistemele de introducere a vorbirii oferă de obicei feedback vizual pentru a îmbunătăți încrederea. În fig. 3 această conexiune este prezentată sub forma unui indicator AND, pe ecranul căruia este afișată o reprezentare simbolică a cuvântului rostit; Introducerea directă a acestei reprezentări în computer se efectuează numai după confirmarea corectitudinii recunoașterii prin apăsarea unei taste. Dacă recunoașterea este incorectă, poate fi dată o comandă de anulare verbală și introducerea cuvântului este repetată. Deși un astfel de feedback vizual elimină multe dintre beneficiile unui sistem de introducere a vorbirii, fidelitatea ridicată a intrării justifică utilizarea acestuia în multe domenii, în special în pregătirea datelor. Sistemul în cauză oferă viteze de intrare mai mari în comparație cu vitezele de intrare de la tastatură.
1.3. Varietate de specii
Sistemele de recunoaștere a vorbirii existente pot fi clasificate în funcție de diferite criterii.
După scop:
    sisteme de comandă
    sisteme de dictare a textului.
În funcție de calitățile consumatorului:
    orientat către vorbitor (antrenat pentru un anumit vorbitor)
    vorbitor independent (risc să sugerez termenul „omnivoce”)
    recunoaște cuvintele individuale
    recunoașterea vorbirii continue.
După mecanismele de funcționare:
    cele mai simple detectoare (corelare).
    sisteme expert cu în diverse feluri formarea si prelucrarea bazei de cunostinte
    modele de rețele probabilistice de luare a deciziilor, inclusiv rețele neuronale.
Este destul de dificil să alegeți un indicator convenabil al calității performanței unui sistem de recunoaștere a vorbirii. Acest indicator de calitate este cel mai simplu introdus pentru sistemele de comandă. La testare, toate comenzile posibile sunt rostite în ordine aleatorie de un număr suficient de mare de ori. Numărul de comenzi recunoscute corect este numărat și împărțit la numărul total de comenzi rostite. Rezultatul este o estimare a probabilității de recunoaștere corectă a unei comenzi în mediul acustic specificat în timpul experimentului. Pentru sistemele de dictare, un indicator de calitate similar poate fi calculat la dictarea unui text de testare. Evident, acesta nu este întotdeauna un indicator convenabil al calității. În realitate, întâlnim o mare varietate de medii acustice. Dar cum rămâne cu schimbarea difuzoarelor și pregătirea însoțitoare a sistemului?
Ca exemplu, permiteți-mi să iau în considerare o versiune a celui mai simplu sistem de recunoaștere a vorbirii de comandă. Funcționarea sistemului se bazează pe ipoteza că caracteristicile spectro-temporale ale comenzilor de cuvinte pentru un vorbitor individual se modifică ușor. Modelul acustic al unui astfel de sistem este un convertor de semnale de vorbire într-o matrice spectral-temporală și poate servi ca exemplu tipic de abordare inventiva. În cel mai simplu caz, comanda este localizată în timp prin pauze în semnalul de vorbire. Unitatea lingvistică este capabilă să detecteze un număr limitat de comenzi plus încă una, ceea ce înseamnă toate celelalte cuvinte necunoscute sistemului. De regulă, un model lingvistic este construit ca un algoritm pentru căutarea funcționalității maxime din eșantionul de intrare și mostrele întregului „vocabular” al sistemului. Adesea, acesta este un corelator bidimensional obișnuit. Deși alegerea dimensiunii spațiului de descriere și valorile acestuia pot varia foarte mult în funcție de dezvoltator.
Bazat deja pe „designul” sistemului descris, este clar că este mai mult o jucărie decât un instrument util. În prezent, pe piață există multe sisteme comerciale de recunoaștere a vorbirii cu capacități mult mai mari:
        Dictarea tipului de voce, Pilot vocal, ViaVoice de la IBM
        Asistență vocală creativ prin tehnologie
        Asculta pentru Windows de la Verbex și mulți alții.
Unele dintre ele (de exemplu, ViaVoice) sunt capabile, după cum susțin dezvoltatorii, să introducă vorbire continuă.
Blocurile lingvistice ale sistemelor moderne implementează un model complex de limbaj natural. Uneori se bazează pe aparatul matematic al lanțurilor Markov ascunse, alteori folosește cele mai recente realizări ale tehnologiei rețelelor neuronale sau alt know-how. Designul unităților acustice ale unor astfel de sisteme este ținut strict secret. Pe baza unor semne, se poate ghici că unitatea acustică a unor sisteme încearcă să simuleze un aparat auditiv natural.

1.3. Sintetizatoare de vorbire software

Recunoașterea vorbirii în sine nu este nimic nou. Sistemele de dictare pentru profesii specifice precum radiologia sunt cunoscute de mult timp. Dar ei înșiși sunt foarte scumpi și necesită computere scumpe. Programele mai puțin costisitoare, mai utilizate pe scară largă necesită un mod specific de vorbire cu pauze după fiecare cuvânt.
Dragon Systems, odată cu lansarea NaturallySpeaking, a pus piatra de temelie în istoria dezvoltării sistemelor de recunoaștere a vorbirii - a fost primul program care vă permite să dictați textul într-un mod natural. IBM a oferit în curând ViaVoice, program similar, care a costat cu sute de dolari mai puțin decât concurentul său.
Principalul factor care a accelerat dezvoltarea programelor de recunoaștere a vorbirii a fost îmbunătățirea computerelor.
Programele de recunoaștere a vorbirii necesită o placă de sunet destul de puternică, deoarece fac sarcini grele. În primul rând, cuvintele pe care le rostești sunt captate de microfon și procesate de placa de sunet.

etc.................

O interfață de vorbire (SI) este în general necesară pentru a ușura viața utilizatorilor. Mai precis, pentru a îmbunătăți confortul și a crește gradul de intelectualizare a dialogului om-mașină. Toate acestea sunt cantități destul de numărabile. Dezvoltatorii s-au luptat de mult cu parametri precum timpul de instruire a utilizatorului, timpul de a lansa o comandă, numărul de mișcări pentru a emite o comandă și timpul de a căuta elementul de control necesar. În toate aceste privințe, introducerea unui canal de vorbire în subsistemul de interfață duce la îmbunătățiri semnificative. Există o serie de aplicații în care controlul vorbirii este o adevărată salvare. Acestea sunt situații în care mâinile și vederea utilizatorului sunt ocupate cu sarcini importante „non-interfață” (conducere, inspectie vizuala, manipulări subtile, vizionarea unui film). Dacă aveți nevoie de ajutor în acest moment sistem informatic informații sau un asistent robot, dialogul vocal este indispensabil. Aceste considerații simple ne oferă principalele domenii de aplicare a interfețelor de vorbire:

  • Sisteme complexe de uz casnic ( Aparate, roboți de serviciu și " casă inteligentă"). Aici viteza de învățare a utilizatorilor, mobilitatea și simplificarea interfețelor sunt pe primul loc.
  • Sisteme de sprijinire a activităților persoanelor care lucrează în afara birourilor. Aceștia sunt șoferi, salvatori, reparatori, personal militar, logisticieni, asamblatori - nu îi puteți număra pe toți. Canal de vorbire aici este solicitat ca o oportunitate de a vă elibera mâinile și ochii. Compactitatea soluției este, de asemenea, importantă.

Dintr-o înțelegere a domeniilor de aplicare, urmează un set de cerințe pentru RI:

  • Acuratețe (număr de erori la o sută de cuvinte, WER). Mai mult, pentru aplicații industriale și casnice, WER trebuie calculat la diferite niveluri de zgomot ambiental (raport semnal-zgomot SNR).
  • Numărul de comenzi distincte la un moment dat. Cum obiect mai complex control și cu cât dorim să predăm utilizatorul mai puțin timp, cu atât acest parametru ar trebui să fie mai mare.
  • Antropomorfism. Acesta este un indicator integral care este responsabil pentru cât de asemănătoare este interfața cu comunicarea umană. Un subiect foarte larg, dar este evident că cu cât este mai mare acest indicator, cu atât este mai ușor să înveți această interfață. Nu trebuie confundat cu intuitivitatea, care caracterizează doar familiaritatea și asemănarea cu sistemele de interfață deja cunoscute utilizatorului.

Compania Titan Information Service CJSC / Speereo Software a fost înființată în 1998. În 2001, specialiștii săi au reușit să creeze un sistem de recunoaștere a vorbirii continue în limba engleză, iar în 2011 - vorbirea continuă în limba rusă. Din 2002, compania dezvoltă și vinde produse și soluții bazate pe SSR (Speereo speech recognition).

Compania este furnizor oficial al Intel, are un grant comun de la Microsoft și Skolkovo, este câștigătoarea competiției pentru proiecte inovatoare a Ministerului rus al Apărării și este câștigătoarea mai multor premii pentru cel mai bun software al anului. Din 2011 - rezident în Skolkovo.

Ce face soluția Speereo?

Am dezvoltat un RI care vă permite să recunoașteți comenzile vocale și să sintetizați mesajele vocale. Sistemul constă dintr-o parte software (Recunoaștere automată a vorbirii, ASR și Text To Speech, TTS) și o parte hardware - tipuri variate Acoustic Front End, AFE. Pentru dezvoltatori aceasta este blocuri gata făcute, care poate fi încorporat în sisteme în etapa de proiectare sau în etapa de actualizare a sistemului. ASR și TTS există atât ca soluție cloud, cât și ca cod pentru clienții subțiri. Cerințele minime sunt 200 MIPS și 5 MB. AFE există astăzi sub forma unui produs în serie - telecomandă universală Speaky, precum și sub formă de prototipuri de testare și produse în serie ale partenerilor - căști pentru automobile, căști pentru exterior, căști pentru uz casnic și pentru jocuri. AFE poate fi un străin, atâta timp cât oferă calitate acceptabilă semnal. Distanța reală de la microfon la difuzor, la care operatie normala fără costuri extraordinare de echipament, este de 10–50 cm. Este necesar să folosiți AFE pentru a marca începutul (obligatoriu) și sfârșitul (de dorit) frazei de comandă. Pentru aceasta se folosesc butoane hardware, camere, laringofoane etc. versiuni mobile acest lucru vă permite să economisiți energia bateriei.

Cum functioneaza?

La Cerințe minime prin sarcină sistem de calcul RI Speereo funcționează cu o întârziere de cel mult 1,5 s de la sfârșitul frazei până la ieșirea rezultatului. În același timp, am reușit foarte mult nivel inalt conform cerințelor principale (Tabelul 1). Pentru comparație, prezentăm un tabel rar (Tabelul 2).

După cum puteți vedea, nici măcar nu merită să comparați sistemul Speereo RI și sistemele de dictare, care au devenit larg răspândite. Diferența este de unul sau două ordine de mărime.

Ministrul rus al apărării, Serghei Şoigu, a vizitat standul Skolkovo la Săptămâna inovării a Ministerului Apărăriiîn Alabino în august 2014
Fotografie de serviciul de presă Skolkovo

Numărul de comenzi care se pot distinge simultan în sistemul nostru variază de la câteva sute la 10 000. Gestionarea dicționarului instant este lăsată în seama dezvoltatorului. Vocabularul general al sistemului nu este limitat. Matricea de dicționar instant este alimentată în sistem de intrare în mod dinamic sub formă de text. Acest lucru vă permite să construiți sisteme de dialog sensibile la context.

Sistemele de dictare au un vocabular instantaneu limitat la câteva sute de mii (până la 2 milioane) de cuvinte. Este, de asemenea, un dicționar general. Numai dezvoltatorul sistemului poate adăuga cuvinte noi.

Cu toate acestea, limita de 10.000 de fraze ale dicționarului instant din sistemul nostru ne permite să construim interfețe pentru orice obiect de control imaginabil. Mai mult, 10.000 de fraze se potrivesc complet în toate opțiunile rezonabile pentru pronunțarea frazelor de comandă la un anumit moment al dialogului. Pentru a facilita construirea unui grafic de stări și comenzi de tranziție, puteți folosi gramaticile comune. Astfel, obținem un sistem care nu necesită deloc pregătirea utilizatorilor. Această abordare diferă de amăgirea amatorească: „Voi lua un sistem de dictare și apoi voi analiza textul”. Rata de eroare a sistemelor de dictare și complexitatea sistemelor de „înțelegere” a textului pun întotdeauna capăt unor astfel de planuri. Situația este ușor îmbunătățită doar de un sistem foarte laborios pentru înregistrarea statisticilor comportamentului utilizatorilor și procesarea semantică, care a ajutat, în special, la construirea Google Voice Search și Apple SIRI, dar a eșuat în Google Glass, Apple TV și alte proiecte. Astfel de suplimente nu sunt furnizate dezvoltatorilor externi, iar crearea lor costă zeci de milioane de dolari. Acesta este motivul pentru care există atât de puține implementări ale sistemelor de dictare în afara celor desemnate nișe înguste. Unii dezvoltatori care și-au pierdut încrederea în dictare vin la noi ca furnizor alternativ și spun povești foarte asemănătoare despre eșecul proiectului.

Dacă mai ținem cont de faptul că sistemul nostru este independent de vorbitor, rezistent la accent, manieră și ritm de vorbire și nu necesită pauze între cuvinte, atunci putem spune că din punct de vedere al antropomorfismului se află la cel mai înalt nivel modern.

Un pic despre planuri

Vom continua să introducem sistemul nostru în electronicele auto, de consum, de specialitate și industriale. Să continuăm cercetările noastre privind izolarea semnalelor de vorbire dintr-un flux zgomotos și determinarea începutului și sfârșitului comenzilor. De asemenea, dezvoltăm lucrări pentru a crește raza de acțiune de la difuzor la microfon la câțiva metri, ceea ce va face posibilă construirea de zone de interfață în camere fără niciun dispozitiv portabil. Vom acumula și pune la dispoziția consumatorilor noștri tematică rețele semantice, care va facilita construirea de interfețe „libere” pentru clase întregi de echipamente. Vom continua să lucrăm la creșterea dimensiunii dicționarului instant. Toate acestea împreună ne apropie de crearea unei interfețe de vorbire apropiată de ideal.

Fonogramele înregistrate cu ajutorul înregistratoarelor vocale digitale „Gnome R” și „Gnome 2M” îndeplinesc cerințele pentru fonogramele prezentate pentru examinări fonoscopice și sunt potrivite pentru identificarea persoanelor prin voce și vorbire...

Prim-adjunct al șefului

Recorderul vocal Gnome 2M a fost folosit în mod repetat pentru a înregistra conferințe și seminarii în medii acustice dificile; coloanele sonore înregistrate sunt de înaltă calitate. Funcția de reducere a zgomotului încorporată vă permite să îmbunătățiți calitatea redării coloanelor sonore...

Inginer lider al IPK BNTU

Institutul de Studii Avansate și Recalificarea Personalului BNTU

În timpul duratei sale de viață, „Gnome R” și-a dovedit-o Partea pozitivă. Calitate superioarăînregistrări cu dimensiuni minime, durată lungă de înregistrare a sunetului, transfer prompt al informațiilor acumulate din memoria încorporată a reportofonului pe computer...

Ofițer superior al departamentului 3 al direcției a șaptea

Statul Major al Forțelor Armate ale Republicii Belarus

Fonogramele înregistrate folosind sistemul Forget-Me-Not II îndeplinesc cerințele pentru sistemele digitale multicanal pentru înregistrarea mesajelor vocale prin canalele de comunicare telefonică și sunt potrivite pentru identificarea unei persoane prin voce și vorbire...

Șeful centrului

Centrul de expertiză criminalistică de stat

Un număr nelimitat de abonați notificați, un număr mare de sarcini procesate simultan vor face din „Rupor” un asistent indispensabil în munca angajaților departamentului de credit al sucursalei nr. 524 a OJSC „JSSB Belarusbank...

Director adjunct – Șef centru de afaceri retail

Sucursala nr. 524 a SA „ASB Belarusbank”

Sistemul de avertizare automată „Rupor” a funcționat pe analog linii telefoniceși a fost testat pentru a anunța personalul. Sistemul a deservit 100 de abonați, a funcționat stabil și nu a necesitat întreținere constantă...

Comisar militar interimar

Comisariatul militar din Minsk

Sistemul de înregistrare Forget-Me-Not II asigură recepția mesajelor vocale de la rezidenți, înregistrare de înaltă calitate la un computer, capacitatea de a asculta mesaje înregistrate și de a introduce informații într-o bază de date text. Sistemul de notificare „Rupor” anunță automat debitorii...

Şeful Departamentului ACS

Întreprinderea unitară „ZhREO Sovetsky district din Minsk”

Sistemul Roupor oferă notificare cantitate mare abonații într-un timp scurt, în conformitate cu parametrii stabiliți, cu furnizarea unui raport privind notificarea efectuată, funcționează în mod fiabil, respectă pe deplin cerințele pentru aceasta...

Director al departamentului de afaceri cu amănuntul

ÎN sistem mobilînregistrarea și documentarea discursului „Protocol” include înregistrator digital de voce„Gnome 2M” și transcriptor computer „Caesar”. Înregistratorul vocal Gnome 2M vă permite să obțineți înregistrări de înaltă calitate ale întâlnirilor și sesiunilor, iar transcriptorul Caesar crește semnificativ viteza de traducere. informații audio la un document text...

Specialist de frunte

Institutul de Stat și Drept al Academiei de Științe a Republicii Belarus

Interfață de utilizator vocală: Science Fiction sau Reality?

În zonă tehnologia Informatiei Mijloacele de interacțiune a utilizatorului cu un sistem tehnic se numesc de obicei interfață. Interfețele sunt diferite și sunt implementate prin mijloace diferite si metode. De exemplu, toată lumea cunoaște interfața grafică, care se bazează pe utilizarea graficii computerizate pentru a afișa informațiile de care utilizatorul are nevoie într-o formă vizuală. Trebuie remarcat faptul că una dintre cele mai importante sarcini în dezvoltarea sistemelor tehnice moderne este de a oferi o interfață ușor de utilizat. Cu alte cuvinte, modern aplicații informatice devenind din ce în ce mai mult centrat pe utilizator.

Este evident că una dintre cele mai naturale forme de interacțiune pentru oameni este vorbirea. Se crede că interfața vocală poate îmbunătăți interfața de utilizator existentă, deoarece se crede că oferă o modalitate mai convenabilă și mai puțin restrictivă pentru o persoană de a interacționa cu un computer. Interfața vocală cu utilizatorul este probabil factorul critic de succes al oricărui sistem automat de recunoaștere a vorbirii și va determina în mare măsură experiența utilizatorului de utilizare a sistemului.

O interfață de utilizator vocală permite unei persoane să interacționeze cu un computer pentru a iniția un proces sau un serviciu automatizat. Elementele interfeței vocale cu utilizatorul sunt prompturile de sistem, gramatica și algoritmul de dialog. Sugestiile sau mesajele de sistem sunt observații înregistrate sau sintetizate anterior pe care utilizatorul le aude în timpul unui dialog. Gramatica conține un set de posibile interogări și răspunsuri ale utilizatorilor. Sistemul poate recunoaște doar acele cuvinte, propoziții sau fraze care sunt incluse în gramatică. Algoritmul de dialog se referă la succesiunea de acțiuni pe care le realizează sistemul.

În ciuda relevanței sale mari, nu toate sarcinile de dezvoltare a unei interfețe vocale pot fi considerate în prezent rezolvate. Problema dezvoltării unei interfețe vocale este destul de complexă și complexă, ceea ce impune dezvoltatorului să aibă cunoștințe în diverse domeniile subiectului. Crearea unei interfețe vocale de înaltă calitate necesită cunoștințe în domeniu informatică, lingvistica și psihologia comportamentului uman. Chiar și cu instrumente avansate de proiectare, proiectarea unei interfețe de utilizator vocale eficace necesită ca creatorii săi să aibă o înțelegere detaliată atât a sarcinilor efectuate de sistem, cât și a psihologiei utilizatorilor sistemului.

Atunci când proiectați o interfață vocală cu utilizatorul, este important să determinați scopul sistemului (de exemplu, să comandați o conversație telefonică, să cumpărați un bilet de avion sau să ajustați programul de lucru) și să găsiți cel mai potrivit. metoda eficienta realizările ei. Pentru a face acest lucru, trebuie să răspundeți la următoarele întrebări:

  1. Cum îndeplinește o persoană de obicei această sarcină?
  2. Este posibil să finalizați o sarcină în cel mai mic număr de pași?
  3. Cum percep majoritatea oamenilor această sarcină, de ex. „modelul lor mental” al acestei sarcini?

Interfețele grafice de utilizator folosesc capacitatea de a afișa informații pe ecranul unui computer. Bara de instrumente este andocata: rămâne pe ecran, iar pictogramele de pe ea nu se schimbă. Consecvența barei de instrumente reduce nevoia utilizatorului de a-și aminti o serie de acțiuni și comenzi. Vorbirea este un flux de sunete. Prin urmare, o persoană trebuie să se bazeze pe memoria sa pentru a-și aminti ceea ce s-a întâmplat cu câteva secunde sau minute în urmă. Aceasta înseamnă că dezvoltatorii de interfețe vocale cu utilizatorul trebuie să controleze sarcina pe care o plasează asupra memoriei utilizatorului. Asigurarea unui nivel acceptabil de „încărcare cognitivă” este unul dintre puncte cheieîn crearea unei interfețe vocale cu utilizatorul ușor de utilizat.

După cum am menționat mai sus, prezicerea răspunsurilor utilizatorilor este treaba unei gramatici concepute eficient. Gramatica determină ce poate „înțelege” sistemul și cum ar trebui să răspundă la acesta. Un sistem a cărui gramatică include tot atâtea set limitat cuvinte, recunoaște doar răspunsurile „da”, „nu”, în timp ce gramatica extinsă permite sistemului să recunoască corect răspunsuri precum „da, te rog”, „umm... da”, „pai da”. Unele gramatici vă permit să recunoașteți răspunsuri precum „Nu știu”, după care sistemul oferă mai multe răspunsuri posibile pentru a ajuta utilizatorul să decidă.

Din păcate, uneori apar erori și neînțelegeri în comunicarea utilizatorului cu sistemul. Anticipând apariția celor mai frecvente erori, oferind utilizatorului întrebări clare și răspunzând corespunzător răspunsurilor sale, interfața vocală poate seta dialogul în direcția corectă și poate corecta rapid erorile dacă apar. De exemplu, dacă utilizatorul tace, evident neștiind ce să spună, sistemul îi poate adresa o întrebare detaliată:

Dacă răspunsul utilizatorului nu se potrivește cu cele conținute în gramatică, poate duce la o eroare de recunoaștere, așa că sistemul trebuie să clarifice modul de răspuns:

Dacă sistemul încă nu poate face față erorii, acesta solicită utilizatorului să transfere apelul către un operator.

Dacă vorbim despre navigarea prin sistem, trebuie menționat că atunci când lucrează cu aplicația, utilizatorul ar trebui să poată întotdeauna să se întoarcă cu un pas înapoi în dialog, să asculte din nou ultimul mesaj sistem sau săriți peste orice nivel de dialog și treceți direct la următorul. Opțiunile de comandă de utilizator pentru navigarea în sistem ar trebui incluse în gramatică. Gramatica trebuie să conțină, de asemenea, toate sinonimele posibile de comandă. De exemplu, pentru comanda " Repeta„trebuie să țineți cont de o serie de sinonime, începând de la „ Spune-o din nou te rog" inainte de " Ce?».

Prezența hyperlink-urilor permite utilizatorului să controleze în continuare fluxul normal al dialogului. Urmând un hyperlink, utilizatorul poate sări peste unele niveluri ale dialogului și să ajungă imediat la locul dorit în dialog. Exemplele comune includ hyperlink la meniul principal, întreruperea unei aplicații, conectarea la un reprezentant de asistență și încheierea unui apel.

De asemenea, ar trebui să luați în considerare cu atenție ce comenzi trebuie să accepte utilizatorul și când. Confirmarea alegerii echipei este necesară mai ales în cazurile în care costul erorii este destul de mare. Ca și în cazul comenzii „Anulare”, atunci când utilizatorul poate opri accidental dialogul cu sistemul și poate întrerupe, de exemplu, procesul de rezervare a unui bilet.

Posibilitatea de a întrerupe o aplicație este utilă pentru utilizatorii care au nevoie de timp suplimentar pentru, de exemplu, să-și găsească numărul de cont sau să apuce un pix și un bloc, sau care trebuie să fie distrași în timp ce lucrează cu o aplicație, cum ar fi conducerea. În astfel de cazuri, dialogul este întrerupt până când sistemul primește comanda corespunzătoare de utilizator, de exemplu, „ Continua».

Este important să acordați o atenție deosebită calității vocii și înregistrării mesajelor de sistem. O gramatică concepută corespunzător, care conține toate sinonimele posibile, permite o varietate de răspunsuri ale utilizatorilor, dar mesajele sistemului ar trebui să fie mai clare. Când proiectați o interfață vocală cu utilizatorul, ar trebui să îi clarificați întotdeauna utilizatorului cum ar trebui să răspundă. Pentru a face acest lucru, dacă un răspuns valid nu poate fi solicitat utilizatorului, dezvoltatorii de aplicații furnizează un număr de cuvinte cheie care ajută utilizatorul să dea un răspuns pe care sistemul îl înțelege. De exemplu, " Doriți să „selectați o destinație”, „să obțineți informații despre hoteluri” sau „rezervați o cameră”?

Să ne oprim puțin asupra mesajelor de sistem. Mesajele de sistem includ indicii, care sunt de trei tipuri:

  1. Solicitare de informații - solicitarea utilizatorului să facă o alegere, să selecteze dintr-un meniu, să selecteze o informație care trebuie corectată și, de asemenea, să introducă datele lor, de exemplu, un număr de telefon.
  2. Mesaj de stare curentă a sistemului - un mesaj care indică o eroare, un rezumat al informațiilor de confirmat și expresii precum „ Va rugam asteptati”, care anunță utilizatorul că există o întârziere în prelucrarea datelor. Această categorie include și așa-numitele „etichete”, care îi spun utilizatorului la ce nivel de dialog se află, de exemplu, „ Ați revenit la meniul principal».
  3. Mesaj informativ – poate fi inițiat de sistem sau de utilizator. Primul include un salut, precum și un mesaj către utilizator cu instrucțiuni pentru lucrul cu aplicația. Al doilea include informații pe care utilizatorul le solicită, de exemplu, ajutor, prognoza meteo etc.

Mesajele vocale ale sistemului sunt sintetizate sau fraze preînregistrate sau o combinație a ambelor. Sinteza vorbirii este mai potrivită pentru a rosti conținut informațional dinamic, cum ar fi mesajele E-mail. Pe de altă parte, vorbirea înregistrată, i.e. frazele preînregistrate în studio de un actor profesionist transmit mai precis expresivitatea discursului unei persoane și fac dialogul mai natural.

Multe aplicații oferă și sunet pentru mesajele vocale ale sistemului. Astfel, sunt adesea folosite logo-uri muzicale, sunete care indică apariția unei erori, începutul unui mesaj și sunete ambientale.

Cu toate acestea, nu toate tranzacțiile comerciale se pretează automatizării folosind o interfață de utilizator vocală. De regulă, cu cât interogările și operațiunile sunt mai complexe, cu atât automat sunt mai problematice și, ca urmare, este mai probabil ca acestea să nu găsească popularitate în rândul utilizatorilor. De exemplu, o linie telefonică de consiliere juridică este destul de greu de automatizat, deci în acest caz, asistența operatorului este singura opțiune. Pe de altă parte, utilizarea unei interfețe vocale cu utilizatorul este convenabilă pentru automatizarea operațiunilor rapide, care se repetă în mod constant, cum ar fi plasarea unei comenzi, înregistrarea timpului sau a plății sau transferul de fonduri dintr-un cont în altul.

Iată câteva aplicații specifice ale interfeței cu utilizatorul vocal care sunt deja utilizate în diferite sisteme:

  • sisteme pentru protejarea accesului la baze de date, informatii si obiecte;
  • sisteme de avertizare în Situații de urgență(intrare neautorizată în instalație, securitate economică, susținere a vieții instalației etc.);
  • sisteme de ajutor vocal în timp real care vă permit să actualizați automat informațiile imediat după ce se schimbă;
  • sisteme de acces informații de referință prin reteaua telefonica acces general;
  • sisteme de acces informație corporativă, cum ar fi citirea sau trimiterea de e-mailuri;
  • sisteme de mesagerie vocală;
  • sisteme de vot și concurs;
  • sisteme automate de servicii pentru clienți, operațiuni cu conturi personale, primirea și procesarea comenzilor.

O interfață vocală bună ajută la depășirea aversiunii utilizatorilor față de tehnologie, deoarece nu trebuie să învățați noi abilități pentru a o folosi. În timpul comunicării cu sistemul, utilizatorul poate efectua diverse operatii rapid și ușor, ca și cum ați comunica cu un specialist calificat. Interfața vocală schimbă calitativ modul și, prin urmare, eficacitatea interacțiunii utilizatorului cu sistemul. Vă permite să faceți lucrul cu aplicația mai firesc pentru o persoană.

O repovestire a raportului de către cercetătorul UX și fostul specialist în interfețe de vorbire de la Google Konstantin Samoilov cu privire la capacitățile asistenților virtuali existenți.

La marcaje

Constantin Samoilov

Raportul a fost prezentat la maratonul UX „Interacțiunea viitorului” pe 6 iulie 2017, când asistent vocal Yandex nu exista încă.

Ce este asta

Pentru a evita confuzia, este important să cădeți de acord asupra a ceea ce înseamnă în esență o interfață vocală (GI). Problema recunoașterii vocii este rezolvată activ. Calitatea sa, chiar și pentru o limbă non-engleză în condiții neideale (cu accente și intonații), este de 95−98%. Dacă antrenați modelul, calitatea poate fi îmbunătățită.

1. Limbajul natural

Dacă vorbim despre GI ca înlocuitor pentru tastarea pe tastatură sau atingerea ecranului, este simplu de implementat - implementați doar introducerea comenzii prin voce.

Dar acest lucru nu va funcționa, deoarece limbajul de comandă nu este natural pentru oameni. Pentru utilizatori, avantajul unei interfețe vocale este că nu există o curbă de învățare. Putem vorbi, suntem experți în a interacționa unul cu celălalt.

Acum limbajul de interacțiune cu toată lumea sistemele existente nu firesc. Puteți spune „Alexa, începe să redați așa sau așa o piesă”, dar aceasta este o anumită gramatică pe care sistemul este predată și care este de fapt ascunsă utilizatorului.

2. Dialog

Chiar dacă putem transmite comenzi către computer prin voce, sistemul tot nu va funcționa. Se presupune că toate datele sunt introduse chiar de la început. În programare, dacă dezvoltatorul a introdus o comandă incorectă, sistemul nu clarifică exact ce a vrut să spună. De regulă, pur și simplu nu funcționează. Trebuie să existe un dialog.

3. Vocabular și gramatică nelimitate

Aceeași Alexa lucrează pe o mică insulă de responsabilitate. În conformitate cu algoritmii de bază, se așteaptă să primească anumite argumente de la utilizator. Aşteptările sistemului limitează gramatica şi lexicon, pe care utilizatorul îl poate folosi.

ÎN Dezvoltatorii Google gândit la gramatica și tipurile de cuvinte în Limba engleză poate fi folosit de oameni pentru cele mai comune sarcini - cum ar fi setarea unei alarme sau crearea unui memento.

Testele au început acum patru ani. În timpul primului test, utilizatorul a spus ceva ce dezvoltatorii nu au planificat. Sistemul nu a funcționat, dezvoltatorii au spus: „La naiba, nu ne-am gândit la asta”.

Trei ani mai târziu, într-o versiune îmbunătățită a aceluiași sistem, utilizatorul a spus din nou ceva care nu a funcționat, iar dezvoltatorii au spus: „La naiba, nici noi nu ne-am gândit la asta”. Odată cu trecerea timpului, arbori de decizie și gramatici pentru sarcina specifica, și toată lumea nou test a detectat o excepție de care dezvoltatorii nu au luat-o în considerare.

Limbajul natural, dialogul și vocabularul/gramatica sunt probleme fundamentale care trebuie abordate pentru ca GI să funcționeze efectiv.

Tipuri

Discuțiile despre interfețele vocale și conversaționale acoperă de obicei o gamă largă de sisteme. Începând cu roboții care răspund cel mai mult întrebări simpleși glumă nepotrivit, și sfârșit sisteme complexe, care sunt utilizate la nivel industrial. De exemplu, un sistem de hrănire surprinzător de bun Înapoierea taxeiîn Anglia.

Starea curenta

Jucători principali:

  • Alexa de la Amazon.
  • Siri de la Apple.
  • OK Google.
  • Cortana de la Microsoft (pe care puțini oameni îl folosesc).

Samsung își face singur sistem nou numită Vera. Alibaba - asistent pentru utilizatorii chinezi. Piața a explodat, toată lumea lucrează în acest domeniu.

Dar a apărut o situație paradoxală. Companiile care au resursele, cunoștințele și abilitățile necesare pentru a face un pas semnificativ înainte și a schimba foarte mult industria nu sunt interesate de acest pas. GI și asistenții vocali sunt o inovație care schimbă situația actuală (tehnologie disruptivă).

Siri - destul asistent bun, care stimulează vânzările de iPhone. Își îndeplinește sarcinile și nu are rost ca compania să facă ceva nou care va schimba ecosistemul Aplicații Magazin.

Modelul actual de interacțiune om-calculator este o cutie de instrumente. Găsim un instrument, îl punem într-o cutie și la un moment dat îl folosim pentru a atinge un scop. Noi înșine suntem responsabili pentru găsirea și deținerea instrumentelor și trebuie să înțelegem când și în ce ordine să le folosim.

Avantajul GI este că ne exprimăm dorința într-un mod natural. Este firesc să spui „Dragă, te rog, adu-mi niște ceai” - despre care vorbim rezultatul dorit, mai degrabă decât să discutăm prin toți pașii care sunt necesari pentru aceasta.

O schimbare fundamentală a modelului de interacțiune va duce la faptul că instrumentele separate nu vor fi necesare.

Proiecta

Utilizatorii se așteaptă să își poată exprima dorințele în mod natural și că sistemul le va înțelege. Sistemul ar trebui să se adapteze la persoană, și nu invers. Prin urmare, proiectarea GI este în mare măsură o lucrare de înțelegere a caracteristicilor umane.

Încredere

O fată a participat la test de trei ori. A doua oară, când sistemul funcționa deja destul de bine, reacția ei a fost „O, Doamne, chestia asta stă în telefonul meu, acum viața mea se va schimba”. La al treilea test, o lună mai târziu, ea a spus că nu a folosit niciodată sistemul și că nu intenționează să o facă.

Deși sistemul a funcționat în majoritatea cazurilor, fata pur și simplu nu avea încredere în el. Încrederea nu este intrebare tehnica, dar dacă nu se rezolvă, restul lucrărilor se vor face în zadar.

Încrederea este opusul controlului. Zicala „Ai încredere, dar verifică” este un nonsens. Nu se întâmplă să vii acasă și soția să-ți spună: „Dragă, te-ai întors la 12 noaptea. Ai spus că ai fost la o întâlnire. Așa că ți-am sunat toți prietenii, compania și șoferul tău, iar tu ai fost de fapt la o întâlnire. Am încredere în tine, dar verific.” Acest lucru nu se întâmplă.

Mai întâi, aflăm cum se descurcă sistemul și apoi începem să îi delegăm sarcini. Ea devine o cutie neagră - nu știm cum o face. Ca și în cazul unui asistent live, renunțăm la control și îl înlocuim cu încredere.

Nici măcar o sarcină simplă, cum ar fi setarea unei alarme într-un anumit context, nu poate fi delegată la fel de ușor. Un lucru este să setați o alarmă pentru sâmbătă, astfel încât să nu dormi prea mult până la prânz. Celălalt este pentru 5 dimineața să ajung la aeroport și să mă întâlnesc cu părinții mei. Oamenii nu au înțeles cât de greșit ar putea fi sistemul, așa că nu l-au folosit deloc.

Interfață invizibilă

Lucrul unic despre interfața vocală este că este invizibilă. ÎN interfata grafica vedem comenzile: sunt acolo, cum arată, este designul modern, există butoanele „Înapoi” și „Înainte”, la ce pas ne aflăm în prezent - intermediar sau final.

GI nu vă permite să vedeți asta. Încercăm să creăm un model mental al sistemului și să răspundem la întrebări precum: „Dacă acum spun „Înapoi”, voi merge la începutul dialogului sau la starea anterioară? Și ce fel de stare este aceasta?”

Un model mental răspunde la întrebarea despre capacitățile sistemului. În plus, acest model este întotdeauna greșit. Dacă tocmai am interacționat cu un meniu vocal „Apăsați unu la ceva”, așteptările vor fi scăzute. Dacă am vizionat recent filmul „Ea”, așteptările vor fi mari.

Pentru ca GI să funcționeze cel puțin cumva, este necesar să se ajute utilizatorul să creeze și să ajusteze un model mental al sistemului.

Ajustarea modelului mental

Sistemul poate pune întrebări care necesită răspunsuri simple:

Da sau nu).

Și poate, sugerând răspunsuri detaliate:

Vrei să faci altceva?

Deplasați acest eveniment cu o jumătate de oră.

Din formatul întrebării, utilizatorul poate concluziona că în primul caz sistemul este destul de prost. El va spune „Nu, nu salva” și va da comenzile ulterioare cu aceeași granularitate: „Eveniment nou. Când vrei să o faci? La 12:30. Ce vreţi să faceţi? Faceți cunoștință cu părinții. Unde? Într-un Aeroport”.

În al doilea caz, el poate decide că sistemul este „inteligent” și înțelege răspunsuri detaliate. Pentru a corecta informațiile introduse, el va spune: „În schimb, vreau să creez un nou eveniment pentru mâine la 12:30 pentru a-mi întâlni părinții la aeroport.”

umanitate

Pentru a face un GI care este natural pentru o persoană, trebuie să înțelegem de ce conversația noastră cu o altă persoană este considerată naturală. Datorita ce caracteristici? Ne-am dat seama că nu știm asta.

Mânca oameni destepti, cu care este plăcut să comunici și cu cine nu. Există oameni cu reacții destul de mature: ei reacționează diferit la greșelile și întrebările noastre. Acum 50 de ani nu exista inteligența emoțională. Cu siguranță nu cunoaștem multe alte caracteristici datorită cărora să putem comunica confortabil cu alte persoane.

Fără cunoașterea acestor caracteristici, este imposibil să le introduci în sistem și să faci comunicarea cu sistemul firească. O soluție posibilă este că sistemul nu trebuie să fie pregătit. Puteți lansa un produs semifabricat care va primi feedback de la oameni și va afla ce a făcut bine și greșit.

Chiar dacă nu știm care ar trebui să fie aceste caracteristici, la un moment dat sistemul însuși le va da seama și le va susține.

Personalitate

Una dintre cele mai populare întrebări este caracterul personalității asistent vocal. Acum tehnologia ne permite doar să imităm prietenia, inteligența, simțul umorului și așa mai departe. Particularitatea unei persoane este că acestea sunt caracteristici cu mai multe fațete. Abordările companiilor variază și depind de scopul creării unui sistem de voce și de filozofia companiei.

Siri este un proiect al unei companii care creează magic experiența utilizatorului. Totul ar trebui să funcționeze. Și dacă utilizatorul înțelege corect gramatica și vocabularul, totul este grozav. Dar dacă nu ghiceste corect, sistemul încetează să funcționeze fără cel mai mic indiciu despre ce este în neregulă sau cum să ajusteze comportamentul, astfel încât să funcționeze mai bine data viitoare.

În același timp, se acordă o mare atenție personalizării. Programatorii au lucrat la calitatea vocii și la interacțiunea umană: Siri poate glumi sau poate adăuga un comentariu amuzant atunci când îndeplinește o sarcină standard. Uneori pare natural, dar ajungem repede în valea neobișnuită.

Efectul este: decât mai mult sistem Ea arată ca o persoană, cu atât el o place mai mult. Dar când devine foarte asemănător, placerea scade brusc și este restaurată doar pentru imitație completă. Acest declin este numit „valea neobișnuită”.

„Valea misterioasă”

Cu personalități, cădem rapid în ea: sistemul glumește cu succes, persoana se relaxează, folosește un alt set de cuvinte și gramatică, iar sistemul începe să reacționeze diferit decât se așteaptă. Utilizatorul poate simți că sistemul râde de el sau nu îl aprobă. Acest lucru este mult mai rău decât dacă ar crede pur și simplu că acesta este un robot prost.

Una dintre principalele diferențe Asistent Google este ca nici macar nu are nume (OK, Google). Siri (Apple) și Alexa (Amazon) au nume și încearcă să se comporte ca niște oameni.

La Google, am descoperit că cel mai sigur lucru de făcut este să nu falsificăm personalități și să arătăm utilizatorului că acestea sunt doar tehnologie fără nicio interacțiune umană.

Răspunsuri la întrebări

Siguranță

Soluții interesante Alexa o are: poate comunica cu dispozitivele pe care le ai acasă, cum ar fi o încuietoare inteligentă. Poți să mergi la ușă și să spui: „Alexa, deschide ușa, codul este așa și așa.”

Există o mulțime de nuanțe. Când ne folosim vocea, suntem auziți de toți cei din apropiere - acest lucru este nesigur și uneori nepotrivit. Oamenii folosesc GI în mașina lor pentru a crea un eveniment, dar nu o face în autobuz pentru că alții vor auzi unde, când și cu cine plănuiesc să fie.

Am decis să nu folosim GI atunci când siguranța este importantă. În acest caz, cerințele pentru sistem sunt mai mari. Dacă setăm o alarmă și se stinge de 99 de ori din 100, este normal. Dacă închidem o mașină sau un seif, operarea în 99 de cazuri din 100 este inacceptabilă.

Apare problema feedback-ului. Dacă setăm o alarmă, răspunsul că este setat este suficient. Nu specificam toti parametrii inregistrati de sistem. Cu cerințe de securitate crescute, trebuie să avem încredere deplină în sistem, ceea ce este imposibil în starea actuală.

Sau ar trebui să primească feedback: alarma unui astfel de plan este pornită, va funcționa până la un moment dat, această persoană o poate opri și așa mai departe. Dacă sistemul o spune prin voce, altcineva o poate auzi. Și dacă sistemul raportează informații confidențiale?

Prin urmare, în munca noastră am decis să nu ne implicăm în situații în care securitatea și confidențialitatea sunt importante.

Viitorul apropiat

Companii mari va încerca să imite capacitatea asistentului de a răspunde la orice întrebare și tot nu va funcționa.

Aplicarea va fi posibilă în zone înguste în care așteptările utilizatorului îi limitează vocabularul și dinamica interacțiunii. De exemplu, puteți spune automatului de bilete că aveți nevoie de un bilet de la Moscova la Kaluga pentru mâine seară. Dacă o persoană întreabă atunci câți ani are Barack Obama, este absolut normal ca sistemul să nu răspundă la o astfel de întrebare.

Viitorul este să vă concentrați pe un anumit caz de utilizator, să susțineți toată gramatica asociată cu acesta și să ignorați tot ce este în afara acestuia.

Utilizare în plăți

Vocea este folosită pentru a confirma plățile, dar aceasta este doar o parte a întregii interacțiuni. Nu există exemple în care întregul proces poate fi finalizat prin voce. Acest lucru se datorează parțial problemelor legale și rambursărilor.

În Europa există o perioadă de răcire, când într-un anumit timp (variază în diferite țări) cumpărătorul poate returna produsul, chiar dacă totul este în regulă. O persoană se poate răzgândi fără motiv, iar acest lucru este susținut de lege.

Sistemul de plată are nevoie și de o garanție că persoana a plătit produsul știind ce cumpără, iar aceasta nu a fost o eroare. Dacă este o achiziție greșită, se aplică o politică complet diferită pentru rambursări. Au fost cazuri când un copil a ridicat telefonul (Amazon Fire), a spus ceva și a început procesul de cumpărare. În acest caz, nu se poate dovedi cine a inițiat-o.

Când este necesar

Este general acceptat că tehnologie nouăîl va înlocui pur și simplu pe cel precedent, dar nu este întotdeauna cazul. Acum se vorbește despre vocalizarea aplicațiilor, când pt aplicație existentă ecranul este pur și simplu înlocuit cu voce. Evident că nu funcționează așa. În principal pentru că vocea este folosită în alte setări. Dacă o persoană poate ține un telefon și atinge ecranul, este mai puțin probabil să-și folosească vocea. Ecranul tactil este adesea mai convenabil decât GI.

Vocea este convenabilă atunci când este dificil să folosești telefonul: în timp ce conduci, pe drum cu genți, sau acasă pe canapea, când telefonul este pe masă și pur și simplu ești prea lene să te ridici să-l ridici. Activarea muzicii cu vocea se dovedește a fi mai ușoară, chiar dacă apăsați un buton, este mai rapid.

GI este necesar atunci când utilizarea telefonului în mod obișnuit este imposibilă, de exemplu, într-o mașină. Dar dacă o companie spune că un produs poate fi folosit în timpul conducerii, trebuie să dovedească autorităților speciale că au fost luate în considerare toate restricțiile legale legate de conducere.

GI trebuie utilizat atunci când sunt îndeplinite două condiții:

  1. O persoană face ceva multitasking și nu se poate concentra pe un singur dispozitiv.
  2. Ceea ce face el cu GI nu este sarcina principală.

Conexiune cu interfața vizuală

Un mare avantaj al interfețelor vizuale este că opțiunile de interacțiune sunt vizibile. Cu GI nu știm ce avem la dispoziție.

Interacțiunea cu ecranele este un subiect foarte bine dezvoltat. Ecranul va rămâne chiar și atunci când GI funcționează bine, fie și doar pentru că avem ochi. Percepția vizuală este cea principală. Voce - auxiliar.

Vocea poate interacționa cu prezentarea pe ecran a datelor fără a fi o structură subordonată. De exemplu, în Alexa, componenta principală este vocea. Puteți instala aplicația pentru a vedea răspunsurile sistemului pe ecran (unele răspunsuri sunt greu de perceput după ureche). Adevărat, acum conceptul se schimbă - următoarea versiune Amazon Echo va avea propriul ecran.

Aplicare în procese critice

Chirurg - bun exemplu multifunctional. Se concentrează pe o singură activitate, dar poate necesita informații suplimentare. Aici GI este deja folosit.

IBM a luat o cale diferită cu proiectul Watson. Compania a început să lucreze inteligenţă artificială. Mai întâi a câștigat testul oamenilor, iar în urmă cu patru ani a fost introdus în mai multe clinici americane. Acum este folosit pentru a diagnostica cancerul în 1.000 de clinici. Sistemul este utilizat pentru procese critice, dar în cazuri de utilizare foarte restrânse. În același timp, personalul urmează o pregătire specială.

Exemple de soluții de succes

Amazon a lansat un produs radical diferit: nu există ecran, este un obiect fizic, calitatea vocii este mult mai mare (datorită stocării de date încorporate cu mostre preînregistrate).

Interacțiune conversațională interesantă Google. Dacă spunem că vrem să adăugăm ceva în calendar, se va lansa un sistem de dialog, destul de flexibil și destul de evident. El clarifică informații despre eveniment, puteți corecta datele și așa mai departe.

Microsoft a abordat bine problema personalizării în Cortana. Este de așteptat ca o persoană să nu știe nimic despre sistem sau să-l configureze. Când spun asta, ceea ce vreau să spun de obicei este: folosesc aceste cuvinte altfel decât alți oameni și așa mai departe. În teorie, acest lucru ar trebui să funcționeze automat, dar nu funcționează, ceea ce înseamnă că trebuie să existe un sistem de configurare.

Apple ignoră complet problema setărilor. Pentru Cortana, vă puteți specifica interesele și așa mai departe, iar interfața este destul de simplă.

Rezumatul a fost pregătit de designerul de interfețe Anton Grigoriev.