Înțelegerea recunoașterii vocale

Încercați Instrumentul Nostru Pentru Eliminarea Problemelor





Imaginați-vă că stați relaxat pe canapea și comandați computerul, laptopul sau telefonul mobil pentru a efectua sarcini simple, cum ar fi tastarea unei scrisori sau efectuarea de câteva comenzi. Este posibil?

Bineînțeles că este locul în care recunoaște vocea.




Mergând după definiție, este procesul de recunoaștere a vorbirii umane și a decodat-o în formă de text.

Principiu

Principiul de bază al recunoaștere vocală implică faptul că vorbirea sau cuvintele rostite de orice ființă umană provoacă vibrații în aer, cunoscute sub numele de unde sonore. Aceste unde continue sau analogice sunt digitalizate și procesate și apoi decodificate în cuvinte adecvate și apoi propoziții adecvate.



recunoaștere vocală

Componentele unui sistem de recunoaștere a vorbirii

Deci, în ce constă un sistem de bază de recunoaștere a vorbirii?

Componentele unui sistem de recunoaștere a vorbirii

  • Un dispozitiv de captare a vorbirii : Se compune dintr-un microfon, care convertește semnalele de undă sonoră în semnale electrice și un convertor analog în digital care prelevează și digitalizează semnalele analogice pentru a obține datele discrete pe care computerul le poate înțelege.
  • Un modul de semnal digital sau un procesor : Efectuează procesarea semnalului de vorbire brut, cum ar fi conversia domeniului de frecvență, restabilind doar informațiile solicitate etc.
  • Stocare semnal preprocesată : Vorbirea preprocesată este stocată în memorie pentru a îndeplini sarcina ulterioară de recunoaștere a vorbirii.
  • Modele de vorbire de referință : Computerul sau sistemul este format din modele predefinite de vorbire sau șabloane deja stocate în memorie, pentru a fi utilizate ca referință pentru potrivire.
  • Algoritm de potrivire a modelelor : Semnalul de vorbire necunoscut este comparat cu modelul de vorbire de referință pentru a determina cuvintele reale sau modelul de cuvinte.
Funcționarea sistemului

Acum, să vedem cum funcționează de fapt întregul sistem.


Funcționarea sistemului

  • Un discurs poate fi văzut ca o formă de undă acustică, adică semnal care transportă informații despre mesaje. O ființă umană normală cu o rată limitată de mișcare a articulatoarelor sale (organele de vorbire) poate produce vorbire cu o rată medie de 10 sunete pe secundă. Rata medie a informațiilor este de aproximativ 50-60 biți / secundă. Înseamnă că de fapt doar 50 de biți / secundă de informații sunt necesari în semnalul de vorbire. Această formă de undă acustică este convertită în semnale electrice analogice de către microfon. Convertorul analog în digital convertește acest semnal analog în eșantioane digitale, luând măsurători precise ale undei la intervale discrete.
  • Semnalul digitalizat constă dintr-un flux de semnale periodice eșantionate la 16000 de ori pe secundă și nu este potrivit pentru a efectua efectiv recunoaștere a vorbirii proces, deoarece modelul nu poate fi localizat cu ușurință. Pentru a extrage informațiile reale, semnalul în domeniul timpului este convertit în semnal în domeniul frecvenței. Acest lucru este realizat de procesorul de semnal digital folosind tehnica FFT. În semnalul digital, componenta după fiecare 1/100aa unei secunde este analizată și se calculează spectrul de frecvență pentru fiecare astfel de componentă. Cu alte cuvinte, semnalul digitalizat este segmentat în părți mici de amplitudini de frecvență.
  • Fiecare segment sau graficul de frecvență reprezintă diferitele sunete produse de ființe umane. Computerul efectuează potrivirea segmentelor necunoscute cu fonetica stocată a limbii respective. Această potrivire a modelului se face în 3 moduri:

Folosind o abordare fonetică acustică : În abordarea fonetică acustică, în general se folosește modelul ascuns Markov. Acest model dezvoltă un model de probabilitate nedeterminist pentru recunoașterea vorbirii. Acest model constă din două variabile - stările ascunse ale fonemelor stocate în memoria computerului și segmentul de frecvență vizibil al semnalului digital. Fiecare fonem are propria probabilitate și segmentul este asortat cu fonemul în funcție de probabilitate, iar fonemele potrivite sunt apoi colectate împreună pentru a forma cuvintele corecte conform regulilor gramaticale stocate ale limbii.

Folosind o abordare de recunoaștere a modelelor : În abordarea de recunoaștere a modelelor, sistemul este instruit cu un model de vorbire special pentru orice limbă, iar modelul de vorbire necunoscut este comparat cu modelul de vorbire de referință, determinând distanța dintre semnale folosind tehnica de deformare a timpului.

Folosind inteligența artificială : Abordarea inteligenței artificiale se bazează pe utilizarea surselor de cunoaștere de bază, cum ar fi cunoașterea sunetelor rostite pe baza măsurătorilor spectrale, cunoașterea cuvintelor adecvate semnificative și sintactice.

Factori de care depinde sistemul de recunoaștere a vorbirii

Sistemul de recunoaștere a vorbirii depinde de următorii factori:

  • Cuvinte izolate : Trebuie să existe o pauză între cuvintele consecutive rostite, deoarece cuvintele continue se pot suprapune, ceea ce face dificilă înțelegerea sistemului când începe sau se termină un cuvânt. Astfel, trebuie să existe o tăcere între cuvintele consecutive.
  • Difuzor unic : Multe difuzoare care încearcă să transmită intrarea vocală în același timp pot provoca suprapunerea semnalelor și întreruperi. Majoritatea sistemelor de recunoaștere a vorbirii utilizate sunt sisteme dependente de difuzoare.
  • Dimensiunea vocabularului : Limbile cu vocabular mare sunt dificil de luat în considerare pentru potrivirea tiparelor decât cele cu vocabular mic, deoarece șansele de a avea cuvinte ambigue sunt mai mici în acestea din urmă.
Sistem de recunoaștere a vorbirii pe Windows 7

Aș dori să recomand următorii pași pentru orice persoană care utilizează Windows 7 pentru sistemul de recunoaștere a vorbirii

  • Deschideți Panoul de control din meniul Start sau făcând clic pe pictogramă.
  • Selectați Acces ușor și apoi faceți clic pe Recunoaștere vorbire.
  • Apoi faceți clic pe configurați microfonul și selectați microfonul desktop din opțiunile disponibile.
  • Apoi urmați tutorialul de vorbire și urmați instrucțiunile date.
  • După aceea, instruiți-vă computerul pentru opțiuni mai bune, astfel încât computerul să stocheze un model clar al semnalului dvs. de vorbire. Acest lucru se face făcând clic pe opțiunea „Antrenează-ți computerul pentru a te înțelege mai bine” și apoi urmează instrucțiunile.
  • Acum porniți pictograma de recunoaștere a vorbirii și începeți să dictați vorbirea pe computer. De asemenea, puteți adăuga propriile cuvinte în dicționarul computerului.
Sisteme practice de recunoaștere a vorbirii: utilizarea HM2007

Un sistem practic de recunoaștere a vorbirii poate fi construit folosind IC de recunoaștere a vorbirii HM2007 . HM2007 este un IC cu 48 de pini care oferă funcția de recunoaștere a vorbirii. Funcționează în două moduri: modul manual sau modul CPU. În ambele moduri, IC este instruit mai întâi să recunoască cuvintele de către utilizator spunând fiecare cuvânt pentru numărul corespunzător apăsat pe tastă. IC stochează fiecare semnal de cuvânt în locația de memorie corespunzătoare cuvântului. Datele de ieșire de la IC sunt interfațate la microcontroler de unde sunt afișate pe ecranul LCD.

Sisteme practice de recunoaștere a vorbirii

În mod normal, folosim modul manual pentru funcționarea HM2007.

  • HM2007 constă dintr-un pin RDY, care este un pin activ activ care indică faptul că IC este pregătit pentru antrenament.
  • Intrarea vocală va fi dată printr-un microfon conectat la pinul MICIN al IC-ului.
  • IC este interfațat cu o tastatură care este utilizată pentru a furniza un număr de intrare corespunzător fiecărui cuvânt. IC funcționează în două funcții - Clear și Train. Când este apăsată tasta Train pe tastatură, IC începe procesul de antrenament.
  • Utilizatorul apasă o tastă numerică înainte de a apăsa tasta funcțională „Antrenează” și spune cuvântul necesar microfonului.
  • IC trimite un semnal înalt către pinul ME (Memory Enable) care este conectat la pinul corespunzător ME al SRAM. Semnalul de date pe 8 biți corespunzător numărului apăsat este stocat în SRAM (RAM externă) prin magistrala externă.
  • După detectarea intrării vocale, pinul RDY este la nivel logic ridicat și IC-ul ajunge la starea de recunoaștere, unde începe procesul de recunoaștere.
  • Rezultatul procesului este dat prin magistrala de date cu pinul DEN (Data Enable) mare.
  • Datele de 8 biți pot fi apoi date microcontrolerului printr-un procesor de interfață de serie sau mai întâi blocate utilizând latch IC 74HC573.
  • Microcontrolerul este interfațat cu un LCD și este programat astfel încât cuvântul corespunzător să fie afișat pe afișaj.

Singura măsură de precauție care trebuie luată este să nu folosiți omonime (cuvinte cu sunet similar) și, de asemenea, să aveți grijă de excitația vocală.

Deci, așa este un sistem de bază de recunoaștere a vorbirii lucrări. Orice intrări suplimentare sunt binevenite să fie adăugate.

Credit de imagine

  • Sistem de recunoaștere a vorbirii de către Gstatic
  • Manipulare a formelor de undă de vorbire de către Dadisp

Componente ale sistemului de recunoaștere a vorbirii printr-o introducere în recunoașterea vorbirii și a vorbitorilor - Richard D. Peacocke și Daryl H. Graf