Kamis, 23 Desember 2010

Speech Recognition

Speech recognition atau voice recognition atau biasa disebut juga pengenalan pembicaraan (juga dikenal sebagai pengenalan suara otomatis atau pengakuan komputer pidato) mengkonversi diucapkan kata-kata untuk teks. The “pengenalan suara” istilah kadang-kadang digunakan untuk merujuk kepada sistem pengakuan yang harus dilatih untuk kasus-speaker tertentu seperti untuk perangkat lunak pengenal yang paling desktop.Menyadari pembicara dapat menyederhanakan tugas menerjemahkan pidato.
pengenalan pembicaraan adalah solusi yang lebih luas yang mengacu pada teknologi yang dapat mengenali pidato tanpa ditargetkan pada pembicara tunggal seperti sistem call center yang dapat mengenali suara sewenang-wenang.
aplikasi pengenalan pembicaraan termasuk user interface seperti suara panggilan suara (misalnya, “Call home”), call routing (misalnya, “Saya ingin membuat collect call”), kontrol alat domotic, pencarian (misalnya, menemukan podcast di mana tertentu Kata-kata itu diucapkan), sederhana entri data (misalnya, memasukkan nomor kartu kredit), persiapan dokumen terstruktur (misalnya, sebuah laporan radiologi), pengolahan pidato-ke-teks (misalnya, kata prosesor atau email), dan pesawat udara (biasanya disebutInput langsung suara).


Sejarah
Yang Pengenal pidato pertama muncul pada tahun 1952 dan terdiri dari sebuah perangkat untuk pengakuan lisan digit tunggal [1] awal perangkat lainnya adalah IBM Kotak Sepatu, dipamerkan di Fair tahun 1964 New York. Akhir-akhir ini telah ada banyak perbaikan seperti capabilitiy massa kecepatan transkripsi tinggi pada satu sistem seperti Sonic Extractor
Salah satu domain yang paling menonjol untuk aplikasi komersial pengenalan suara di Amerika Serikat telah perawatan kesehatan dan khususnya karya transcriptionist medis (MT) [rujukan?]. Menurut para ahli industri, pada awal berdirinya, pengenalan pembicaraan (SR) yang dijual sebagai cara untuk sepenuhnya menghilangkan transkripsi daripada membuat proses transkripsi lebih efisien, maka tidak diterima. Ini juga merupakan kasus yang SR pada waktu itu sering secara teknis kurang.Selain itu, untuk digunakan secara efektif, dibutuhkan perubahan cara dokter bekerja dan didokumentasikan pertemuan klinis, yang banyak jika tidak semua enggan untuk melakukannya. Keterbatasan terbesar pidato pengakuan mengotomatisasi transkripsi, bagaimanapun, dipandang sebagai perangkat lunak. Sifat naratif dikte sangat interpretatif dan seringkali memerlukan penilaian yang dapat diberikan oleh manusia sesungguhnya tetapi belum oleh sistem otomatis. Keterbatasan lainnya telah jumlah ekstensif waktu yang diperlukan oleh pengguna dan / atau penyedia sistem untuk melatih perangkat lunak.
Perbedaan dalam ASR sering dibuat antara “sistem sintaks buatan” yang biasanya domain-spesifik dan “pemrosesan bahasa alami” yang biasanya bahasa-spesifik. Masing-masing jenis aplikasi menyajikan tujuannya sendiri tertentu dan tantangan.


Automatic Speech Recognition (ASR) sekarang ini telah banyak dikembangkan dalam berbagai penelitian. Terdapat bermacam-macam metode yang dapat digunakan untuk mengenali ucapan manusia. Penelitian ini akan membahas penggunaan metode Hidden Markov Model (HMM) untuk pengenalan ucapan berbahasa Indonesia. Dalam penelitian ini, digunakan HMM diskrit untuk proses pelatihan dan pengujiannya. Berdasarkan hasil pengujian dengan menggunakan metode tersebut, kemudian dianalisa faktor keberhasilannya (tingkat ketelitiannya dalam %) berdasarkan parameter-parameter Linear Predictive Coding (LPC), parameter pitch (Fo) dan parameter energi (Eo) dalam proses mengenali suatu ucapan dalam bahasa Indonesia.
Prinsip kerja sistem pengenalan ucapan adalah dengan membandingkan informasi ucapan yang ada pada referensi dengan informasi ucapan yang menjadi masukan sistem pengenal ucapan tersebut.
Blok pengenalan ucapan dengan HMM dapat dibagi menjadi tiga tahap yaitu bagian depan, tahap feature extraction dan tahap sistem pengenalan HMM. Pada tahap yang pertama dilakukan pemfilteran sinyal suara dan mengubah sinyal suara analog ke digital. Tahap feature extraction adalah untuk mendapatkan parameter-parameter yang dapat merepresentasikan sinyal suara tersebut dan dilakukan analisis serta kuantisasi vektor. Tahap yang ketiga, dapat dibagi menjadi dua tugas yaitu tugas pemodelan dan tugas pengenalan . Untuk tugas pemodelan dibuatkan suatu model HMM dari data-data yang berupa sampel ucapan dari sebuah kata. HMM yang dipakai adalah densitas diskrit.


::> ALGORITMA
Speech Recognition ini adalah model statistik yang output urutan simbol atau kuantitas. HMMs digunakan dalam pengenalan suara karena sinyal suara dapat dilihat sebagai sinyal sesepenggal stasioner atau sinyal stasioner waktu singkat. Dalam waktu singkat (misalnya, 10 milidetik)), pidato dapat didekati sebagai suatu proses stasioner. Pidato dapat dianggap sebagai model Markov untuk tujuan stokastik banyak.

Alasan lain mengapa HMMs yang populer adalah karena mereka dapat dilatih secara otomatis dan sederhana dan komputasi layak untuk digunakan. Dalam pidato pengakuan, model Markov tersembunyi akan menampilkan urutan vektor bernilai real n-dimensi (dengan n menjadi bilangan bulat kecil, seperti 10), keluaran salah satu dari setiap 10 milidetik. Vektor akan terdiri dari koefisien cepstral, yang diperoleh dengan mengambil Transformasi Fourier jendela waktu singkat berbicara dan decorrelating spektrum dengan menggunakan transformasi kosinus, kemudian mengambil (paling signifikan) koefisien pertama. Model Markov tersembunyi akan cenderung memiliki di setiap negara distribusi statistik yang merupakan campuran kovarians diagonal Gaussians yang akan memberikan kemungkinan untuk setiap vektor diamati. Setiap kata, atau (untuk lebih sistem pengenalan pembicaraan umum), masing-masing fonem, akan memiliki distribusi output yang berbeda; model Markov tersembunyi untuk urutan kata-kata atau fonem dibuat dengan menggabungkan terlatih individu model Markov tersembunyi untuk kata-kata yang terpisah dan fonem .

Diuraikan di atas adalah elemen inti dari pendekatan, yang paling umum HMM berbasis pengenalan suara. Sistem pengenalan suara modern menggunakan berbagai kombinasi dari beberapa teknik standar dalam rangka meningkatkan hasil lebih dari pendekatan dasar yang dijelaskan di atas. Sebuah sistem yang besar-kosakata khas akan membutuhkan dependensi konteks fonem (jadi fonem dengan kiri berbeda dan konteks yang tepat memiliki realisasi yang berbeda sebagai negara HMM); itu akan menggunakan normalisasi cepstral untuk menormalkan untuk speaker yang berbeda dan kondisi rekaman, karena normalisasi pembicara lebih lanjut mungkin menggunakan saluran normalisasi vokal panjang (VTLN) untuk normalisasi laki-laki perempuan dan maksimum likelihood regresi linier (MLLR) untuk lebih adaptasi pembicara umum. Fitur akan memiliki apa yang disebut delta dan koefisien delta-delta untuk menangkap dinamika ucapan dan selain mungkin menggunakan analisis diskriminan linier heteroscedastic (HLDA), atau mungkin melewati delta dan koefisien delta-delta dan splicing digunakan dan proyeksi LDA berbasis diikuti mungkin dengan analisis diskriminan linier heteroscedastic atau kovarians semitied global transformasi (juga dikenal sebagai maximum likelihood MLLT linier mengubah, atau). Banyak sistem menggunakan teknik pelatihan apa yang disebut diskriminatif yang membuang dengan pendekatan murni statistik untuk estimasi parameter HMM dan bukannya mengoptimalkan beberapa ukuran yang berhubungan dengan klasifikasi data pelatihan. Contohnya adalah informasi saling maksimum (MMI), kesalahan klasifikasi minimum (MCE) dan kesalahan telepon minimum (MPE).

Decoding dari pidato (istilah atas apa yang terjadi ketika sistem ini disajikan dengan ucapan yang baru dan harus menghitung kalimat sumber yang paling mungkin) mungkin akan menggunakan algoritma Viterbi untuk menemukan jalur terbaik, dan di sini ada pilihan antara dinamis menciptakan Model Markov tersembunyi kombinasi yang mencakup baik informasi model akustik dan bahasa, atau menggabungkannya statis sebelumnya (transduser negara yang terbatas, atau FST, pendekatan).
[Sunting] warping waktu Dynamic (DTW) pengenalan suara berbasis
Artikel utama: Dynamic warping waktu

Dynamic waktu warping adalah suatu pendekatan yang secara historis digunakan untuk pengenalan suara tapi kini sebagian besar telah mengungsi akibat pendekatan HMM berbasis lebih berhasil. Dynamic waktu warping adalah suatu algoritma untuk mengukur kesamaan antara dua sekuen yang mungkin berbeda dalam waktu atau kecepatan. Misalnya, kesamaan dalam pola berjalan akan terdeteksi, bahkan jika dalam satu video orang itu berjalan perlahan-lahan dan jika di lain mereka berjalan lebih cepat, atau bahkan jika ada percepatan dan deselerasi selama satu pengamatan. DTW telah diterapkan ke video, audio, dan grafik - memang, setiap data yang dapat berubah menjadi representasi linier dapat dianalisis dengan DTW.

Sebuah aplikasi terkenal telah pengenalan suara otomatis, untuk mengatasi dengan kecepatan berbicara yang berbeda. Secara umum, ini adalah metode yang memungkinkan komputer untuk menemukan kecocokan yang optimal antara dua sekuens diberikan (misalnya time series) dengan pembatasan tertentu, yaitu urutan yang "bengkok" non-linear untuk mencocokkan satu sama lain. Metode sequence alignment yang sering digunakan dalam konteks model Markov tersembunyi.

Ref :
http://en.wikipedia.org/wiki/Speech_recognition
http://en.wikipedia.org/wiki/Speech_recognition#Algorithms

Tidak ada komentar:

Posting Komentar