Speech Recognition
Speech Recognition atau yang biasa dikenal dengan automatic speech recognition (ASR) merupakan suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan komando suara.
A. Sejarah
perkembangan speech recognition dimulai pada tahun 1952 dengan ditemukannya
Audrey
(automatic digit recognizer) oleh Bell Laboratories
yang mampu mengenali suara angka. Namun pada tahun 1962 dikembangkannya
teknologi shoebox , dimana teknologi ini mampu memahami 16 kata , 9 konsonan
dan 4 vocal dalam Bahasa inggris. Selanjutnya pada tahun 1970-an Departemen
Pertahanan A.S. memberikan kontribusi besar terhadap pengembangan speech
recognition mengenai program DARPA SUR (speech understanding research) yang
menghasilkan sistem dengan kemampuan memahami 1011 kata dan juga kalimat yang
logis dalam Bahasa inggris. Selanjutnya pada tahun 1980-an sebuah terobosan
besar mengenai pengembangan model Hidden Markov yang menggunakan statiska untuk
menentukan probabilitas kata dari suara yang tidak dikenal. Sistem tersebut
diadopsi dalam sebuah boneka yang dibuat untuk anak-anak yang di kenal sebai
Julie. Boneka tersebut dilatih dengan kemampuan untuk menanggapi upacan namun
masih ada kelemahannya yaitu pemberian jeda pada kata yang diucapkan. Kemudian
pada tahun 1990-an perusahaan yang bernama DRAGON merilis sebuah speech
recognition software pertama di dunia yang bernama Dragon Naturally Speaking
yang membuat kita dapat mengucapkan 100 kata dalam 1 menit. Sedangkan pada
tahun 2000-an sampai sekarang pengembangan speech recognition terus
dikembangkan dengan didukung dengan teknologi-teknologi yang super canggih juga
dan memungkinkan semakin canggih juga kemampuan speech recognition yang
dihasilkan. Salah satu penerapan speech recognition yang terkenal saat ini
yaitu munculnya aplikasi google voice search yang dirilis oleh google untuk
iphone yang memanfaatkan data centers untuk menghitung sejumlah besar analisis
data yang diperlukan untuk mencocokan permintaan pengguna dengan contoh-contoh
nyata ucapan manusia
B. Jenis – Jenis Speech Recognition
Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata, yaitu:
1. Kata-kata
yang terisolasi : Proses pengidentifikasian kata yang hanya dapat mengenal kata
yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata
2. Kata-kata
yang berhubungan : Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi,
namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat
3. Kata-kata
yang berkelanjutan: Proses pengidentifikasian kata yang sudah lebih maju karena
dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda
waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini
sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang
diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata
secara natural
4. Kata-kata
spontan : Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan
secara spontan tanpa jeda waktu antar kata
5. Verifikasi
atau identifikasi suara : Proses pengidentifikasian kata yang tidak hanya mampu
mengenal kata, namun juga mengidentifikasi siapa yang berbicara.
Proses pengenalan suara tidak hanya disediakannya
data set dalam data center namun banyak metode yang digunakan pada proses
pengenalan suara itu sendiri. Salah satu metode yang diperkenalan pada akhir
tahun 1960 adalah metode Hidden Markov Model, metode ini berupa model
statistika dari rantai markov. (Rabiner, Lawrence, 1989) dalam laporannya yang
berjudul “A Tutorial on Hidden Markov Models and Selected Applications in
Speech Recognition” menjelaskan bahwa proses dalam dunia nyata secara umum
menghasilkan observable output yang dapat dikarakterisasikan sebagai signal.
Signal bisa bersifat diskrit (karakter dalam alfabet) maupun kontinu
(pengukuran temperatur, alunan musik). Signal bisa bersifat stabil (nilai
statistiknya tidak berubah terhadap waktu) maupun nonstabil (nilai signal
berubah-ubah terhadap waktu). Dengan melakukan pemodelan terhadap signal secara
benar, dapat dilakukan simulasi terhadap sumber dan pelatihan sebanyak mungkin
melalui proses simulasi tersebut. Sehingga model dapat diterapkan dalam sistem
prediksi, sistem pengenalan, maupun sistem identifikasi. Secara garis besar
model signal dapat dikategorikan menjadi 2 golongan yaitu : model deterministik
dan model statistikal. Model deterministik menggunakan nilai-nilai properti
dari sebuah signal seperti : amplitudo, frekuensi, fase dari gelombang sinus.
Sedangkan model statistikal menggunakan nilai-nilai statistik dari sebuah
signal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses
Hidden Markov.
Salah satu penelitian mengenai pengenalan suara
dengan menggunakan nilai-nilai statistik dari sebuah signal yaitu peneltian
mengenai jaringan syaraf tiruan murni yang dilakukan oleh (Graves, Mohamed,
& Hinton, 2013) menjelaskan bahwa jaringan syaraf berulang atau RNN
merupakan model yang kuat untuk proses pengenalan suara. Metode pelatihan
seperti Connectionist Temporal Classification memungkinkan dalam melatih RNN
untuk keselarasan dari input dan output yang tidak diketahui. Jaringan saraf
memiliki sejarah panjang dalam pengenalan suara, dalam kombinasi dengan HMM
(hidden markov model) mendapatkan perbaikan dalam pemodelan akustik yang
dihasilkan oleh deep feedforward. Kombinasi HMM-RNN memungkinkan melatih RNN
‘end-to-end’ untuk pengenal ucapan dengan regularisasi. Hal tersebut dibuktikan
dengan penemuan bahwa memori jangka pendek dalam RNNs mencapi tingkat kesalahan
17,7 % pada TIMIT atau satuan ukur dalam pengenalan suara.
C. Proses Kerja Alat Speech Recognition
Alat pengenal ucapan memiliki empat tahapan dalam prosesnya, yaitu :
1. Tahap
penerimaan masukan : sumber suara diterima melalui media perantara.
2. Tahap
ekstraksi : penyimpanaan masukan yang berupa suara dan sekaligus pembuatan
basis data sebagai pola.
Proses ekstraksi dilakukan berdasarkan metode Model
Markov Tersembunyi atau Hidden Markov Model (HMM), yang merupakan model
statistik dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu proses
dengan parameter yang tidak diketahui.:
· N, yaitu jumlah bagian dalam model. Secara umum bagian tersebut saling terhubung satu dengan yang lain, dan suatu bagian bisa mencapai semua bagian yang lain, serta sebaliknya (disebut dengan model ergodik). Namun hal tersebut tidak mutlak karena terdapat kondisi lain dimana suatu bagian hanya bisa berputar ke diri sendiri dan berpindah ke satu bagian berikutnya. Hal ini bergantung pada implementasi dari model.
·
M, yaitu jumlah simbol observasi secara
unik pada tiap bagiannya, misalnya: karakter dalam abjad, dimana bagian
diartikan sebagai huruf dalam kata.
·
Probabilita Perpindahan Bagian { } = ij
A a
·
Probabilita Simbol Observasi pada bagian
j, { } () = j Bb k
·
Inisial Distribusi Bagian i p p . Dengan
memberikan nilai pada N, M, A, B, dan p , HMM dapat digunakan sebagai generator
untuk menghasilkan urutan observasi. dimana tiap observasi t o adalah salah
satu simbol dari V, dan T adalah jumlah observasi dalam suatu sequence.
·
Setelah memberikan nilai N, M, A, B, dan
p , maka proses ekstraksi dapat diurutkan. Berikut adalah tahapan ekstraksi
pengenalan ucapan berdasarkan HMM :
§ Tahap
ekstraksi tampilan : Penyaringan sinyal suara dan pengubahan sinyal suara
analog ke digital
§ Tahap
tugas pemodelan : Pembuatan suatu model HMM dari data-data yang berupa sampel ucapan
sebuah kata yang sudah berupa data digital
§ Tahap
sistem pengenalan HMM : Penemuan parameter-parameter yang dapat merepresentasikan
sinyal suara untuk analisis lebih lanjut.
§ Tahap
pembandingan : Tahap ini merupakan tahap pencocokan data baru dengan data suara
(pencocokan tata bahasa) pada pola. Tahap ini dimulai dengan proses konversi
sinyal suara digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara
yang akan dianalisa dengan membandingkannya dengan pola suara pada basis data.
Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan
urutannya. Pemilihan ini dilakukan agar proses analisis dapat dilakukan secara
paralel.
Proses yang pertama kali dilakukan ialah memproses
gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya
ialah proses kalkulasi yang dibagi menjadi dua bagian :
o
Transformasi gelombang diskrit menjadi
data yang terurut : Gelombang diskrit berbentuk masukan berukuran n yang
menjadi objek yang akan dibagi pada proses konversi dengan cara pembagian
rincian waktu
o
Menghitung frekuensi pada tiap elemen
data yang terurut
o
Selanjutnya tiap elemen dari data yang
terurut tersebut dikonversi ke dalam bentuk bilangan biner. Data biner tersebut
nantinya akan dibandingkan dengan pola data suara dan kemudian diterjemahkan
sebagai keluaran yang dapat berbentuk tulisan ataupun perintah pada perangkat.
3. Tahap
validasi identitas pengguna : Alat pengenal ucapan yang sudah memiliki sistem verifikasi/identifikasi
suara akan melakukan identifikasi orang yang berbicara berdasarkan kata yang diucapkan
setelah menerjemahkan suara tersebut menjadi tulisan atau komando.
Penerapan Speech Recognition
1. Bidang
komunikasi
o
Komando Suara , suatu program pada
komputer yang melakukan perintah berdasarkan komando suara dari pengguna.
Contohnya pada aplikasi Microsoft Voice yang berbasis bahasa Inggris. Ketika pengguna
mengatakan “Mulai kalkulator” dengan intonasi dan tata bahasa yang sesuai,
komputer akan segera membuka aplikasi kalkulator. Jika komando suara yang
diberikan sesuai dengan daftar perintah yang tersedia, aplikasi akan memastikan
komando suara dengan menampilkan tulisan “Apakah Anda meminta saya untuk ‘mulai
kalkulator’?”. Untuk melakukan verifikasi, pengguna cukup mengatakan “Lakukan”
dan komputer akan langsung beroperasi.
o
Pendiktean, sebuah proses mendikte yang
sekarang ini banyak dimanfaatkan dalam pembuatan laporan atau penelitian.
Contohnya pada aplikasi Microsoft Dictation yang merupakan aplikasi yang dapat
menuliskan apa yang diucapkan oleh pengguna secara otomatis.
2. Bidang
kesehatan
Alat pengenal ucapan banyak
digunakan dalam bidang kesehatan untuk membantu para penyandang cacat dalam
beraktivitas. Contohnya pada aplikasi Antarmuka Suara Pengguna atau Voice User
Interface (VUI) yang menggunakan teknologi pengenal ucapan dimana pengendalian
saklar lampu misalnya, tidak perlu dilakukan secara manual dengan menggerakkan
saklar tetapi cukup dengan mengeluarkan perintah dalam bentuk ucapan sebagai
saklarnya. Metode ini membantu manusia yang secara fisik tidak dapat
menggerakkan saklar karena cacat pada tangan misalnya. Penerapan VUI ini tidak
hanya untuk lampu saja tapi bisa juga untuk aplikasi-aplikasi kontrol yang
lain.
3. Bidang
militer
Pelatihan Penerbangan, Aplikasi alat pengenal ucapan dalam bidang militer adalah pada pengatur lalulintas udara atau yang dikenal dengan Air Traffic Controllers (ATC) yang dipakai oleh para pilot untuk mendapatkan keterangan mengenai keadaan lalu-lintas udara seperti radar, cuaca, dan navigasi. Alat pengenal ucapan digunakan sebagai pengganti operator yang memberikan informasi kepada pilot dengan cara berdialog.
Penerapan:
Penerapan dari Speech recognition ini dapat dilihat
dari adanya sebuah aplikasi Google Voice. Google voice menggunakan
teknologi cloud computing untuk layanan voice search. Setiap penelusuran
dilakukan secara streaming dengan koneksi internet sehingga pengguna tidak
perlu mengunduh aplikasi pengenalan suara khusus. Kata kunci diolah berdasarkan
setiap suku kata yang penting kemudian dicari kemungkinan hasil penelusuran
yang paling tepat dan akhirnya hasil dikirim ke ponsel pengguna. Google voice
menyimpan, memproses dan mempertahankan riwayat percakapan yang direkam dan
data lain yang terkait dengan akun. Layanan ini mengelola atau menghapus
riwayat percakapan yang disimpan melalui akun google voice. Penghapusan seperti
itu akan berpengaruh langsung pada tampilan akun, kecuali riwayat panggilan
untuk panggilan yang dapat ditagih yang akan tetap terlihat di akun. Salinan
data dan akun yang dihapus dan tersisa kecuali informasi catatan panggilan
dapat disimpan hingga 90 hari sebelum dihapus dari server aktif dan tetap ada
dalam sistem cadangan aplikasi. Salinan informasi catatan panggilan yang
dianonimkan, tanpa informasi yang dapat diidentifikasi secara pribadi, akan
dipertahankan di sistem untuk memenuhi persyaratan pelaporan dan audit.
Sumber :
Komentar
Posting Komentar