Langsung ke konten utama

Speech Recognition

 

Speech Recognition

Speech Recognition atau yang biasa dikenal dengan automatic speech recognition (ASR) merupakan suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan komando suara.

A.    Sejarah perkembangan speech recognition dimulai pada tahun 1952 dengan ditemukannya Audrey

(automatic digit recognizer) oleh Bell Laboratories yang mampu mengenali suara angka. Namun pada tahun 1962 dikembangkannya teknologi shoebox , dimana teknologi ini mampu memahami 16 kata , 9 konsonan dan 4 vocal dalam Bahasa inggris. Selanjutnya pada tahun 1970-an Departemen Pertahanan A.S. memberikan kontribusi besar terhadap pengembangan speech recognition mengenai program DARPA SUR (speech understanding research) yang menghasilkan sistem dengan kemampuan memahami 1011 kata dan juga kalimat yang logis dalam Bahasa inggris. Selanjutnya pada tahun 1980-an sebuah terobosan besar mengenai pengembangan model Hidden Markov yang menggunakan statiska untuk menentukan probabilitas kata dari suara yang tidak dikenal. Sistem tersebut diadopsi dalam sebuah boneka yang dibuat untuk anak-anak yang di kenal sebai Julie. Boneka tersebut dilatih dengan kemampuan untuk menanggapi upacan namun masih ada kelemahannya yaitu pemberian jeda pada kata yang diucapkan. Kemudian pada tahun 1990-an perusahaan yang bernama DRAGON merilis sebuah speech recognition software pertama di dunia yang bernama Dragon Naturally Speaking yang membuat kita dapat mengucapkan 100 kata dalam 1 menit. Sedangkan pada tahun 2000-an sampai sekarang pengembangan speech recognition terus dikembangkan dengan didukung dengan teknologi-teknologi yang super canggih juga dan memungkinkan semakin canggih juga kemampuan speech recognition yang dihasilkan. Salah satu penerapan speech recognition yang terkenal saat ini yaitu munculnya aplikasi google voice search yang dirilis oleh google untuk iphone yang memanfaatkan data centers untuk menghitung sejumlah besar analisis data yang diperlukan untuk mencocokan permintaan pengguna dengan contoh-contoh nyata ucapan manusia

 

B.     Jenis – Jenis Speech Recognition

      Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata, yaitu:

1.      Kata-kata yang terisolasi : Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata

2.      Kata-kata yang berhubungan : Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat

3.      Kata-kata yang berkelanjutan: Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural

4.      Kata-kata spontan : Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata

5.      Verifikasi atau identifikasi suara : Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara.

 

Proses pengenalan suara tidak hanya disediakannya data set dalam data center namun banyak metode yang digunakan pada proses pengenalan suara itu sendiri. Salah satu metode yang diperkenalan pada akhir tahun 1960 adalah metode Hidden Markov Model, metode ini berupa model statistika dari rantai markov. (Rabiner, Lawrence, 1989) dalam laporannya yang berjudul “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition” menjelaskan bahwa proses dalam dunia nyata secara umum menghasilkan observable output yang dapat dikarakterisasikan sebagai signal. Signal bisa bersifat diskrit (karakter dalam alfabet) maupun kontinu (pengukuran temperatur, alunan musik). Signal bisa bersifat stabil (nilai statistiknya tidak berubah terhadap waktu) maupun nonstabil (nilai signal berubah-ubah terhadap waktu). Dengan melakukan pemodelan terhadap signal secara benar, dapat dilakukan simulasi terhadap sumber dan pelatihan sebanyak mungkin melalui proses simulasi tersebut. Sehingga model dapat diterapkan dalam sistem prediksi, sistem pengenalan, maupun sistem identifikasi. Secara garis besar model signal dapat dikategorikan menjadi 2 golongan yaitu : model deterministik dan model statistikal. Model deterministik menggunakan nilai-nilai properti dari sebuah signal seperti : amplitudo, frekuensi, fase dari gelombang sinus. Sedangkan model statistikal menggunakan nilai-nilai statistik dari sebuah signal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses Hidden Markov.

 

Salah satu penelitian mengenai pengenalan suara dengan menggunakan nilai-nilai statistik dari sebuah signal yaitu peneltian mengenai jaringan syaraf tiruan murni yang dilakukan oleh (Graves, Mohamed, & Hinton, 2013) menjelaskan bahwa jaringan syaraf berulang atau RNN merupakan model yang kuat untuk proses pengenalan suara. Metode pelatihan seperti Connectionist Temporal Classification memungkinkan dalam melatih RNN untuk keselarasan dari input dan output yang tidak diketahui. Jaringan saraf memiliki sejarah panjang dalam pengenalan suara, dalam kombinasi dengan HMM (hidden markov model) mendapatkan perbaikan dalam pemodelan akustik yang dihasilkan oleh deep feedforward. Kombinasi HMM-RNN memungkinkan melatih RNN ‘end-to-end’ untuk pengenal ucapan dengan regularisasi. Hal tersebut dibuktikan dengan penemuan bahwa memori jangka pendek dalam RNNs mencapi tingkat kesalahan 17,7 % pada TIMIT atau satuan ukur dalam pengenalan suara.

 

C.     Proses Kerja Alat Speech Recognition

       Alat pengenal ucapan memiliki empat tahapan dalam prosesnya, yaitu :

1.      Tahap penerimaan masukan : sumber suara diterima melalui media perantara.

2.      Tahap ekstraksi : penyimpanaan masukan yang berupa suara dan sekaligus pembuatan basis data sebagai pola.

Proses ekstraksi dilakukan berdasarkan metode Model Markov Tersembunyi atau Hidden Markov Model (HMM), yang merupakan model statistik dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu proses dengan parameter yang tidak diketahui.:

·         N, yaitu jumlah bagian dalam model. Secara umum bagian tersebut saling terhubung satu dengan yang lain, dan suatu bagian bisa mencapai semua bagian yang lain, serta sebaliknya (disebut dengan model ergodik). Namun hal tersebut tidak mutlak karena terdapat kondisi lain dimana suatu bagian hanya bisa berputar ke diri sendiri dan berpindah ke satu bagian berikutnya. Hal ini bergantung pada implementasi dari model.

·         M, yaitu jumlah simbol observasi secara unik pada tiap bagiannya, misalnya: karakter dalam abjad, dimana bagian diartikan sebagai huruf dalam kata.

·         Probabilita Perpindahan Bagian { } = ij A a

·         Probabilita Simbol Observasi pada bagian j, { } () = j Bb k

·         Inisial Distribusi Bagian i p p . Dengan memberikan nilai pada N, M, A, B, dan p , HMM dapat digunakan sebagai generator untuk menghasilkan urutan observasi. dimana tiap observasi t o adalah salah satu simbol dari V, dan T adalah jumlah observasi dalam suatu sequence.

·         Setelah memberikan nilai N, M, A, B, dan p , maka proses ekstraksi dapat diurutkan. Berikut adalah tahapan ekstraksi pengenalan ucapan berdasarkan HMM :

§  Tahap ekstraksi tampilan : Penyaringan sinyal suara dan pengubahan sinyal suara analog ke digital

§  Tahap tugas pemodelan : Pembuatan suatu model HMM dari data-data yang berupa sampel ucapan sebuah kata yang sudah berupa data digital

§  Tahap sistem pengenalan HMM : Penemuan parameter-parameter yang dapat merepresentasikan sinyal suara untuk analisis lebih lanjut.

§  Tahap pembandingan : Tahap ini merupakan tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada pola. Tahap ini dimulai dengan proses konversi sinyal suara digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan pola suara pada basis data. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilihan ini dilakukan agar proses analisis dapat dilakukan secara paralel.

 

Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :

o   Transformasi gelombang diskrit menjadi data yang terurut : Gelombang diskrit berbentuk masukan berukuran n yang menjadi objek yang akan dibagi pada proses konversi dengan cara pembagian rincian waktu

o   Menghitung frekuensi pada tiap elemen data yang terurut

o   Selanjutnya tiap elemen dari data yang terurut tersebut dikonversi ke dalam bentuk bilangan biner. Data biner tersebut nantinya akan dibandingkan dengan pola data suara dan kemudian diterjemahkan sebagai keluaran yang dapat berbentuk tulisan ataupun perintah pada perangkat.

 

3.      Tahap validasi identitas pengguna : Alat pengenal ucapan yang sudah memiliki sistem verifikasi/identifikasi suara akan melakukan identifikasi orang yang berbicara berdasarkan kata yang diucapkan setelah menerjemahkan suara tersebut menjadi tulisan atau komando.

Penerapan Speech Recognition

1.       Bidang komunikasi

o   Komando Suara , suatu program pada komputer yang melakukan perintah berdasarkan komando suara dari pengguna. Contohnya pada aplikasi Microsoft Voice yang berbasis bahasa Inggris. Ketika pengguna mengatakan “Mulai kalkulator” dengan intonasi dan tata bahasa yang sesuai, komputer akan segera membuka aplikasi kalkulator. Jika komando suara yang diberikan sesuai dengan daftar perintah yang tersedia, aplikasi akan memastikan komando suara dengan menampilkan tulisan “Apakah Anda meminta saya untuk ‘mulai kalkulator’?”. Untuk melakukan verifikasi, pengguna cukup mengatakan “Lakukan” dan komputer akan langsung beroperasi.

o   Pendiktean, sebuah proses mendikte yang sekarang ini banyak dimanfaatkan dalam pembuatan laporan atau penelitian. Contohnya pada aplikasi Microsoft Dictation yang merupakan aplikasi yang dapat menuliskan apa yang diucapkan oleh pengguna secara otomatis.

2.      Bidang kesehatan

Alat pengenal ucapan banyak digunakan dalam bidang kesehatan untuk membantu para penyandang cacat dalam beraktivitas. Contohnya pada aplikasi Antarmuka Suara Pengguna atau Voice User Interface (VUI) yang menggunakan teknologi pengenal ucapan dimana pengendalian saklar lampu misalnya, tidak perlu dilakukan secara manual dengan menggerakkan saklar tetapi cukup dengan mengeluarkan perintah dalam bentuk ucapan sebagai saklarnya. Metode ini membantu manusia yang secara fisik tidak dapat menggerakkan saklar karena cacat pada tangan misalnya. Penerapan VUI ini tidak hanya untuk lampu saja tapi bisa juga untuk aplikasi-aplikasi kontrol yang lain.

3.      Bidang militer

Pelatihan Penerbangan, Aplikasi alat pengenal ucapan dalam bidang militer adalah pada pengatur lalulintas udara atau yang dikenal dengan Air Traffic Controllers (ATC) yang dipakai oleh para pilot untuk mendapatkan keterangan mengenai keadaan lalu-lintas udara seperti radar, cuaca, dan navigasi. Alat pengenal ucapan digunakan sebagai pengganti operator yang memberikan informasi kepada pilot dengan cara berdialog.

Penerapan:

Penerapan dari Speech recognition ini dapat dilihat dari adanya sebuah aplikasi Google Voice. Google voice menggunakan teknologi cloud computing untuk layanan voice search. Setiap penelusuran dilakukan secara streaming dengan koneksi internet sehingga pengguna tidak perlu mengunduh aplikasi pengenalan suara khusus. Kata kunci diolah berdasarkan setiap suku kata yang penting kemudian dicari kemungkinan hasil penelusuran yang paling tepat dan akhirnya hasil dikirim ke ponsel pengguna. Google voice menyimpan, memproses dan mempertahankan riwayat percakapan yang direkam dan data lain yang terkait dengan akun. Layanan ini mengelola atau menghapus riwayat percakapan yang disimpan melalui akun google voice. Penghapusan seperti itu akan berpengaruh langsung pada tampilan akun, kecuali riwayat panggilan untuk panggilan yang dapat ditagih yang akan tetap terlihat di akun. Salinan data dan akun yang dihapus dan tersisa kecuali informasi catatan panggilan dapat disimpan hingga 90 hari sebelum dihapus dari server aktif dan tetap ada dalam sistem cadangan aplikasi. Salinan informasi catatan panggilan yang dianonimkan, tanpa informasi yang dapat diidentifikasi secara pribadi, akan dipertahankan di sistem untuk memenuhi persyaratan pelaporan dan audit.

  


Sumber :

https://mti.binus.ac.id/2019/05/08/speech-recognition/

https://widuri.raharja.info/index.php?title=Googlevoice#:~:text=Menurut%20Vogelstein%20(2015%3A165),di%20set%20oleh%20siapa%20saja.

Komentar

Postingan populer dari blog ini

Rangkaian Monostable Multivibrator

A.Pengertian Monostable Multivibrator Monostable multivibrator  merupakan salah satu pengembangan oscliator tipe relaksasi dengan pemicu ( trigerred ). Multivibrator monostable memiliki satu kondisi stabil sehingga sering juga disebut sebagai  multibrator one-shot . Saat osilator terpicu untuk berubah ke suatu kondisi pengoperasian, maka pada waktu singkat akan kembali ke titik awal pengoperasian. Konstanta waktu dari rangkaian  tank circuit  RC menentukan periode waktu perubahan keadaan. Rangkaian memiliki dua kondisi yaitu kondisi stabil dan kondisi tak stabil. Rangkaian akan rileks pada kondisi stabil saat tidak ada pulsa. Kondisi tak stabil diawali dengan pulsa pemicu pada masukan. Setelah selang waktu 0,7 R 2 C 1 , rangkaian multivibrator kembali ke kondisi stabil.  Rangkaian monostable multivibrator  tidak mengalami perubahan sampai ada pulsa pemicu yang datang pada jalur input oscilator. Gambar Rangkaian Monostable Multivibrator B. Langkah-Langkah membuat rangka

Rangkaian Gerbang Logika Full Adder

A. Pengertian Gerbang Logika F ull  A dder Full adder merupakan rangkaian elektronika yang menjumlahkan 2 bilangan yang telah di konversikan kedalam bilangan biner dengan menjumlahkan 2 bit input ditambah dengan nilai carry-output dari penjumlahan bit sebelumnyah. Outputnyah adalah hasil dari penjumlahan (sum) dan bit kelebihannya(carry-out) . Full adder dapat digunakan untuk menjumlahkan bilangan bilangan biner yang lebih dari 1 bit.penjumlahan bilangan-bilangan biner sama halnya dengan penjumlahan bilangan decimal dimana hasil penjumlaha tersebut terbagi menjadi 2 bagian yaitu , SUMMARY (SUM) dan CARRY, apabila hasil penjumlahan pada suatu tingkat atau kolom melebihi nilai maksimumnya maka output CARRY akan berada pada keadaan logika 1 Gambar Rangkaian Full Adder KETERANGAN : -          A   = slot A (input) -          B   = slot B (input) -          C    = Carry input -           D     = Hasil -           E     = Carry (sisa) -          Gerbang logika

DEFINISI DIRI

DEFINISI DIRI A.  Definisi Diri Sendiri Pada kali ini, saya akan mendefinisikan diri saya sendiri tanpa dilebihkan maupun dikurangkan. Ada beberapa hal yang akan didefinsikan dari saya yaitu :   Kesukaan   Sifat   Keinginan   Harapan