Senin, 03 Mei 2010

Audio and Agent



Audio and Agent

Manusia mempunyai 5 panca indera,, yang juga digunakan sebagai input dari sensor yang ada/ yang diterimanya.

Antara Lain
· Penglihatan
· Pendengaran
· Peraba
· Perasa
· Penghindu


Pengelihatan (Visual),, receptor untuk sensor yang paling utama digunakan dalam komunikasi.

Pendengaran (Sound),, digunakan terbatas pada beberapa interface, diinput dari suara-suara yang ada disekitar kita.

Perasa, Peraba dan Penghindu,, ketiga sensor ini lebih digunakan sebagai penerima informasi dari pada untuk komunikasi. Karena hanya ada sedikit cara mengimplementasikan device yang dapat mengenerate keduanya, maka sensor-sensor ini tidak dikembangkan.


MULTI-MODAL DAN MULTI-MEDIA SYSTEM

Multi-modal system dikembangkan untuk mengambil keuntungan atas indera alami manusia. Dengan menggunakan lebih dari 1 indera atau mode komunikasi, sistem ini lebih memberdayakan penggunaan auditory channel (jalur yang berhubungan dengan pendengaran, suara). Multimedia system menggunaan sejumlah media yang berbeda untuk mengkomunikasikan informasi. Yaitu:

· Sound
· Video
· Text
· Grafik
· Icon
· Animasi
· CD-i

Multimedia system sering disebut juga sebagai Multi-modal, tapi tidak selalu.

PERKATAAN (SPEECH) DI INTERFACE

Berguna untuk keadaan:
· Tangan si pembicara sibuk
· Diinginkan mobilitas
· Mata si pembicara harus memperhatikan sesuatu
· Kondisi yang keras atau terkungkung yang tidak memungkinkan penggunaan keyboard.

STRUKTUR PERKATAAN (STRUCTURE OF SPEECH)

Struktur dasar:
· Bahasa Inggris terdiri dari 40 phonem.
· Tiap phonem merepresentasikan suara/bunyi yang berbeda (24 konsonan dan 16 vokal)

Perubahan pada bunyi dan kualitas phonem disebut prosody (intonasi) dan digunakan untuk menyampaikan banyak arti dan nuansa emosi pada suatu kalimat. Prosody memberikan kekayaan dan tekstur bahasa, tapi sangat sulit untuk dihitung secara kuantitas, Co-articulation adalah cara keluarnya suara akibat dari gerakan mulut, hidung dan kecepatan bicara. Co-articulation dapat menghasilkan berbagai macam suara yang dapat digunakan untuk membentuk allophone. Allophone melambangkan semua bunyi-bunyian dalam sebuah bahasa.

PENGENALAN PERKATAAN (SPEECH RECOGNITION)

Banyak usaha untuk membangun Speech Recognition System, tapi banyak menemui ketidaksuksesan. Penyebab ketidaksuksesan tersebut adalah:
· Kompleksitas dari bahasa.
· Sebab lain yang lebih mengarah ke seharian adalah masalah yang berkaitan dengan pengenalan secara otomatis kata yang diucapkan.

Suara-suara background akan dapat mempengaruhi input, yaitu akan menutupi atau mengganggu informasi. Pembicara yang tidak jelas dapat memberikan redudansi atau suara yang tidak berarti ke dalam informasi dengan cara mengulang kata-katanya, berhenti atau menggunakan suara-suara seperti “Ummm” dan “Errrr” untuk mengisi jeda pada suatu pembicaraan.

Variasi individu. Orang mempunyai suara yang unik, dan sistem yang diarahkan untuk sensitif terhadap variasi dan frekuensi dari suara pembicara yang sudah biasa dikenal oleh sistem dapat gagal untuk mengenali pembicara yang baru.
· Aksen dan penggunaan bahasa yang berbeda dapat menyebabkan masalah yang serius pada sistem.

Menimbang Speech Recognition dari sisi Multi Modal Interaction tidak ragu bahwa ini dapat menawarkan pilihan berkomunikasi untuk menambah caracara yang sudah ada. Ketika tangan user sibuk, berbicara mungkin dapat menjadi media input yang ideal. Berbicara tidak membutuhkan keyboard sehingga dalam situasi yang tertentu ada potensi untuk menggunakan sistem seperti itu. Sistem ini juga memberikan alternatif bagi user yang mempunyai cacat fisik. Seperti penderita Dyslexia. Sampai saat ini, sistem seperti ini belum begitu sukses untuk penggunaan umum, apalagi untuk dikomersilkan.

PERKATAAN BUATAN (SPEECH SYNTHESIS)

Speech synthesis merupakan pelengkap dari speech recognition. Ide agar dapat berbicara dengan komputer merupakan hal yang menarik bagi banyak user, khususnya bagi mereka yang tidak bisa komputer. Masalah yang ada pada speech synthesis:
· User sangat sensitif terhadap variasi dan informasi bicara. Sebab itu mereka tidak dapat mentolerir ketidaksempurnaan pada speech synthesis.
· Output dalam bentuk suara (spoken output) tidak dapat diulang atau di browse dengan mudah.
· Meningkatkan noise (berisik) pada lingkungan kantor. Atau bila menggunakan headphone akan meningkatkan biaya.

Lingkungan aplikasi speech synthesis:
· Bagi tuna netra, speech synthesis menawarkan media komunikasi dimana mereka memiliki akses yang tidak terbatas.
· Lingkungan dimana visual dan haptic skill user sedang terfokus pada hal lain. Contohnya signal bahaya pada aircraft cockpit.

NON-SPEECH SOUND

Digunakan sebagai alarm dan warning, atau status information. Penampilan informasi yang redundan dapat meningkatkan kinerja user.
Contohnya, user dapat mengingat suara yang mencerminkan icon tertentu, tapi bukan tampilan visualnya.