From Wikipedia, the free encyclopedia
Sintesis pertuturan (speech synthesis) adalah penghasilan pertuturan manusia tanpa mengggunakan suara manusia secara langsung.
Rencana ini ialah terjemahan daripada bahasa lain. Terjemahan ini mungkin telah dihasilkan oleh komputer atau penterjemah tanpa kemahiran dalam bahasa lain. |
Secara umum, pensintesis pertuturan (speech synthesizer) adalah perisian atau perkakasan yang mampu menghasilkan "ujaran buatan" (artificial speech).
Sistem ujaran buatan "sintesis pertuturan", yang sering dipanggil sistem teks-ke-pertuturan (text-to-speech, TTS), merujuk kepada keupayaannya untuk menukar teks kepada pertuturan. Bagaimanapun, terdapat sistem yang hanya menghasilkan wakil simbol linguistik seperti transkripsi fonetik kepada pertuturan.
Sistem teks-ke-pertuturan (atau enjin) terdiri daripada dua bahagian: bahagian depan dan bahagian belakang. Umumnya, bahagian hadapan mengambil input dalam bentuk teks dan output wakil simbol linguistik. Bahagian belakang mengambil wakil simbol linguistik sebagai input dan menghasilkan gelombang ujaran buatan. Keaslian pensintesis pertuturan biasanya merujuk kepada berapa tepat bunyi output kedengaran seperti suara manusia sebenar.
Bahagian hadapan mempunyai dua tugas utama. Pertama, ia mengambil teks mentah dan menukar sebahagian daripadanya seperti nombor dan ringkasan kepada perkataan bertulis yang setara. Proses ini dikenali sebagai "penormalan teks" (text normalization), "prapemprosesan", atau "pembuatan token" (tokenization). Kemudian ia memberikan transkripsi fonetik kepada setiap perkataan, dan menandakan teks kepada pelbagai unit prosodi, seperti frasa, klausa, dan ayat. Proses pemberian transkripsi fonetik kepada perkataan ini dikenali sebagai "teks-ke-fonem" (text-to-phoneme, TTP) atau penukaran "grafem-ke-fonem" (grapheme-to-phoneme GTP). Gabungan transkripsi fonetik dan maklumat mengenai unit prosodi membentuk output wakil simbol linguistik pada bahagian hadapan.
Bahagian lain, bahagian belakang, mengambil wakil simbol linguistik dan menukarkannya kepada output bunyi sebenar. Bahagian belakang sering dirujuk sebagai "pensintesis". Teknik pensintesis yang berlainan dibincangkan di bawah.
Tolong bantu menterjemahkan sebahagian rencana ini. Rencana ini memerlukan kemaskini dalam Bahasa Melayu piawai Dewan Bahasa dan Pustaka. Sila membantu, bahan-bahan boleh didapati di Sintesis pertuturan (Inggeris). Jika anda ingin menilai rencana ini, anda mungkin mahu menyemak di terjemahan Google. Walau bagaimanapun, jangan menambah terjemahan automatik kepada rencana, kerana ini biasanya mempunyai kualiti yang sangat teruk. Sumber-sumber bantuan: Pusat Rujukan Persuratan Melayu. |
Sejak awal lagi sebelum pemproses signal eletronik moden dicipta, penyelidik pertuturan cuba membina mesin yang menghasilkan pertuturan manusia. Contoh awal 'kepala bercakap' dibuat oleh Gerbert of Aurillac (m. 1003), Albertus Magnus (1198-1280), dan Roger Bacon (1214-1294).
Pada tahun 1779, Christian Kratzenstein dari St. Petersburg membina model peti suara manusia yang mampu menghasilkan lima bunyi vowel panjang (a, e, i, o dan u). Ini diikuti dengan 'Mesin Pertuturan Mekanikal Akustik - Acoustic-Mechanical Speech Machine' berkuasa penghembus "bellows-operated" oleh Wolfgang von Kempelen dari Vienna, Austria, yang digambarkan dalam kertas kerjanya pada tahun 1791 Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine (J.B. Degen, Wien). Mesin ini menambahkan model lidah dan bibir, membolehkan ia menghasilkan bunyi consonant dan vowels. Pada tahun 1837 Charles Wheatstone menghasilkan 'mesin bertutur' berasaskan reka bentuk von Kempelen, dan pada tahun 1857 M. Faber membina 'Euphonia'. Reka bentuk Wheatstone dihidupkan kembali pada tahun 1923 by Paget.
Voder operator |
Bell Labs VODER |
Pada tahun 1930s, Bell Labs memajukan VOCODER, penganalisa dan pensyintesis eletronik menggunakan papan kekunci yang dikatakan jelas difahami. Homer Dudley memajukan lagi peranti ini kepada VODER, yang dipamernya di pesta Dunia New York 1939 (1939 New York World's Fair).
Pensintesis pertuturan awal berbunyi seperti robot dan sering sukar difahami. Output dari sistem TTS terkini kadang-kala sukar dibezakan dengan pertuturan manusia sebenar.
Sungguhpun dengan kejayaan sintesis pertuturan eletronik, penyelidikan masih dilakukan mengenai sintesis pertuturan eletronik bagi kegunaan robot seperti manusia. Sungguhpun sintesis pertuturan eletronik sempurna dihadkan oleh kualiti transducer (biasanya pembesar suara) yang menghasilkan bunyi, dengan itu system mekanikal robot mungkin mampu menghasilkan bunyi lebih normal berbanding pembesar suara kecil.
Pensintesis pertuturan eletronik berasaskan computer pertama dicipta pada akhir 1950-an dan system teks kepada pertuturan lengkap pertama disiapkan pada 1968. Sejak itu, terdapat banyak kemajuan dalam teknologi yang digunakan bagi penghasilan pertuturan eletronik, dan system teks-kepada-pertuturan moden sering kali mampu menghasilkan bunyi yang sukar dibezakan berbanding pertuturan manusia sebenar. Lihat #Contoh system kini di bawah bagi system teks-kepada-pertuturan perdagangan tercanggih dan yang bebas guna.
Terdapat dua tekologi utama yang digunaka bagi menghasilkan bentuk gelombang pertuturan buatan: sintetik jeraitan dan sintesis forman
Sintetis jeraitan berasaskan penyatuan (atau jeraitan) bahagian-bahagian pertuturan yang dirakam. Biasanya, sjeraitan memberikan pertuturan sintesis paling asli. Tetapi variasi normal dalam pertuturan dan teknik automatik bagi memecah bentuk gelombang kadangkala menghasilkan herotan boleh dikesan dalam output. Terdapat tiga jenis intesis jeraitan.
Sintesis forman tidak menggunakan apa-apa sampel pertuturan manusia pada waktu jalan. Sebaliknya, Instead, the output synthesized speech is created using an acoustic model. Parameter-parameter seperti tahap-tahap frekuensi asas, penyuaraan dan bunyi diubahkan mengikut masa bagi menghasilkan sebuah gelombang ijaran buatan. Kaedah ini kadangkala disebut "sintesis berlandaskan aturan" (Rule-based synthesis) tetapi ada yang menyatakan oleh sebab banyak sistem jeraitan (concatenative system) menggunakan komponen berlandaskan aturan buat beberpa bahagian sistem, seperti bahagian depan, istilah ini tidak berapa tepat.
Banyak sistem yang berasaskan teknologi sistem forman menjana pertuturan yang berbunyi bautan dan mirip pertuturan robot; justeru outputnya tidak mungkin akan dianggap sebagai pertuturan seorang manusia. Walau bagaimanapun, keaslian maksimum bukan selalunya matlamat sistem sintesis pertuturan, dan sistem-sistem memiliki beberapa kelebihan berbanding dengan sistem jeraitan.
Pertuturan hasil sintesis forman dapat didengar dan difahami, mahupun pada kelajuan tinggi, dan mengelak daripada kekacauan akustik yang sering terjadi pada sistem jeraitan. Pertuturan buatan yang laju sering digunakan oleh orang yang kurang upaya kelihatan untuk memandu arah komputer dengan bantuan pembaca skrin. Kedua, pensintesis forman lazimnya merupakan perisian yang lebih kecil daripada sistem penjeraitan oleh sebab sistem forman tidak memiliki pangkalan data sampel pertuturan. Oleh sebab itu, perisian-perisian ini dapat digunakan dalam pengkomputan terbenam yang mempunyai kuasa pemproses serta ingatan yang terhad. Akhir sekali, sistem-sistem berdasarkan forman memiliki kawalan terhadap semua aspek perturan yang dihasilkan dan dengan itu sebilangan besar prosodi atau intonasi dapat dihasilkan, sekaligus bukan sahaj dapat menggambarkan soalan dan kenyataan, malah juga pelbagai emosi dan nada suara.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.