発声 - Wikiwand

音声学における発声（はっせい、英: phonation）は、声帯が肺からの気流を振動させ音波を発生させる作用である。

喉頭には粘膜で覆われ内部に筋組織を持つ両側に存在する1対の声帯と呼ばれる襞（ひだ）がある。声帯は内喉頭筋などの働きで、内転、外転をさせることができ、声帯の後部は左右1対の披裂軟骨に接続する。両側の声帯間の間隙を声門という。音声学における発声のタイプは、発声時の声門の状態に関連して分類される。

仕組み

肺から押し出される空気が声道を通過する際、普段は開いている声帯が狭まることにより、通過する空気が振動され、「三角間隙鋸歯状波」というブザーのような「声帯の基本振動音」になる。この時点での音は声と認識できるものではない。声道（口腔・鼻腔）を変化させ共鳴音を作り出し（調音）てこの原音の音色を変化させ、口や鼻から放射させることにより声となる^[1]。

声の音源は「声帯音源」「乱流音源」「破裂音源」に分類される^[2]。

「声帯音源」声帯通過時におこるブザーのような基本振動音（層流）
「乱流音源」層流が歯茎・舌・口唇・歯などにより作られる空間を通過する際に乱流となる。
「破裂音源」口唇や舌などで流れを止めた後に放出することにより破裂的な音となる。

→「声道 § 声道と音色」も参照

開閉を繰り返す声門について、1周期に含まれる声門開放期の割合は open quotient (O_q) と定義される^[3]^[4]^[5]。

喉頭原音

発声時、呼気流と声帯振動の相互作用により生じる音波を喉頭原音（こうとうげんおん、英: glottal sound）という^[6]^[7]。喉頭原音は直接計測できないが、喉頭原音の波形モデルがさまざま存在する^[8]。

声門の広さは声帯の振動により拡縮を繰り返すため、声門を通過する気流の体積は時間変化する。この気流の体積速度を声門体積速度（英: glottal volume velocity）という^[9]。この声門体積速度はのこぎり波に類似した変化を示す^[10]。喉頭原音が声門体積速度に比例している場合、喉頭原音は時間領域でのこぎり波状、すなわち周波数領域で倍音構造になる^[11]。

習得

新生児は生まれてすぐに音を発生させる（泣く）ことは出来るが、言葉として発声出来るようになるには身体的な声道の発達とともに、聴覚や知能の発達とそれに伴う発声技術の習得が必要となる。新生児は1歳頃までは泣き・笑い・叫びなどの反射的発声に始まり、赤ちゃん言葉である喃語（なんご）の発声に留まる^[12]。この期間は「前言語期（pre-verbal period）」と呼ばれる。この前言語期における発達過程は完全には解明されておらず、研究者により異なった分析・分類がされている。代表的な分類にはOller DKやStark REのものがある^[13]。

習得過程の分類例

Stark REによる分類 1980年（他の研究者は異なった定義で異なった時期に分類している）^[13]

0-1か月反射的発声
1-3か月『クーイング期』と呼ばれる時期で、機嫌が良い時には喉の奥をクーと鳴らすような独特の発声と笑い
4-8か月声遊び期、離乳期にもあたり、咽頭部が発達して空間が広くなってきて、喉で音を共鳴させて出すことができるようになり、舌や唇の動きも発達する。この時期に規準の音の発声を習得する。
8-10か月反復する音「マ・マ、ダ・ダ、カ・カなど」
10-12か月単語『有意味語』の発声が始まる

種類

発声は声帯振動の有無により以下の2種類に分類される。

有声音: 声帯同士が接近し声門を狭まり、呼気により励起された声帯が周期的に振動して発される音
無声音: 声帯同士が開き声門が広がり、呼気がそのまま通過して乱流雑音のみが発される音

また声帯振動の様式により次のようにも区分される（声区）。上の区分ほど息が漏れ（閉鎖が短い/無い、O_q 大）、下ほど閉鎖が長くなる。

さらに見る 名称, 英名 ...

表. 声区と開閉様式
名称	英名	声門（×:閉鎖, △:開閉, ○: 開放）
名称	英名	声帯声門	軟骨声門
ささやき声	whispering	×	○
息もれ声	breathy voice/falsetto	△	○^[14]
地声	modal voice	△	△
きしみ声	creaky voice/vocal fly	△	×

閉じる

発声の違いは声門開閉の違いであるため、声門体積速度も発声方法ごとに異なる。そのため音波に含まれる倍音成分に影響を与え、結果として声の音色に影響を及ぼす。息もれ声（ファルセット）では声門の一部が開放されたままになり^[14]、有声音と無声音が同時に発声される。

モデル

要約

視点

音声分析・音声合成において、発声は様々な形でモデル化される。声門体積速度 $u_{g}(t)$ あるいはその微分波形をモデル化する場合が多い。

単位インパルス列

単位インパルス列モデルは時間領域のデルタ関数列で表現された調波構造による音源モデルである。音源が調波構造 (harmonics) をもち全倍音成分が同じ振幅を持つものとしてモデル化されている（∞次までの和がインパルス列、下図参考）。

線形予測符号（LPC）をはじめとしたソース・フィルタモデルでよく利用される^[15]。線形フィルタはインパルス応答で表現できるため、単位インパルス励起を採用すれば時間領域のピッチ同期インパルス応答重畳で音声を生成できる。なお、声門体積流の波形に由来する調波構造は単位インパルスで表現されず、声道特性とともにフィルタとして表現される^[16]。

Rosenbergモデル

Rosenbergモデルは声門体積流の時間波形モデルである (Rosenberg, 1970)^[17]。 O_q で特徴づけられる3次の多項式およびゼロで構成され、基本周波数で正規化された時刻 $t$ を用いて次の式で表される。

$g(t)={\begin{cases}t^{2}(O_{q}-t),&{\text{if }}0<t<O_{q}\\0,&{\text{if }}O_{q}<t<1\end{cases}}$

開大開始時は連続で閉鎖時には不連続性をもつ。流量が最大になるのは $2O_{q}/3$ となる。逆フィルタで推定された声門音源によくフィットする関数として提唱された^[18]。

Lijencrants-Fantモデル

Lijencrants-Fantモデル（LF-model^[19]）は4つのパラメータを用いた微分声門体積流 ${\partial u_{g} \over \partial t}$ のモデルである^[20]。F-modelの派生型である^[21]。

Rosenberg-Klattモデル

Rosenberg-Klattモデル（RK model）は多項式による微分声門体積流 ${\partial u_{g} \over \partial t}$ のモデルである^[22]。

脚注

[脚注の使い方]

[1]
「声紋とは？」日本音響研究所、閲覧2012-8-25
[2]
法科学鑑定研究所「音声の個人性」閲覧2012-8-25
[3]
O_qは様々な方法で測定され、それぞれバイアスがある. 画像診断系 ${\overline {O_{q}^{edge}}}$ : 声門辺を区画化して各部開閉の平均値. ${\overline {O_{q}^{edge}}}^{+}$ : 常時閉鎖してる区画を除いた ${\overline {O_{q}^{edge}}}$ . $O_{q}^{A0}$ : 開口部が存在すればOpen判定とするO_q. $O_{q}^{A50}$ : 全長中50%区画の開口でOpenとするO_q. OT-50: 開口度50%を開口判定とするO_q. $O_{q}^{dA}$ : 時間一次微分の正負ピークで開閉判定. $O_{q}^{K(x)}$ : x=anterior/mid/posterior線区のみでの O_q. $O_{q}^{MLK}$ : $O_{q}^{K(x)}$ 5本の平均. multiline kymography. 電磁気系 $O_{q}^{dEEG}$ : 電極変位の一次微分正負ピークで開閉判定. $O_{q}^{CQ}$ : EEG閾値越えをContact Quotientとした差分. 音声系 $H1^{*}-H2^{*}$ : フォルマント補正したf_o強度/2f_o強度差 Yokonishi, et al. (2015). Relationship of Various Open Quotients With Acoustic Property, Phonation Types, Fundamental Frequency, and Intensity.
[4]
"O. Q. = Fraction of Cycle During Which Glottis Is Open / Duration of Entire Cycle" R TIMCKE, et al. (1958). Laryngeal vibrations: measurements of the glottic wave. I. The normal vibratory cycle.
[5]
"characteristics of vocal-fold vibratory movement ... In this context, the open quotient Oq is a glottal source parameter ... It is defined as the ratio of the glottal open time over the fundamental period." Nathalie Henrich. (2005). Glottal open quotient in singing: Measurements and correlation with laryngeal mechanisms, vocal intensity, and fundamental frequency.
[6]
ソース・フィルタモデルにおける「ソース」に相当.
[7]
"肺から送られてくる呼気が、喉頭にある左右1対のひだである声帯（vocal folds）を振動させると、喉頭原音 (glottal sound) が発せられます。" Arai Laboratory. 発声. 上智大学.
[8]
"喉頭原音だけを直接聞くことはできませんが、様々な研究によって喉頭原音に関するモデルが提案されています。" Arai Laboratory. 発声. 上智大学.
[9]
"声門を通過する気流の体積速度である声門体積速度（glottal volume velocity）" Arai Laboratory. 発声. 上智大学.
[10]
"非対称の三角波が間隔を開けて並んでいるような時間波形になります。その形状の特徴として、開くときは声門を流れる気流は緩やかに増加し、声門が閉じるときは急激に減少することがあげられます。" Arai Laboratory. 発声. 上智大学.
[11]
"気流が急激に遮断されることで時間波形に「鋭い角」が生まれ、高い周波数にも豊かな倍音成分を持つことにつながります。" Arai Laboratory. 発声. 上智大学.
[12]
「赤ちゃんの言葉の発達と前言語期の音声・喃語」閲覧2012-8-26
[13]
柳田早織, 今井智子, 榊原健一ほか、「【原著】前言語期の音声発達」『音声言語医学』 2011年 52巻 1号 p.1-8, doi:10.5112/jjlp.52.1
[14]
Table 1 of Yokonishi, et al. (2015). Relationship of Various Open Quotients With Acoustic Property, Phonation Types, Fundamental Frequency, and Intensity.
[15]
"LPC分析法では, 白色雑音あるいは単一インパルスを入力とした全極型声道フィルタの応答を音声信号として考える." 高橋. (2018). 音域が広い歌声の声帯音源波形と声道形状の推定に関する研究.
[16]
"声帯音源のスペクトル特性と声道の周波数伝達特性を区別できず, 音源と声道フィルタ特性は全極型ARフィルタにまとめて表される." 高橋. (2018). 音域が広い歌声の声帯音源波形と声道形状の推定に関する研究.
[17]
Rosenberg. (1970). Effect of Glottal Pulse Shape on the Quality of Natural Vowels. The Journal of the Acoustical Society of America. p.586.
[18]
"the basic difference between pulse shapes is the number and location of slope discontinuities." Rosenberg. (1970). Effect of Glottal Pulse Shape on the Quality of Natural Vowels. The Journal of the Acoustical Society of America. p.586.
[19]
"It is referred to as the LF-model." Fant, et al. (1985). A four-parameter model of glottal flow.
[20]
Fant, et al. (1985). A four-parameter model of glottal flow.
[21]
Fant, G. (1979). Glottal source and excitation analysis.
[22]
Klatt & Klatt. (1990). Analysis, synthesis, and perception of voice quality variations among female and male talkers.

発声

仕組み