音声学 における発声 (はっせい、英 : phonation )は、声帯 が肺からの気流を振動させ音波 を発生させる作用である。
喉頭 には粘膜で覆われ内部に筋組織を持つ両側に存在する1対の声帯 と呼ばれる襞(ひだ)がある。声帯は内喉頭筋 などの働きで、内転、外転をさせることができ、声帯の後部は左右1対の披裂軟骨 に接続する。両側の声帯間の間隙を声門 という。音声学における発声のタイプは、発声時の声門の状態に関連して分類される。
ヒトの声道 1. 鼻腔 、2.口腔 、3.硬口蓋 、4. 軟口蓋 、5. 歯 、6. 口蓋垂 (のどちんこ)、7.唇 、8. 咽頭 、9. 舌尖 、10. 喉頭蓋 、11.舌端 、12. 声帯 、13.前舌面 、14. 声門 、15.後舌面、16. 気管 、17. 喉頭
肺 から押し出される空気が声道 を通過する際、普段は開いている声帯 が狭まることにより、通過する空気が振動され、「三角間隙鋸歯状波」というブザーのような「声帯の基本振動音」になる。この時点での音は声と認識できるものではない。声道(口腔 ・鼻腔 )を変化させ共鳴音 を作り出し(調音 )てこの原音の音色を変化させ、口や鼻から放射させることにより声となる[1] 。
声の音源は「声帯音源」「乱流音源」「破裂音源」に分類される[2] 。
「声帯音源」 声帯通過時におこるブザーのような基本振動音(層流)
「乱流音源」 層流が歯茎・舌・口唇・歯などにより作られる空間を通過する際に乱流となる。
「破裂音源」 口唇や舌などで流れを止めた後に放出することにより破裂的な音となる。
声帯(非発声時)
発声中の声帯 開閉を繰り返す声門 について、1周期に含まれる声門開放期の割合は open quotient (Oq ) と定義される[3] [4] [5] 。
喉頭原音
発声時、呼気流と声帯 振動の相互作用により生じる音波 を喉頭原音 (こうとうげんおん、英 : glottal sound )という[6] [7] 。喉頭原音は直接計測できないが、喉頭原音の波形モデルがさまざま存在する[8] 。
声門 の広さは声帯の振動により拡縮を繰り返すため、声門を通過する気流の体積は時間変化する。この気流の体積速度を声門体積速度 (英 : glottal volume velocity )という[9] 。この声門体積速度はのこぎり波 に類似した変化を示す[10] 。喉頭原音が声門体積速度に比例している場合、喉頭原音は時間領域でのこぎり波 状、すなわち周波数領域で倍音 構造になる[11] 。
新生児 は生まれてすぐに音を発生させる(泣く)ことは出来るが、言葉として発声出来るようになるには身体的な声道の発達とともに、聴覚や知能の発達とそれに伴う発声技術の習得が必要となる。新生児は1歳頃までは泣き・笑い・叫びなどの反射的発声に始まり、赤ちゃん言葉である喃語 (なんご)の発声に留まる[12] 。この期間は「前言語期(pre-verbal period)」と呼ばれる。この前言語期における発達過程は完全には解明されておらず、研究者により異なった分析・分類がされている。代表的な分類にはOller DKやStark REのものがある[13] 。
習得過程の分類例
Stark REによる分類 1980年 (他の研究者は異なった定義で異なった時期に分類している)[13]
0-1か月 反射的発声
1-3か月 『クーイング期』と呼ばれる時期で、機嫌が良い時には喉の奥をクーと鳴らすような独特の発声と笑い
4-8か月 声遊び期、離乳期にもあたり、咽頭部が発達して空間が広くなってきて、喉で音を共鳴させて出すことができるようになり、舌や唇の動きも発達する。この時期に規準の音の発声を習得する。
8-10か月 反復する音「マ・マ、ダ・ダ、カ・カなど」
10-12か月 単語『有意味語』の発声が始まる
発声は声帯振動の有無により以下の2種類に分類される。
有声音 : 声帯同士が接近し声門を狭まり、呼気により励起された声帯が周期的に振動して発される音
無声音 : 声帯同士が開き声門が広がり、呼気がそのまま通過して乱流雑音のみが発される音
また声帯振動の様式により次のようにも区分される(声区 )。上の区分ほど息が漏れ(閉鎖が短い/無い、Oq 大)、下ほど閉鎖が長くなる。
さらに見る 名称, 英名 ...
表. 声区と開閉様式
名称
英名
声門(×:閉鎖, △:開閉, ○: 開放)
声帯声門
軟骨声門
ささやき声
whispering
×
○
息もれ声
breathy voice/falsetto
△
○[14]
地声
modal voice
△
△
きしみ声
creaky voice/vocal fly
△
×
閉じる
発声の違いは声門開閉の違いであるため、声門体積速度も発声方法ごとに異なる。そのため音波に含まれる倍音 成分に影響を与え、結果として声の音色に影響を及ぼす。息もれ声(ファルセット )では声門の一部が開放されたままになり[14] 、有声音と無声音が同時に発声される。
音声分析 ・音声合成 において、発声は様々な形でモデル 化される。声門体積速度
u
g
(
t
)
{\displaystyle u_{g}(t)}
あるいはその微分波形をモデル化する場合が多い。
単位インパルス列
単位インパルス列モデルは時間領域のデルタ関数 列で表現された調波構造による音源モデルである。音源が調波構造 (harmonics) をもち全倍音 成分が同じ振幅を持つものとしてモデル化されている(∞次までの和がインパルス列、下図参考)。
線形予測符号 (LPC)をはじめとしたソース・フィルタモデル でよく利用される[15] 。線形フィルタはインパルス応答で表現できるため、単位インパルス励起を採用すれば時間領域のピッチ同期インパルス応答重畳で音声を生成できる。なお、声門体積流の波形に由来する調波構造は単位インパルスで表現されず、声道特性とともにフィルタとして表現される[16] 。
倍音の重ね合わせ (基音のみ → 1~70倍音)
Rosenbergモデル
Rosenbergモデルは声門体積流の時間波形モデルである (Rosenberg, 1970)[17] 。 Oq で特徴づけられる3次の多項式およびゼロで構成され、基本周波数で正規化された時刻
t
{\displaystyle t}
を用いて次の式で表される。
g
(
t
)
=
{
t
2
(
O
q
−
t
)
,
if
0
<
t
<
O
q
0
,
if
O
q
<
t
<
1
{\displaystyle g(t)={\begin{cases}t^{2}(O_{q}-t),&{\text{if }}0<t<O_{q}\\0,&{\text{if }}O_{q}<t<1\end{cases}}}
開大開始時は連続で閉鎖時には不連続性をもつ。流量が最大になるのは
2
O
q
/
3
{\displaystyle 2O_{q}/3}
となる。逆フィルタで推定された声門音源によくフィットする関数として提唱された[18] 。
Lijencrants-Fantモデル
Lijencrants-Fantモデル(LF-model[19] )は4つのパラメータを用いた微分声門体積流
∂
u
g
∂
t
{\displaystyle {\partial u_{g} \over \partial t}}
のモデルである[20] 。F-modelの派生型である[21] 。
Rosenberg-Klattモデル
Rosenberg-Klattモデル(RK model)は多項式による微分声門体積流
∂
u
g
∂
t
{\displaystyle {\partial u_{g} \over \partial t}}
のモデルである[22] 。
Oq は様々な方法で測定され、それぞれバイアスがある.
画像診断系
O
q
e
d
g
e
¯
{\displaystyle {\overline {O_{q}^{edge}}}}
: 声門辺を区画化して各部開閉の平均値.
O
q
e
d
g
e
¯
+
{\displaystyle {\overline {O_{q}^{edge}}}^{+}}
: 常時閉鎖してる区画を除いた
O
q
e
d
g
e
¯
{\displaystyle {\overline {O_{q}^{edge}}}}
.
O
q
A
0
{\displaystyle O_{q}^{A0}}
: 開口部が存在すればOpen判定とするOq .
O
q
A
50
{\displaystyle O_{q}^{A50}}
: 全長中50%区画の開口でOpenとするOq .
OT-50 : 開口度50%を開口判定とするOq .
O
q
d
A
{\displaystyle O_{q}^{dA}}
: 時間一次微分の正負ピークで開閉判定.
O
q
K
(
x
)
{\displaystyle O_{q}^{K(x)}}
: x=anterior/mid/posterior線区のみでの Oq .
O
q
M
L
K
{\displaystyle O_{q}^{MLK}}
:
O
q
K
(
x
)
{\displaystyle O_{q}^{K(x)}}
5本の平均. multiline kymography.
電磁気系
O
q
d
E
E
G
{\displaystyle O_{q}^{dEEG}}
: 電極変位の一次微分正負ピークで開閉判定.
O
q
C
Q
{\displaystyle O_{q}^{CQ}}
: EEG閾値越えをContact Quotientとした差分.
音声系
H
1
∗
−
H
2
∗
{\displaystyle H1^{*}-H2^{*}}
: フォルマント補正したfo 強度/2fo 強度差
Yokonishi, et al. (2015). Relationship of Various Open Quotients With Acoustic Property, Phonation Types, Fundamental Frequency, and Intensity .
"肺から送られてくる呼気が、喉頭にある左右1対のひだである声帯(vocal folds)を振動させると、喉頭原音 (glottal sound) が発せられます。" Arai Laboratory. 発声 . 上智大学.
"喉頭原音だけを直接聞くことはできませんが、様々な研究によって喉頭原音に関するモデルが提案されています。" Arai Laboratory. 発声 . 上智大学.
"声門を通過する気流の体積速度である声門体積速度(glottal volume velocity)" Arai Laboratory. 発声 . 上智大学.
"非対称の三角波が間隔を開けて並んでいるような時間波形になります。その形状の特徴として、開くときは声門を流れる気流は緩やかに増加し、声門が閉じるときは急激に減少することがあげられます。" Arai Laboratory. 発声 . 上智大学.
"気流が急激に遮断されることで時間波形に「鋭い角」が生まれ、高い周波数にも豊かな倍音成分を持つことにつながります。" Arai Laboratory. 発声 . 上智大学.
"LPC分析法では, 白色雑音あるいは単一インパルスを入力とした全極型声道フィルタの応答を音声信号として考える." 高橋. (2018). 音域が広い歌声の声帯音源波形と声道形状の推定に関する研究 .
"声帯音源のスペクトル特性と声道の周波数伝達特性を区別できず, 音源と声道フィルタ特性は全極型ARフィルタにまとめて表される." 高橋. (2018). 音域が広い歌声の声帯音源波形と声道形状の推定に関する研究 .
Rosenberg. (1970). Effect of Glottal Pulse Shape on the Quality of Natural Vowels . The Journal of the Acoustical Society of America. p.586.
"the basic difference between pulse shapes is the number and location of slope discontinuities." Rosenberg. (1970). Effect of Glottal Pulse Shape on the Quality of Natural Vowels . The Journal of the Acoustical Society of America. p.586.
"It is referred to as the LF-model." Fant, et al. (1985). A four-parameter model of glottal flow .
Fant, et al. (1985). A four-parameter model of glottal flow .
Fant, G. (1979). Glottal source and excitation analysis .
Klatt & Klatt. (1990). Analysis, synthesis, and perception of voice quality variations among female and male talkers .