Remove ads
ウィキペディアから
知覚符号化(ちかくふごうか、英: Perceptual Coding, Perceptual Audio Coding)はアナログ信号をデジタル符号化するための技術で、主にオーディオ信号の符号化に利用される。聴覚心理学に代表される人間の知覚心理学上の特性を利用してデータ圧縮を行うことに特徴がある。 知覚符号化の原理を応用した符号化方式として変換符号化(Transform Coding)やサブバンド符号化(Sub-Band Coding)がある。
知覚符号化はオーディオ圧縮技術として多くの規格で使われており、代表的なものとしてMPEG-1オーディオ(MP3など)、MPEG-2オーディオやMPEG-4オーディオ(AAC、HE-AACなど)、ATRAC、Vorbisなどがある。
知覚符号化は人間の知覚の特性を利用し、知覚しにくい細部の情報を省略したり少ないビット数で表現することでデータの非可逆圧縮を行う方式である。再生される信号は元の信号と異なるが人間にはこの差が知覚できず、実用上同じ信号と見なすことができる。
知覚符号化による圧縮は、元の信号と同じ信号を再生する可逆圧縮方式と比べるとはるかに効率が良い。 例えば、CD 品質のオーディオ信号の場合、通常の PCM による符号化に対し可逆圧縮では多くの方式が 1/2 前後の圧縮率なのに対し [1]、AACなどの知覚符号化を利用した非可逆圧縮方式では音質の劣化をほとんど感じさせることなく 1/10 以下に圧縮できる[2][3][4]。
これらの知覚符号化を利用した符号化方式では、人間の聴覚心理学上の特性を利用して情報の圧縮を行う。 ある音により他の音が聞こえなくなる人間の聴覚のマスキング特性を利用し、人間が聞こえない成分を符号化しないことで情報量を抑える。また信号を少ないビット数で量子化した場合に増える量子化雑音を聴覚が検知できる閾値以下に抑えることで、知覚できる雑音を増やすことなく符号化に必要なビット数を低減する。さらに、エネルギーの小さい周波数領域や人間の聴覚特性上聞こえにくい周波数領域に少ないビットを割り当てる。
人間の耳は音を神経刺激に変換する際に周波数スペクトルへの分解を行う。この解析は内耳の蝸牛にある基底膜の機械的な特性と内耳神経による処理とで行われ、これらはバンドパスフィルタの集まりと見なすことができる。バンドパスフィルタの特性は非対称、非線形で、周波数ごとに決まる固有の帯域幅(臨界帯域)を持つ。
知覚符号化アルゴリズムで用いられる人間の聴覚心理学上の特性として以下のものがある [5]。
知覚符号化では、入力信号の周波数成分の分析を行い聴覚心理学上の特性から最小可聴値やマスキングの影響を計算する。符号化の際の歪みのエネルギーがマスキングしきい値以下であれば人間に知覚できないことを利用して周波数ごとの割り当てビット数を決める。割り当て対象となる周波数の幅は一定とは限らず、バーク尺度など人間の聴覚特性を反映した単位が用いられることが多い。
知覚符号化では、人間の聴覚と同様、時間によって変化する入力信号を周波数領域のパラメータに変換して処理を行う。周波数領域の信号への変換方法により以下のような様々なバリエーションがある。
エンコード時、入力信号をMDCTやフィルタにより周波数領域のパラメータに変換する。
同時に聴覚心理モデルを使った分析によりマスキングの閾値を計算し、量子化雑音が閾値以下になるよう周波数領域の各成分へのビット割り当てを行う。マスキングにより聞こえにくい成分には少ないビットを割り当てられ、マスキングの閾値以下の成分にはビットが割り当てられない。
周波数領域のパラメータは割り当てられたビット数に従って量子化が行われ、さらにエントロピー符号化(例えばハフマン符号化)などの手法を用いてデータの圧縮が行われる。 最終的な符号化結果は、ビット割り当てなどの補助情報と共に最終的な符号化ビット列としてまとめられる。
周波数領域のパラメータへの変換の際、時間の分解能と周波数の分解能とのバランスをとる必要がある。一般に信号の周波数を高い分解能で分析しようとすると長い時間の観測が必要なため時間方向の分解能は低くなり、逆に時間分解能を高くすれば周波数分解能は低くなる。 多くの処理アルゴリズムでは、入力信号を分析し打楽器(例えばカスタネット)の音のように変化の激しい信号に対しては時間分解能を高くし、管楽器(例えばピッコロ)の音のように変化が少ない信号に対しては周波数分解能を高くすることで、人間の聴覚特性にあった分析を行う。
デコード時はエンコードの時と逆の操作を行う。まず最初に符号化ビット列から周波数領域の符号化結果と補助情報とを取り出す。補助情報に従って符号化結果の逆量子化を行い周波数領域のパラメータを求め、これらを時間領域の信号に再変換して信号を復元する。
変換符号化(Transform Coding)は、入力信号の周波数領域へマッピングに直交変換(より一般的にはユニタリ変換)を利用する方式である。さまざまな直交変換を使えるため自由度が高い。
使用する直交変換としては離散フーリエ変換(DFT)や離散コサイン変換(DCT)を改良したものなどが使われる。離散フーリエ変換や離散コサイン変換を使用するものは、変換により信号成分を多数のサブバンドに分割するサブバンド符号化と考えることもできる。
現在のオーディオ符号化アルゴリズムの多くでは、離散コサイン変換(DCT)の一種で、高速な処理が可能で特性の優れたMDCT(Modified Discrete Cosine Transform、変形DCT)が用いられる。
変換符号化を用いた高音質オーディオ信号の符号化の研究は1980年代中頃から行われ[6]、以下のような様々な方式が考案された[6]。
ASPEC はそれ以前に発表されたOCF、PXFM、CNET-MDCTの各方式の長所を組み合わせた方式で、サブバンド符号化方式のMUSICAMと組み合わされ、MP3(MPEG-1オーディオ レイヤ-III)規格のベースになった。 また、TwinVQはMPEG-4オーディオ規格の一部として使われている。
サブバンド符号化(Sub-Band Coding)は、入力信号の周波数領域へマッピングに複数のバンドパスフィルタを利用する方式である。バンドパスフィルタの集まりで入力となる周波数を複数のサブバンドに分解し、それぞれのサブバンドの信号について量子化と符号化を行う。人間の聴覚心理学上の特性を利用し帯域ごとのビット配分を決めるのは他の知覚符号化方式と同様である。
使用するフィルタとして、直交ミラーフィルタ(Quadrature Mirror Filter、QMF)、あるいは離散コサイン変換(DCT)や離散ウェーブレット変換(DWT)によるフィルタなどが用いられる。
変換符号化方式では直交変換のみを用い高い周波数分解能で信号の分析を行うが、そのため時間方向の分解能は低くなる。サブバンド符号化はサブバンド単位に粗く周波数を分割することで信号に対する時間分解能を高めている[7]。
変換符号化と同様、サブバンド符号化による高音質オーディオ信号の符号化の研究も1980年代から行われ、以下の方式が考案された[8]。
MUSICAMはフィルタバンクを使って入力信号を32個のサブバンドに分割し聴覚心理学モデルによるビット割り当てを行う方式で、MPEG-1およびMPEG-2 BC(Backward Compatible)のレイヤI、レイヤII方式のベースになった。
正弦波符号化(Sinusoidal Coding)は、入力信号を複数の異なる周波数の正弦波の組み合わせとして表現する方法である。聴覚のマスキング特性により特定の周波数に強い成分があるとその周辺の周波数の弱い成分が聞こえなくなるため、人間の聴覚は周波数領域でのピーク成分に敏感な特性を持つ [9]。正弦波符号化はピーク成分の組み合わせを正弦波の組み合わせとして表現することで、少ないパラメータで入力信号を表現する。比較的低いビットレートで符号化できる特徴がある。
正弦波符号化の方式上、弦楽器の音や人間の有声音のようなトーン性の音は効率よく符号化できるが、広いスペクトルを持つ打楽器の音や人間の無声音などは多くの正弦波で表現する必要があり効率が悪い。そのため、ノイズによるモデル化など他のモデル化方法と組み合わせて使われることが多い[9]。
最初は音声符号化手法として研究されてきたが[10]、研究が進むにつれ複雑な波形を持つ一般的なオーディオ信号の分析・合成技術としても応用されるようになった [11]。 聴覚心理学モデルによる分析を行う正弦波符号化方式として、例えば以下のものがある。
ASACは一般的なオーディオ信号を4~24kbpsに符号化する方式で、入力信号を高速フーリエ変換(FFT)を用いて分析し聴覚のマスキング特性を考慮しながら最もエネルギーの大きい周波数を順次取り出していくことで、入力信号を複数の正弦波の周波数と振幅とにパラメータ化する。
この方式を改良したものがHILNで、ASACと同様の方法で入力信号を独立した正弦波成分/ハーモニック成分の組み合わせで表現し、残った成分を特定の周波数分布を持つノイズとしてパラメータ化する。この方式はMPEG-4オーディオの規格の一部として採用された [12]。
MPEG-4 SSCもMPEG-4オーディオの規格の一部で、HILNより広帯域で高音質のオーディオ向けの符号化方式である。この方式では入力信号を正弦波、ノイズ、トランジェントの3つに分けて分析しパラメータ化する。さらにステレオ信号をモノラル成分と左右チャネルの違いを表す少数のパラメータで表現する [13]。
知覚符号化技術を用いた高音質オーディオ向けの代表的な規格として、Moving Picture Experts Group(MPEG)が規格化した国際標準やドルビーラボラトリーズによるものなどがある。
ISO/IECによる知覚符号化技術を利用したMPEGオーディオ符号化規格としてMP3やAACなどがあり、広く使われている。
ドルビーラボラトリーズは1980年代後半から知覚符号化技術の研究と標準化の活動を活発に行っており、AC-2とマルチチャネル向けのAC-3アルゴリズムを開発した。
MPEGオーディオやドルビーデジタル以外の知覚符号化技術を用いた規格として、ソニーが開発したATRACや、Xiph.orgが開発したVorbis、ルーセント・テクノロジーが開発したPAC(Perceptual Audio Coder)、Enhanced PAC、Multi-channel PACなどが知られている。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.