Loading AI tools
ウィキペディアから
通信における秘話(ひわ、英: Secure voice, Voice privacy, Cyphony)とは、音声通信において盗聴や傍受を防止するために音声を聞き取れなくするものである。よく知られている方式は音声の周波数スペクトルを反転させるもので、初期の無線電話やアナログ方式のコードレスフォンなどで使われた。音声をデジタル化した後に暗号化を行う方式は携帯電話、警察無線や軍用無線、政府高官用の暗号化機能付き電話機などで使われている。
電話に代表される音声を用いた通信は誰でも容易に使える通信方法である。メールや電信などの文字を用いる通信と比べ特別な技能が不要で、何か作業を行いながら通話することも簡単である。しかし電話は盗み聞きも比較的容易で、使用されている電話線など通信経路が分かれば盗聴できる。無線電話の場合はさらに容易で、受信機さえあれば誰でも盗聴や傍受が可能であり、周波数や変調方式さえ分かれば誰にも気づかれることなく会話内容を盗み聞きすることができる。
秘話はこのような音声通信の問題を解決するためのもので、音声信号を全く別の信号に変換して送ることで、同じ秘話装置を持つ相手以外には音声を聞き取れなくする[1]。
秘話は大きく分けてアナログ方式とデジタル方式の2種類の方式に分類できる。
アナログ方式のものはボイススクランブラー (voice scrambler) やアナログスクランブラー (analog scrambler)、あるいは単純にスクランブラー (scrambler) の名称で呼ばれる[2]。 この方式では、周波数成分の反転や入替を行ったり信号の時間軸での入替などを行うことで元の音声信号を別のアナログ信号に変え内容を聞き取れなくする。
アナログ方式の秘話装置は、ハードウェアが比較的単純で元々の音声信号と同じ帯域幅で送受信ができたため、警察無線や1960年代まで一般的だった短波帯を使用した国際電話など、アナログ方式の無線電話で古くから使われてきた。代表的なスクランブラーの仕組みは1920年代から知られており、専門家が処理方式の解析を行うことは難しいことではない。音声の周波数スペクトル全体の反転のみを行う音声周波数反転方式のような単純なものは解読装置を組み込んだ受信機も購入もできる。信号の分析や解読が比較的容易であるため、機密性が要求される通信には不十分である[3]。
デジタル方式のものもスクランブラーの名称で呼ばれることがあるが、アナログスクランブラーと区別して音声暗号化 (digital voice encryption) とも呼ばれる[4]。この方式では音声をデジタルデータに符号化した後に暗号化を行う。出力はデジタル信号になる。音声符号化方式や暗号化方式として様々な方式を使うことができるため、適切な暗号化方式を使い十分に長い鍵長を用いることで高いセキュリティを実現できる。現在の多くの秘話装置や通信機器ではこの方式が使われている。
アナログスクランブラーと比べると初期のデジタル方式の秘話装置は複雑で高価だった。デジタル方式の最初の秘話装置は第二次世界大戦中の1943年にワシントンとロンドン間で運用が開始されたSIGSALYだが[5] [6]、装置1台当たりのコストはおおよそ100万ドル、開発、製造、要員トレーニング、運用、メンテナンスなどを含めた総コストは2,800万ドルと試算されている。 IC技術が発達した1970年代にNSAが開発したデジタル方式の秘話装置 STU-I でもサイドデスクや中型の金庫程度の大きさを占め、価格も1台35,000ドルと高価だった[7]。
デジタル方式の秘話装置では音声信号をリアルタイムでデジタル処理できる高速で複雑なハードウェアが必要になる。またデジタル化すると送受信に必要な帯域幅も広がるため、圧縮効率の良い音声符号化技術や、デジタル信号を狭い帯域幅で送受信する高度な変調技術が必要である。そのため初期のデジタル方式の秘話装置は高い機密性が要求される軍事用や政府高官用としてのみ使われた。業務無線(警察無線など)や一般の移動体通信(携帯電話など)で使われるようになるのは、小型で低価格なデジタルシグナルプロセッサが開発されてからである。
多くの国の警察無線を例に挙げると、アナログスクランブラーは1970年代まで、遅い国では1990年代になっても使われていた[8]。 携帯電話での音声暗号化の導入も、デジタル方式の第二世代携帯電話が使われるようになった1990年代以降で、それ以前の多くの携帯電話は秘話機能を持っておらず、変調方式も単純なFM方式だったため周波数さえ分かれば傍受や盗聴は比較的容易だった。
秘話の技術は無線電話の普及と共に発展した。 無線電話の実験は1900年前後から始まった。秘話技術の発明が盛んになるのは無線電話が普及し盗聴や傍受が問題になった1920年代になってからである。その後第二次世界大戦を契機には軍用や政府高官用の分野で急速に技術が進んでいった。
秘話についての試みは古く、グラハム・ベルによる電話の特許申請のわずか5年後の1881年、アメリカのジェームス・ロジャース (James Rogers) は複数の電話回線を切り替えながら音声を送る方式の秘話装置の特許を申請している[9] 。しかし十分な秘話性を持つ実用的な秘話装置が発明されるのは無線電話が広く一般に使われるようになってからである。
1895年のマルコーニによる無線電信の発明の直後から多くの人が無線電話について考えるようになった。例えばレジナルド・フェッセンデンは、雑音だらけであったが、1900年に世界で初めて1.6kmの無線電話実験に成功した[10]。 1902年頃にはより雑音の少ない高周波発電機を使った送信機の試作と実験を進め、1906年のクリスマス前夜には80kHzの長波帯を使い音楽と談話とを送信した[11]。
日本では1912年にTYK式無線電話が発明されて船舶との通信に利用され、2年後には離島間の世界初の公衆無線電話として実用化された[12]。
ドイツでは、テレフンケン社のエンジニアのマイスナー (Alexander Meißner) が1913年に三極管を用いた発振回路を考案し、この回路を使ってベルリンとその西 36Km に位置するナウエン (Nauen) との間の無線電話の実験を行った[13]。 この時代、無線電話は安定した高周波の連続波が必要な難しい技術だったため、音声の送受信を行うのがやっとで秘話が考慮されることはなかった。
その後、第一次世界大戦が始まると無線技術は急速に進歩した。第一次世界大戦では飛行機が偵察など様々な用途に使われるようになったが、この頃の飛行機は開放型のコックピットだったため、操縦士や偵察員にとって騒音や振動が多く狭い機上でのモールス符号を用いた無線電信による通信は非常に難しかった。そのため機上で通話ができるようアメリカのSCR-68のような軍用の無線電話機が開発された[14] [15]。
無線電話がこのような用途に利用され始めると共に通信内容の盗聴、傍受の危険性も増した。軍用無線電信では情報の流出を避けるための暗号化が行われていたが、無線電話でも同様の対策が必要になってきた。
また、この頃は無線の技術が急速に一般化していった時代でもあった。アメリカで1915年から1年間の間に許可した商業の無線局は200局未満だったが、自作の無線機で通信を行うアマチュア無線局の認可数は8489局もあった[16]。受信のみを行う無許可のアマチュア無線局は15万局と推定されている[16]。 業務用や軍事用に無線電話が使われるようになり利用範囲が拡大するに従い、アマチュアによる傍受も大きな問題になってきた。
無線電話の利用は1920年代になっても拡大し続けた。例えば、1927年1月7日にニューヨークとロンドンとの間で初めての一般向けの国際無線電話が開通した[17][18]。 この成功を元に、翌年にはニューヨークからベルリンやブエノスアイレスにも短波帯を使い無線で通話ができるようになった。同じころヨーロッパ内の主要都市間も短波による国際無線電話が使用され始めている。
このような背景から、多くの研究者が秘話方式について考えるようになった。例えば、アメリカでは1918年に音声の周波数スペクトルを反転させる音声周波数反転方式の特許が申請され1924年に成立した[19]。 この回路はまだ実用的なものではなかったが、その後ボーン (R. Bown) により平衡変調回路を用い改良した回路の申請が行われ1925年に特許になった[20]。
1920年には音声を周波数の異なった複数のサブバンドに分割し配置換えを行うシステムが考案され[21]、1923年に音声研究で有名なベル研究所のフレッチャー (H. Fletcher) がこれらのアイデアを組み合わせてサブバンドの配置換えと個々のサブバンド内での周波数の反転とを行う帯域分割方式の秘話方式の特許を申請し1926年に特許として認められた[22]。
これらの技術は国際無線電話で最初に採用され、アメリカ-イギリス間の商用国際無線電話には音声周波数反転方式が使用された。 日本でも、1934年に開設された日本で初めての商用国際無線電話回線である新京(満州国)や台北(台湾)との間の電話回線にボーンの方式を改良した音声周波数反転方式が採用された[23]。新京の電話回線では、アメリカ-イギリス間の方式よりさらに秘話性を高めるため、音声周波数反転時のキャリア信号の周波数を連続的に変化させたり複数の周波数を切り替える方式での試験運用も行われた[23]。これらの方式は受信側と送信側との同期が厳密に取れていないと音質が悪くなる。当時の技術レベルでは十分な通話品質が得られなかったため、実運用では通常の音声周波数反転方式のみが使われた。台北間の回線も同期回路が除かれ通常の音声周波数反転方式が使われた。その後日本からマニラ、バンドン、サンフランシスコ、ベルリン、ロンドン向けなどにも無線電話回線が開設され、同じ方式が使用された[24]。
また、1935年に国内で運用が始まった警察無線の基地局用と移動局用の無線機にも音声周波数反転方式の秘話装置が採用され第二次世界大戦末まで使われていた[25]。
音声を複数のサブバンドに分割して配置換え等を行う帯域分割方式は1937年にベル研究所が開発したA-3と呼ばれる秘話装置で採用され、AT&Tが開設したニューヨークやワシントンとロンドンやパリなどヨーロッパの大都市を結ぶ回線、およびサンフランシスコとハワイ、東京を結ぶ回線で、アメリカ政府高官の秘密会話などの重要な音声通信のために使用された[26]。 1939年9月1日の第二次世界大戦勃発時、フランス駐在のアメリカ大使ウィリアム・C・ブリットがルーズベルト大統領にこのニュースを知らせた際にもA-3が用いられた[26]。
1920年代から30年代にかけて、様々な秘話装置が考案された。1940年頃ベル研究所の特許部門が行ったアメリカでの秘話関連の特許調査では80件ほどの特許が見つかったと報告されている[27]。
第二次世界大戦が始まる頃になると戦闘に必要な多くの情報を敵に知られることなく伝える必要性から秘話の技術は急速に発展した。敵の作戦行動を知り戦闘を有利に進めるため秘話解読の技術もそれと平行して進歩していった。
1920年代の技術であるスクランブラーの原理は当時すでに一般に知られていたため、十分な時間と分析機器があれば専門家が分析し処理方式の解析を行うことは難しいことではなかった。人間の耳だけでは難しい秘話方式の分析のため、信号の時間/周波数パターンを調べるのに有効なサウンドスペクトログラムも第二次世界大戦が始まる頃に発明された[28][29]。
実際、ドイツの旧ドイツ郵政省 (Deutsche Reichspost) で秘話装置の研究をしていたフェッターライン (Kurt E. Vetterlein) は戦争が始まると秘話解読の研究に割り当てられ[30]、イギリスからの秘話通信の受信場所として当時ドイツが占領中だったオランダのノールトウェイク (Noordwijk) 近郊の海岸を選び、そこにあったユースホステルに受信局を設置してニューヨークやワシントンとロンドン間の高い機密性の要求される音声通信に使用されたA-3型秘話装置の秘話方式の解析を行った。A-3で使われていた5つのサブバンドの周波数とサブバンドの反転/配置換えパターンを調べることで会話内容の解読ができるようになり、1941年の秋には24時間体制で連合国側の政府高官の会話をリアルタイムでモニターしていた[31][32]。ドイツ郵政省の「研究センター」(Forschungsstelle) の名称で呼ばれたフェッターライン配下のチームがこの頃に受信した会話の数は1日60通話にも上った。これらの会話にはチャーチル首相とルーズベルト大統領との会話も含まれる[33]。チャーチル首相は電話魔で、昼夜関係なくルーズベルト大統領を電話で呼び出したと言われる[33]。ドイツにとって最も重要な会話の一つはイタリア降伏(無防備都市宣言)の直前の1943年7月29日にチャーチル首相とルーズベルト大統領とが行った話し合いで[34]、会話の内容は直ちにナチス親衛隊の国家保安本部第VI局(国外諜報局)を経由してヒムラーに報告された[34]。ヒットラーは8月1日にイタリア占領作戦アッシェ作戦を承認し、会話を盗聴したドイツはイタリア軍に対して迅速な対応を行うことができた。
また、ドイツ陸軍で暗号解読を担当していた陸軍兵器局 開発試験部 通信課(独: Wa Prüf 7、HeeresWaffenamt Amtsgruppe für Entwicklung und Prüfung Nachrichtenabteilung)の技術者アルフレッド・ムゥヒェ (Alfred Muche) も、ドイツ郵政省とは独立して、"5B"と呼ばれるA-3用の解読装置を作成し、チャーチル首相とルーズベルト大統領とのシチリア島侵攻についての会話を含む多くの会話を盗聴していた[35][36]。
盗聴されていた側のアメリカでも、A-3の脆弱性とさらに優れた秘話装置の必要性は1940年夏頃から認識されていた。1940年10月初めには秘話のための委員会を組織して複数のプロジェクトを立ち上げ[28]、同時にベル研究所で新しい秘話装置の研究が"プロジェクトX"の名称で開始された[27]。このプロジェクトの成果として新しく開発されたのが音声暗号化装置SIGSALYである。この装置は世界最初の実用的なデジタル音声通信システムで、また音声通信と近代的な暗号とを組み合わせた最初の装置でもあった。このシステムは真空管とアナログ回路の時代に作られたため、当時としては非常に大規模で複雑なシステムだった。真空管を1000本以上使用し、装置の重さは約55トン、消費電力は30kWに上り、7フィート標準ラック30以上を占める大きさで、設置のためには空調が効いた広い部屋が必要だった[37]。 運用のための専門の部隊が用意され、24時間体制で保守と調整を行った[37]。 音声信号はボコーダーで圧縮した後、バーナム暗号を応用した方式で暗号化した。暗号化にはレコード(音盤)にデジタル録音された乱数を共通鍵として使うワンタイムパッド方式が用いられた。
SIGSALYは1943年7月にワシントンとロンドン間で運用が開始され、その後は北アフリカ、パリ、ハワイ、グアム、オーストラリア、及びマッカーサー将軍が移動中に司令部があった船上と終戦直前のマニラに設置され、また終戦後はベルリン、フランクフルト、東京にも設置され1946年まで使われた[38]。
また、SIGSALYのシステムは非常に大規模で消費電力も大きく移動も運用も大変だったため、量産と並行して、SIGSALYを再設計し小型化する"ジュニア X システム"のプロジェクトが進められた。このシステムは1944年の秋に契約が行われ、米陸軍通信隊から AN/GSQ-3 の名称が与えられた[39]。最終的にこのシステムは5フィートのラック6台分にコンパクト化されトレーラに積み込める程度の大きさになった[39]。しかし納入日は1946年3月で戦争はすでに終わっており、実際に使われることはなかった[27][39]。
SIGSALYのようなデジタル方式の秘話装置の存在とその処理方式は使用されなくなった後も長い間秘密にされた。1940年代にベル研究所が出願したSIGSALYに関連する多くの特許は、それから30年以上経ちデジタル技術が特別なものでなくなった1975〜1976年になってようやく一般に公開された[40]。またA-3がドイツで解読されていた事実も秘密にされた。
第二次世界大戦中は、SIGSALYのような大掛かりな秘話装置だけでなく飛行機に搭載可能な程度の大きさの簡易型秘話装置も開発された。SIGJIPのコードネームで呼ばれた AN/GSQ-1 はアメリカで開発されたアナログ方式の秘話装置で、A-3のように周波数単位のブロックで入替を行うのではなく、音声を磁気記録し複数の磁気ヘッドを使って小さな時間単位のブロックに分け順序の入替を行う装置だった[41]。 このような方式は1930年代末頃にはヨーロッパで知られており1940年にアメリカでも特許申請され[42]、1941年頃には装置の具体的なメカニズムがベル研究所でも考案されていた[43]。 1941-42年頃には海軍と陸軍向けに37.5ms単位の時間ブロックで入れ替える試作モデルが作られ[44]、その後アメリカ陸軍の戦闘機ムスタングなどに搭載された。
ドイツでもこのような方式はよく知られていた。ドイツ軍は1944年末に国内で撃ち落とされたムスタングでSIGJIPを見つけ分析を行なっていた[41]。時間単位のブロックでスクランブルを行う秘話方式についてドイツ側も研究しており、ヨーロッパでの発明者の名前からこの方式は「ティーゲルシュテット」(Tigerstedt) と呼ばれていた[41]。当時のドイツの専門家はムスタングから発見された秘話装置について、必要な機材があれば10分で解読可能、とコメントしている[41]。ドイツでも同様の方式の装置の試作を行っていたが秘話性が十分ではなく、シーメンス社で音声を三つの周波数のブロックに分割してそれぞれ独立に時間単位のスクランブルを行う改良を行ったりしたが、機械が大幅に大きくなったにもかかわらず満足した性能が得られなかった[41][45]。そのためSIGJIPと同じような装置がドイツで使われることはなかった[41]。
ドイツでは1937年以降シーメンスやテレフンケン、AEGなどの企業やハノーバーにあったフィアリング博士(Oskar Vierling)の研究所などが秘話装置の研究を行っていた。1943年には開発の効率化のためテレフンケンとフィアリング博士の研究所の研究のみが残り、1944年以降はフィアリング博士の研究所に集約された[46]。フィアリング博士は電気音響工学の研究者で戦前には発振回路や新しい電子オルガンなどの研究を行い、またアナログ方式の秘話装置で重要なフィルタ回路設計のエキスパートだった。アメリカの秘話装置A-3を解読するためドイツ陸軍が作成した装置"5B"のフィルタ設計はフィアリング博士が行った[36]。この時期にはこれ以外にも軍関係の多くの研究を指揮した。
ハノーバーの研究所が爆撃されたため、フィアリング博士らのチームは1942年ドイツ北部のオーバーフランケン地域の山岳地帯に疎開しフォイヤーシュタイン研究所(独: Laboratorium Feuerstein)を作った。研究所の建物はカモフラージュのためフレンキシェ・シュヴァイツに多くある城のような外観に造られ、屋根には病院を表す赤十字のマークがあった。この研究所では、音響魚雷やスパイ用の高速度通信機、潜水艦用の対レーダー電波吸収コーティング、高精度なサウンドスペクトログラム分析装置などの開発と共に[47]、秘話について独自の研究開発を行った[47]。フォイヤーシュタイン研究所で開発が行われた秘話装置はSIGSALYと同じ様なボコーダーを使い、その出力に3段階の複雑な周波数のシフトを行うもので、周波数のシフトのパターンはローレンツSZ-42暗号機の出力で変化させるようになっていた[48]。
最初に音声を10チャネルの信号の組み合わせに変換するボコーダーが完成し"anna"と名付けられた[48]。続いて"anna"からの450Hzから2110Hzまでの出力に対し複雑な周波数のシフトと入替とを行う装置の開発を行っていたが、当時のフィルタ設計技術では復調後の音質が悪くて満足な結果が得られず、全体の装置が完成することなく終戦を迎えた[47][48]。
フィアリング博士が秘話装置の開発を行っていたのと同じ頃、イギリスでも戦車で扱える程度にコンパクトな音声暗号化装置の開発が進められていた。第二次世界大戦中イギリスの政府暗号学校(ブレッチリー・パーク)の暗号解読部門 (Hut 8) の中心メンバーとしてドイツ海軍のエニグマ暗号の解読を行ったアラン・チューリングは、アメリカで開発が行われたSIGSALYに関係し、イギリスでの秘話装置の開発にも従事した[49]。
アメリカとイギリスとの間の暗号に関する情報交換の一環として、チューリングは1942年11月7日にクイーン・エリザベス号に乗り込み大西洋を越えてアメリカに渡った[50]。エニグマ暗号の解読方法やイギリスからの情報を元にアメリカでも開発を行っていたエニグマ暗号の解読機Bombeについての情報交換を行い、またSIGSALYに関する情報の提供を受け分析を行った[49]。この時ベル研究所でSIGSALYの暗号方式が本当に安全かどうかの解析を行っていたシャノンにも会っている[50]。
チューリングは兵員輸送船のエンプレス・オブ・スコットランド号でUボートかまだ多く活躍する大西洋を横断して1943年3月29日に無事帰国し、ブレッチリー・パークに戻った[50]。その後SIGSALYに関する情報を利用して1943年5月から無線式の秘話装置 Delilah (ディライラ) の開発を開始した[51]。チューリングはしばらくブレッチリー・パークにいたが、ディライラの開発に専念するため1943年末に無線諜報を扱うMI8 (Military Intelligence, Section 8; Radio Security Service) の拠点があったハンスロープ・パークに移動した[49]。
この秘話装置の名前は旧約聖書に登場する「人を欺く」女性デリラにちなんだもので[49]、その当時のハンスロープ・パークの同僚で戦後もチューリングの下で研究を行うことになるロビン・ガンジー (Robin Oliver Gandy) が名付けた[52]。
ベル研究所でSIGSALYに必要な膨大な装置類やサンプリング定理の説明を受けたチューリングは、より単純でコンパクトな秘話装置の作成を目指した。SIGSALYで使われている音声信号の圧縮技術ボコーダーは暗号化のための本質的な部分ではないと考え[49]、ディライラでは音声信号を十分高いレートで直接サンプリングし乱数を加えることで暗号化する方式とした[49]。
暗号化に必要な大量の乱数(共通鍵)は、何らかの暗号化処理を行った後に音声とは別の無線回線で同時に送る方式を考えていたが[51]、後に短い周期の乱数を複数組み合わせて長い周期の擬似乱数を内部で生成する方式に改められた[51]。1944年末には暗号化のコア部分が完成し、送信側と受信側に有線で乱数の信号を直接送る形でデモンストレーションが行われた[49]。完成度はまだ低く、送受信部を直接接続した状態でも音質が悪く雑音も多かった[51]。実際の装置では受信側と送信側とが独立して擬似乱数を生成し、両者をサンプリング周期以下の誤差で同期させる必要がある。その後乱数の同期方法や音質の改善についての検討と試行錯誤を行っていたが、1945年5月にドイツが降伏しヨーロッパでの戦闘が終了したため、全体のシステムが完成する前に秘話装置の開発は中止された[49]。
チューリングと秘話との関係は Delilah 開発後も続いた。チューリングは暗号の専門家であると同時に、この当時のアメリカとイギリスの最先端の秘話技術を理解できる数少ないメンバーだった。ヨーロッパでの戦闘が終結した直後、チューリングはイギリスの秘話専門家としてドイツのフォイヤーシュタイン研究所に行き、フィアリング博士らが現地で開発中だった秘話装置の調査も行った[53][54]。この当時、アメリカとイギリスとはドイツの諜報や暗号と秘話に関する情報、関係者、装置類の捕獲を目的とするTICOM (Target Intelligence Committee) を組織してドイツ降伏前から多くの活動を行っており、チューリングはこの活動に関係していた[53][54][55]。
第二次世界大戦前のソビエト連邦の秘話の技術水準は低くドイツの製品などを輸入する状態だったが、徐々に自主技術での開発を行えるようになった。第二次世界大戦の後半頃になると技術は急速に進歩した。
ソビエト連邦での秘密通信の研究自体は古く、1920年にエンジニアのボンチ=ブルエヴィッチ (M. A. Bonch-Bruevich) は音声を記録して複数のブロックに切り分け配置換えをして送信を行い、受信側で元の配置に戻す方式を考案していたという[56]。1927-28年にはソビエト連邦で最初の秘密野戦電話機の開発が赤軍通信科学研究所 (NIIS RKKA) で行われた [57]。 1930年代、秘密通信用の電話機研究は、郵政電信人民委員部研究所 (NKPiT)、赤軍通信科学研究所 (NIIS RKKA)、コミンテルン工場の無線装置研究所、レニングラードの電話工場"クラスナヤ・ザリャー"(露: Красная Заря、"赤い夜明け"の意)、海軍の通信・遠隔制御研究所、第20電気工学研究所 (No20 NKEP)、内務人民委員部 (NKVD) の研究所の7か所で行われていた[57]。
1930年頃は研究者の数も少なく5名から10名程度のグループの集まりにすぎなかったが[58]、国際関係が緊張を増してきた1930年代後半になると秘話についての本格的な研究と装置の開発が行われるようになった[59]。この当時、主要都市であるモスクワ-レニングラード間やモスクワ-ハルキウ間には政府専用の長距離電話回線が設置されており、"クラスナヤ・ザリャー"工場で作られた10.4kHz〜38.4kHzの周波数を使う多重搬送電話装置SMT-34が使われていた[56]。高周波を使って送受信する方式なので通常の電話機を電話回線に直接つないでも会話の内容は聞きとれないが、特別な秘話機能が備わっているわけではないため盗聴の危険性が以前から指摘されていた。
1936年8月には、長距離電話回線から50m以内の距離で並行にアンテナを張り長波受信機で受信することで盗聴が可能なことを内務人民委員部の国家保安総局(NKVD GUGB、後のKGB)が報告している[56]。1937年にはモスクワ-ポーランド間の長距離電話回線で国境から1.5km離れたポーランド側に盗聴用回線が設置されていたのが発見された[56]。このような状況から秘話装置の開発が急務になっており、国家保安総局は関連部署に秘話装置の開発を緊急要請していた。この当時、ソビエト連邦内での秘話の技術水準は低く、モスクワ内の無線電話にはアメリカ製の秘話装置が使われ、モスクワーレニングラード間の電話回線用の秘話装置としてドイツのシーメンス社のものが試験されていた[56]。
1935-36年頃レニングラードの"クラスナヤ・ザリャー"工場の研究所でESインバータ(露: инвертор ЕС)と呼ばれる単純な秘話装置が開発された[59]。これは研究所リーダーのエゴロフ (K. P. Egorov) とスタリチーナ (G. V. Staritsyna) が設計したもので、設計者の頭文字から名前が付けられた。次の年には改良版のES-2が開発された。秘話性はまだまだ低く、普通の単語や文章は十分に聞き取れなくなるが、数字のみであれば完全に聞き分けが可能な程度の性能だった[56]。プロトタイプを用いたモスクワ-ソチ間の長距離電話回線を用いた試験では通信回線の品質に影響されやすい問題もあったが、1937年9月にモスクワ-レニングラード間の電話回線で正式採用された[56]。1937年に設計者のイリンスキー (Ilyinsky) の頭文字を加えた無線通信用のEIS-3の開発も行われた。ES-2(露: ЕС-2)をベースにして1938年から1940年の間に様々な改良を加えた262種類の秘話装置(ЕС-2М、МЕС、МЕС-2、МЕС-2А、МЕС-2АЖ、ПЖ-8、ПЖ-8Мなど)が開発された[58][59]。これらは音声周波数反転方式をベースに余分な音を加えて聞き取りにくくする改良を加えたものだった[59]。
これらの秘話装置は長距離電話回線で使われたが、1940年に内務人民委員部が行った"クラスナヤ・ザリャー"の製品に対する評価は低く、秘話性が不十分で暗号鍵に相当するものも無いというかなり厳しいものだった[56]。第二次世界大戦が始まる直前くらいになると各国で秘話の研究は急速に進んでいた。音声周波数反転方式に改良を加えた程度の単純な秘話装置は軍事用や政府高官用として不十分だと考えられており、解読が困難で戦場でも使用できる優れた秘話装置の開発が急務となっていた。 ソビエト連邦でも、1938年に郵政電信人民委員部研究所 (NKPiT) など2つの研究所をまとめていたウラジーミル・コテルニコフ (Vladimir Kotelnikov) は、より秘話性の高めた秘話装置S-1("Sable"、露: Соболь、"クロテン"の意)の開発を行い試験を行っていた[60]。
1939年、政府の極秘レベルの音声通信に使えるような秘話装置の開発が重要な国家目標となり、コテルニコフが責任者になり開発が進められることになった[60]。コテルニコフはアメリカのハリー・ナイキストやクロード・シャノンと独立にサンプリング定理を発見した[61] ソビエト連邦の著名な無線工学と情報理論の研究者で[62]、暗号についても独自の論文を書き[62]、ロシア国内では秘話の父と呼ばれることもある[63]。
独ソ戦(大祖国戦争)が始まりドイツ軍がモスクワに迫ると、"クラスナヤ・ザリャー"工場の研究所で秘話の研究を行っていたメンバーや、"Sable"を開発したコテルニコフと開発メンバーの半数はそこからおよそ1000km離れた内陸部の工業都市ウファに避難し、そこの研究施設 GSPEI-56(露: ГСПЭИ 56、連邦製造・実験研究所No.56)で装置の開発を行った[60]。この頃は秘話装置だけでなく武器や通信機器の増産と性能向上の要求も急速に高まった時期で、研究者は少人数で多くの仕事をこなす必要があった。コテルニコフのスタッフも研究所の音響室で寝泊まりして開発を行っていた[64]。
この当時、ソビエト連邦内や戦線で使われていた旧式のインバータ(音声周波数反転方式)を改良した秘話装置は単純でコンパクトだったが、解読もまた非常に簡単だった。秘話解読を行うドイツの専門家たちはこの方式を「私たちのかわいいインバータ」と呼んでいた[58]。
当時のスターリンもこのような状況を理解しており、1941年5月の共産党政治局の拡大会議において「通信、それが我々のアキレス腱である」と発言した[56]。
実際、1943年頃までのソビエト連邦内の無線電話での会話の多くはドイツ軍により盗聴されていた。モスクワ、レニングラード、イルクーツク、アルマ・アタ、チェリャビンスクの間のロシア陸軍や内務人民委員部 (NKVD) の秘話装置による会話が盗聴されていたことが、戦後の調査で明らかになっている[65]。これらの無線電話では、"クラスナヤ・ザリャー"工場で作られた多くの秘話装置のようにインバータを改良した方式と、人工的に音声の特定の周波数を強めて音を歪ませる方式の2種類の秘話装置が用いられていた[65]。秘話の解読はドイツ陸軍兵器局 開発試験部 通信課(独: Wa Prüf 7)が担当し、アメリカのA-3型秘話装置の解読と同様、受信した秘話信号をいったん録音し、録音した音のサウンドスペクトログラムを注意深く調べることで秘話方式と秘話で使われている周波数を割り出して解読を行っていた[65]。
このような状況の中、コテルニコフとウファの研究所のメンバーはそれまでに知られていた多くの秘話方式の分析を行い、単体では十分な秘話性が得られないという結論に達していた[58]。新しい秘話装置では複数の秘話方式を組み合わせて高い秘話性を実現することにし、音声を2つの周波数ブロックに分けて周波数の反転と入替を行う方法と、アメリカのSIGJIPのように音声を複数の時間ブロックに分けて入れ替える方法とを組み合わせることにした。暗号鍵に相当する入れ替えパターンの指定には、当時のテレタイプや暗号機で使用されたさん孔テープを用いた。周波数/時間ブロックのスクランブル方法をテープにパンチされた1文字5ビットの情報で指定し、テープを10文字/秒で読み取り100ms単位でスクランブル方法を変化させる方式だった[58]。さん孔テープはいくらでも長くすることができるため非常に複雑な入替パターンが可能で、テープをループ状につなげば同じテープを長時間使用できるため、当時としては優れた方式だった。
コテルニコフらは1930年代にアメリカで考案されたボコーダーについての知識もあり、当初はアメリカのSIGSALYやドイツのフォイヤーシュタイン研究所の秘話装置で使われたものと同じようなボコーダーを併用することでより高い秘話性と必要な帯域幅の圧縮とを実現する予定だったが[58]、安定した性能が得られなかったためボコーダーは使われなかった[64]。
音声を複数の時間ブロックに分けて入れ替える方式も当時のソビエト連邦では経験がなく開発に苦労した。100msの音声を10の時間ブロック(セグメント)に分けて入替を行う方式が考案されたが、そのためにはいったん音声信号を100ms分記録してから特定の入替順序で読み取っていく必要がある。当時のソビエト連邦ではこのような用途に使える記録媒体の技術が無かった。
音速がおおよそ330m/sであることを利用し、最初は33メートルもの長いゴムホースにスピーカから音を流しマイクロフォンで電気信号に戻すやり方を試してみたが、高い周波数の減衰が大きすぎて満足な音質が得られず、装置も非常にかさばって実用にならないことが分かった[64]。その後、スウェーデン鋼の薄くて長い金属テープをリング状につないで記録媒体として使う方法が試みられたが、リングのつなぎ目部分で発生するノイズをどうしても消すことができなかった[64]。続いてつなぎ目の無いループ状の鋸に磁気記録する方法も試したが、これも十分な性能が得られなかった[64]。最後に、モスクワの鉄鋼工場"鎌とハンマー"の協力により非磁性体の周囲をニッケルとコバルトの薄膜でコーティングした材料を作ることで、ようやくまともな音質で磁気記録ができるようになった[64]。
1942年秋に従来の装置よりはるかに秘話性の高い無線電話用の秘話装置がコテルニコフの研究所で完成し"Sable-P"(露: Соболь-П)と名付けられた[60]。 秘話装置の完成当時に激しい戦闘が行われていたスターリングラード攻防戦では、ドイツ軍に切断された多くの有線の長距離電話回線の代替として無線電話回線が使われており、赤軍のモスクワ司令部と戦線正面軍との間の連絡手段としてモスクワ-トビリシ間の短波の無線電話回線で量産前のプロトタイプが使用された[60][64]。新しく1315kmの長距離電話回線がカスピ海沿いに敷設されるまでこの無線電話回線が使われた[60]。
過酷な戦場での使用経験から改良と機能強化が行われ、1943年の初め頃にはレニングラードの工場で量産が始まった[60]。この秘話装置はその後モスクワ-ハバロフスク間など多くの基幹となる長距離電話回線で最高司令部と前線との連絡用に使われた。この秘話装置の開発により、1943年3月にコテルニコフと研究所の関係者は当時のソビエト連邦における国家最高賞であるスターリン国家賞を授与された[60]。
秘話装置の開発と改良は終戦まで続いた。無線回線用の"Sable-P"以外に、有線の長距離電話回線用の秘話装置として"Sova"(露: Сова、フクロウ)や"Neva"(露: Нева、ネヴァ川)が開発され[64]、バグラチオン作戦での最高司令部と第1/第2ベラルーシ方面軍との連絡やモスクワとパリやヘルシンキ、ウィーン間の通信に使用された[64]。 "Sable-P"や"Neva"はテヘラン、ヤルタ、ポツダムでの連合国首脳会談の時にもモスクワとの連絡用に使用され[56]、コテルニコフと開発メンバーは、これらの業績により戦争が終わった1946年にも再びスターリン国家賞を授与されている[56]。
ドイツ陸軍で秘話解読を担当していた"Wa Prüf 7"(陸軍兵器局 開発試験部 通信課)もこのようなソビエト連邦側の変化に気が付いていた。1944年の初め頃には秘話方式が変って「私たちのかわいいインバータ」の無線信号は聞こえなくなり、ソビエト連邦内の無線通信ネットワーク自体も変化したため[65]、必要な情報は得られなくなっていった。
当時"Wa Prüf 7"でモスクワ-マドリード間の無線電話の信号をスペクトログラムを使って分析していた研究員の一人は、ソビエト連邦の秘話方式として「ティーゲルシュテット」(Tigerstedt、時間セグメント置換方式の当時のドイツでの呼び名)が使われていることに気が付いた[66]。スクランブルを行う時間セグメントの単位は10msで、0.6秒ごとに同期のためのパルス信号が含まれていた[66]。捕虜のソビエト兵を尋問し聞き出した読み取りヘッドの数は3と4の2種類の回答があり明確にはならず[66]、「ティーゲルシュテット」と周波数置換の組み合わせという方式自体は分かったが[36] それ以上の詳細はわからなかった。記録した信号の各セグメントを並べ替えることで音声らしきものを再生できることもあったが、実際のスクランブルのパターンは送信に使ったさん孔テープにより変わるため並べ替えの規則性や周期を見つけ出すことができず、解読はできなかった[66]。
日本では1920年頃から軍用の秘話装置の研究が始められていたが、最初の頃は調査と方式の考案のみで具体的な研究方針も決まっておらず、軍用機器の積極的な研究は行われていなかった[67]。 実際に戦場で使える実用的な秘話装置の研究が始まったのは第二次世界大戦の少し前、満州事変で通信量が急激に増えた1932年頃である[68][69]。陸軍と海軍とは独立して秘話装置の研究を行った。
陸軍で移動式無線電話の秘話装置研究が始まったのは1932年からで、音声を録音し時間反転させるもの、音声周波数反転にキャリア周波数をのこぎり波で変動させる方式を組み合わせたもの、音声波形に位相変調を加えるもの、帯域を分割して入れ替えるものなど、様々な方式が検討・試作された。しかし軍用としての十分な結果は得られなかった[68]。終戦までに完成しなかったものも多い[68]。陸軍の無線電話用としては簡易型の音声周波数反転方式のみが1936年に九四式二号丁無線機及び九六式二号戊無線機用として制式採用された[68]。 この方式は商用の短波無線電話回線でも使われた良く知られたもので、秘話性が十分とは言えなかったため実際にはほとんど使われなかった[67]。位相変調式の秘話装置の試作機は戦争末期に侍従武官府と大本営陸軍部の間のVHF無線電話施設で付加的に使用された。
筐体の大きさや重量の制限が緩く無線と比べ秘話性能の条件が厳しくなかった陸軍の有線電話用秘話装置も1932年から研究が行われ、1940年までに特一号電話機から特四号電話機までの4種が完成した[70]。最も秘話性の高かった特三号電話機は、新京との商用国際無線電話用に試験運用された秘話方式を発展させた方式で、音声周波数反転方式にキャリア周波数の切り替えによる周波数のシフトを組み合わせ、さらにシフトで空いた周波数帯域にレベルの変化する雑音を付加する方式が採用された[71]。11本の真空管を使用し、送受信機の重さは56kg、電源や輸送用の箱を含めた総重量は161kgだった[71]。1943年に30台、1944年には60台が整備され、陸軍参謀本部と船舶司令部間および軍令部間で利用された[71]。
陸軍による無線信号の解読機の研究は1933年頃から始まった[72]。無線諜報の重要性が増してきた1938年からは定期的に飛行機から偵察を行い実際に戦場で使われている無線の周波数と秘話方式など通信形式の調査(シギント活動)も行われるようになった[72]。当時の戦線での無線電話の秘話方式としては音声周波数反転方式しか発見できず、音声周波数反転方式の解読を行う一号電話解読機が作成された[72]。
海軍でも、満州事変の前から海軍技術研究所で秘話方式の研究が行われていた[73]。満州事変の勃発後は海軍の各拠点間の通信量が激増し、無線電信による暗号を用いた通信では対応しきれなくなり、また従来の無線電話への秘話機能追加の要望も急速に高まった[73]。そのため東京、呉、佐世保の3拠点を秘話機能を持った多重無線電話で連絡する計画が急きょ作成され昼夜兼行で実行に移された。1932年に制式化された九二式多重無線電話装置はSSB(抑圧搬送波単側波帯)方式を用い周波数分割多重化 (FDM) により複数の電話を伝送する方式で[73]、秘話方式としてはキャリア周波数を交互に切り替えることにより音声信号の周波数をシフトさせる方式が採用された[73]。秘話性はさほど高くないが、この当時としては複雑で高度な無線電話装置だった。
その後、1937年の支那事変により海軍内の通信はさらに急増し、各拠点間を有線の専用回線で結ぶことが決まった。この海軍専用線を使った有線電話での秘話のため、音声周波数反転方式を用いた簡易型の有線電話用秘話装置が九八式秘密電話装置有線用として制式採用された[73]。
海軍での艦隊内通信用の秘話装置の要求も高かった。この当時の海軍での各艦船間の連絡には海軍九〇式無線電話機や九三式超短波無線電話機のようなVHF帯のコンパクトで設置が容易な無線電話機が使われていた。当初は艦隊内の限られた範囲にしか電波が届かないと思われていたが、季節や時間によっては見通し外のかなり遠くまで電波が届くことが分かり、盗聴を避けるため秘話の機能が必要になった。このような用途のため、小型軽量で簡単に使用でき十分な秘話性を持った秘話装置の要求も高まった。 最初、東北帝国大学通信研究所で研究されていた磁気記録装置を応用したものが検討されたが、コンパクトさや衝撃に対する強さが要求される艦船用としてはとても実用になるものではなかった。その後も帝国大学や電気試験所の関係する研究者を招いて研究を行うなど完成のために多大な努力が行われた[73]。しかし、陸軍の移動式無線電話の場合と同様、軍用として満足な結果が得られないまま終戦を迎えた[73]。
第二次世界大戦が終わった後も多くの分野で秘話装置が使用され続けた。警察無線、船舶などの移動体通信、離島間の無線電話のような一般向けの用途では戦前と同様の単純なアナログ方式のスクランブラーが長い間使用された。
例えば、日本の警察無線のデジタル化は1983年頃から始まり[74][75] 1990年代にかけて段階的に行われたが、デジタル化される以前は音声周波数反転方式の単純なアナログスクランブラーを使用していた。この秘話方式は当時警察で使っていた秘話機能を持つ移動用VHF無線電話装置MPR-10Aの名称から「10番A」の略称で呼ばれた。
また、小笠原諸島との公衆電話用として1986年頃まで短波回線が使われていたが、これには帯域分割方式を用いたアナログスクランブラーが使用されていた[76]。
日本で海底同軸電話ケーブル網が整備される1964年頃までさかんに使われた短波帯の国際無線電話でも同様で、戦前に使われたA-3と同じ方式のアナログスクランブラーであるA-4型秘話装置が1952年から使われた [77] [78]。 それまでは戦前と同様に単純な音声周波数反転方式が使われていた[77]。
デジタル方式の秘話装置は第二次世界大戦終結後も使われたが、複雑で高価だったためアメリカやイギリスなど一部の国の軍用と政府高官用にのみ使われ、暗号化方式も秘密にされた。
この頃の音声暗号化装置は、SIGSALYのように音声の情報を圧縮して通常の電話回線と同じ帯域幅(狭帯域)で送るものと、無理な圧縮を行わずに十分な帯域幅(広帯域)の専用回線で送るものに大きく分類できる。狭帯域のものは従来のアナログ音声用の電話回線や無線回線が使えるというメリットがあったが、音声符号化技術が未熟だった初期の狭帯域音声暗号化装置の音質は非常に悪かった。そのため専用回線を用いる広帯域の音声暗号化装置も近距離用としてよく使われた。
携帯電話などの一般的な用途でデジタル方式の音声暗号化装置が使用できるようになったのは軍用や政府高官用の特殊な用途と比べてかなり遅く、デジタル技術が身近なものになってきた1990年代頃からである。例えば、デジタル方式の第二世代携帯電話 (2G) 規格として世界で最も使われているGSM方式の規格が策定されたのは1987年だが、この時同時に音声暗号化のためのアルゴリズムとしてA5/1が規格化された。GSM方式は1992年にドイツで初のサービスが開始され多くの国で使われた。W-CDMA方式やCDMA2000方式など、それ以降の携帯電話の規格でも音声暗号化方式が定義されている。
高い秘話技術を持ち、第二次世界大戦中すでにデジタル方式の音声暗号化装置SIGSALYの運用を行っていたアメリカでは、戦後もAFSA(Armed Forces Security Agency、軍保安局)とその後継のNSA(国家安全保障局)が中心となり軍事用と政府高官用に音声暗号化装置の開発を継続した。
SIGSALYはその高い運用コストのため1946年になると使用されなくなり破棄された。しかし秘話自体へ要求はそれ以降も高く、同様の原理のよりコンパクトで使いやすい狭帯域の軍事用秘話装置が開発され1940年代から1960年代にかけて使用され続けた。
第二次世界大戦後の1949年にアメリカ政府とベル研究所が協力して軍事用の音声暗号化装置KO-6が開発された[79]。これはSIGSALYの技術をそのまま応用し音声以外の暗号化も行えるよう汎用化し小型にしたもので、機械は大型冷蔵庫3台分程度の大きさだった。 1953年にはさらにコンパクトにした音声暗号化装置KY-9がベル研究所で開発された。これはハンドメイドのトランジスタを使用し、重さはSIGSALYの55トンから256kg(565ポンド)に低減された[79]。大きさもサイドデスクを大きめにした程度の大きさになった。1962年10月26日、ケネディ大統領がキューバ危機の対応について当時パリにいたノースタッド将軍 (Lauris Norstad) と話し合った際にはこのKY-9が使われた[80]。1台の価格はSIGSALYと比べるとはるかに安かったが、それでも4万ドルと高価だったため、政府高官用に300台に満たない台数が生産された[80]。
さらに1961年に開発されたHY-2 16チャネルボコーダーはFLYBALLと呼ばれるモジュール化されたトランジスタ回路を使い45kg(100ポンド)になった[79]。この装置は擬似乱数生成と暗号化の機能を持ったKG-13暗号鍵生成装置と組み合わされ、後に記述するKY-1やKY-3と共にアメリカ政府が国防総省のために開発した初期の世界的な秘話電話回線網であるAUTOSEVOCOM (Automatic Secure Voice Communications) ネットワークで使われた[80][81]。
一般の電話回線や短波の無線回線など音声用のアナログ回線は3kHz程度の帯域幅しかなく、この帯域で音声のデジタル信号を送るためには大幅な情報の圧縮が必要になる。SIGSALYも含め、これらの秘話装置は音声情報の圧縮にアナログ方式のチャネルボコーダーと呼ばれるものを使っていたため音質が非常に悪く、ドナルドダックのような声と表現された[79]。 第二次世界大戦中、SIGSALY設置の記念として北アフリカから自分の祖母と会話を行ったアイゼンハワー将軍は、SIGSALYが声の低い男性向けにチューニングされていたこともあって、それ以降SIGSALYを使おうとしなかったと言われる[27]。 1960年代になっても状況はあまり改善されなかった。暗号の専門家であるデビッド・ボーク (David Boak) はNSAで行われた暗号史の講義においてKY-9音声暗号化装置の音質についてコメントし、ロボットの声のように人工的で聞き取りにくいため「とても・・・・ゆっくり・・・・はっきりと・・・・話す・・・・必要がある」と表現した[82]。ジョンソン大統領も音質の悪さのためHY-2ボコーダーの使用を拒否した[79]。
1970年代に入りデジタルシグナルプロセッサによる線形予測符号を用いて音声の圧縮を行う音声符号化技術が実用化されると、ようやく狭帯域の音声暗号化装置の音質は少しずつ改善されていった。 1970年代以降、HY-2やKY-9は進んだデジタル技術を使った音声暗号化装置STU-IやSTU-II、STU-IIIやSTEに順次置き換えられた。
VHF帯以上での無線通信や広帯域の電話回線のように広い帯域の通信回線を使える用途ではチャネルボコーダによる無理な圧縮を行う必要がないため、比較的少ないハードウェアで十分な音質の秘話が実現できた。初期のデジタル式音声暗号化装置のひどい音質を改善するため、広帯域の通信回線を使う音声暗号化装置の開発も従来の狭帯域用音声暗号化装置の開発と並行して行われた。
1940年代の終り頃にチャネルボコーダを使わないPCM方式の音声暗号化装置AFSAY-816が作られ、米陸軍通信情報部 (Signals Intelligence Service) の司令部のあるアーリントンホールと米海軍のセキュリティステーションがあるネブラスカアベニューとの間の連絡に使われた[83]。送受信には広い帯域が必要だったため専用のマイクロウェーブ回線が使用された。暗号解読にコンピュータが使われだすとAFSAY-816で使われた真空管式の単純な暗号鍵生成回路では暗号強度の点で不安が出てきたため、改良された音声暗号化装置KY-11に置き換えられた[83]。これらの装置はまだまだ大きく、秘話電話のための特別な通信施設でのみ使用できた。
さらに、1950年代中頃にはワシントン近郊の政府要人の連絡のため音声暗号化装置KY-1が開発された[83]。これは据え置き型の金庫の半分程度の大きさに小型化され[83]、1ビット符号化(デルタ変調)を使って音声を50kbpsのデジタル信号に変換し暗号化する装置だった[84]。 普通の電話回線の帯域幅でこのデジタル信号を送ることは当時難しかったが、広帯域の電話線ケーブルを使えば42km(26マイル)程度の距離を伝送可能なことが分かったため[85]、この装置はホワイトハウスと国務省、ペンタゴン、ラングレーのCIAや政府高官の自宅などの限られた場所に設置された[82][84]。例えば、初期のモデルはゲティスバーグにあったアイゼンハワー大統領の農場に設置されていたことが知られている[83]。それ以前の秘話装置と異なり政府の秘話電話専用の特別な通信施設に行かなくても各オフィスや自宅で使うことができたため利便性が向上したが、通常の電話と異なりプッシュ・ツー・トークでいちいち送受信を切り替えながら会話を行う方式だったためスムーズな会話ができず、利用者である政府高官や大統領にとって使いやすいものではなかった。さらに、使用されている暗号化方式の脆弱性も発見された[82]。
このような理由により改良された音声暗号化装置の開発が1950年代末頃から始まりKY-3と名付けられた。これは1960年代で最も成功した秘話装置になった。 伝説によると、それ以前に多く使われていたチャネルボコーダー使用のKY-9のような音質の悪い秘話装置ではケネディ大統領からの電話での指示を聞き取るのが大変だったため開発が始まったとも言われる[86]。
冷戦が始まりソビエト連邦による電話ケーブルの盗聴やマイクロ波回線の傍受が問題となったアメリカでは、このKY-3が1960年代中頃から1980年代末まで軍事用と政府/議会/軍需産業間の比較的近い地域内での連絡用に使われた[87]。この装置もKY-1と同様チャネルボコーダーを使わない方式で、音声を直接6ビットPCMで符号化し暗号化した50kbpsのデジタル信号を4線式の広帯域電話回線で送受信した[87]。それまでのKY-1と異なり送受信を切り替えることなく普通の電話機のように同時通話ができて使いやすくなり、またドナルドダックのような声になるKY-9などと比べはるかに聞きやすかった。当時のKY-3は「声を聴くだけで相手が誰だかわかる数少ない秘話装置の一つ」とコメントされている[86]。
この装置も事務所用の金庫のような外観と大きさで、前面の扉を開けダイアル鍵がある内部の扉を開くと、独立した3段のユニットが格納され、それぞれのユニットが送信、受信と、電源やPCMエンコーダ/デコーダなどの機能を受け持っていた[87]。各ユニットにもHY-2ボコーダーと同様、FLYBALLと呼ばれるモジュール化されたトランジスタ回路が使用された。送信と受信のユニットにはそれぞれカードリーダーがあり、暗号鍵はセットしたパンチカードから読み取った[87]。
KY-3が使われた1960年代はベトナムでアメリカ軍による軍事活動が拡大していった時期でもあり、戦場での秘話装置の要求も強かった。第二次世界大戦でドイツや日本の通信を盗聴し戦闘を有利に運んだ経験から、アメリカ軍は戦場での秘話の重要性を十分に認識していた。第二次世界大戦で使われたSIGJIPのような戦術通信用のコンパクトな秘話装置がベトナム戦争でも必要だと考え、1960年代にNSAで検討が行われた。
60年代中頃は初期の集積回路が使えるようになった時期で、せいぜい15石から20石程度のトランジスタしか集積できなかったが[88]、KY-3のような音声暗号化装置を車で持ち運び可能な程度のサイズにすることも不可能ではなくなっていた。当時としては先進的な技術を用い、NSAは広帯域回線が使えるVHF/UHF無線機用の戦術通信用音声暗号化装置のファミリーを開発し NESTOR と名付けた。NESTORは車両用のKY-8、航空機用のKY-28、歩兵用のKY-38からなり、共通の秘話方式を使っているため相互に通話が可能だった[88]。音質の悪さの問題はあったが、事務所用金庫のような従来の音声暗号化装置と比べるとサイズや重量、消費電力の点で大きく改善された[88]。音声は19kbpsのビットレートでPCM符号化と暗号化が行われ[88]、送受信は小型の戦術通信用無線機や既存の携帯無線機をデジタル通信用に一部改造したもので行うことができた。
NESTORでの暗号鍵の設定と保存は機械的なメカニズムで行った。フロントパネルに並んだ64個の穴の中にあるピンをKYK-38のような専用のキーローダーを使って押し込むことでセットした[89]。各ピンは複数の段階に押し込むことができ[89]、各ピンの深さの組み合わせで暗号鍵が変化した。使用中の暗号鍵が漏れるのを防ぐため、穴をカバーしている扉を再び開けたり、飛行機の墜落などにより一定以上の衝撃が加わると、全てのピンがスプリングで元に戻り初期化されるメカニズムが採用された[89]。
NESTORを含む多くの音声暗号化装置では送信側と受信側とが同期している必要がある。NESTORは送信ボタンを押してから同期が行われ通話可能になるまでに0.6秒の時間が必要だった[89][90]。ベトナム上空で空戦を行うパイロットにとって情報のわずかな遅れは生死にかかわる問題だったため、この待ち時間は3秒くらいに感じられ[90] 非常に評判が悪かった。秘話機能を使わないパイロットも多かった[89][90]。
車両用のKY-8は高温に弱く、ベトナムのような高温多湿の環境では問題となった[90]。例えば、1969年に大統領がベトナムを訪れた際には、KY-8の過熱のため司令部とタンソンニャット空軍基地との通信が不通になったことがある[91]。司令部から他の旅団への命令に使われた無線秘話ネットワークもたびたび同じ原因で使えなくなった[91]。KY-8を使用する各部隊では過熱対策のため本体を濡れた布や氷で冷やしながら使うこともあった[89][90]。後に発熱が少なく電池が使える歩兵用のKY-38も車両用に使われた。
KY-38は初めての歩兵用音声暗号化装置だった。無線機と接続するケーブルの破損や、電池から発生する水素ガスによる長時間運用での爆発などの問題があり[89] 改良が行われていったが、一番の問題点はその重量だった[89][92]。KY-38は当時ベトナムで一般的だった携帯無線機AN/PRC-77と組み合わせて使われた。専用のバックパックに両方の機器をセットしケーブルで接続して運用するようになっていたが、機器類と電池に予備電池を足した総重量は24.5 kg(54ポンド)にもなった[92]。無線機単体の重量は6.2kg程度なので秘話通信の負担はかなり大きかった。通信兵への負荷を軽減するため、アメリカ海兵隊では2名の兵士が秘話装置と無線機とをそれぞれ運び双方をケーブルで繋ぐやり方を試していたが[92]、障害物の多いジャングル内での戦闘に向いたやり方とは言えなかった。これらの問題もあり、1970年頃のNESTORの総数は3万台ほどだったが、実際に使用されていた機器の数はその10分の1と見積もられている[92]。
NESTORへの反省から、代替としてVINSONと呼ばれる新たな音声暗号化装置ファミリーの開発が1971年から始まった[93]。音声符号化方式として適応デルタ変調の一種のCVSD (Continuously Variable Slope Delta modulation) を用い、音声を16kbpsに符号化し暗号化を行う方式で[93]、NESTORと比べ音質が良くなり、LSI技術を用いたため機器も小型軽量化され、無線回線経由で暗号鍵の更新 (OTAR, Over the Air Rekeying) が可能で暗号鍵の配布も簡単になり使いやすくなった。暗号化にはアメリカのNSAと英国のGCHQとで共同開発したSAVILLEアルゴリズムを使用した[93][94]。この具体的なアルゴリズムや仕様は公開されていない。使用される鍵長は8ビットのパリティビットを含め128ビットだと予想されている[94]。 VINSONファミリーとしてKY-57(車両/歩兵用)やKY-58(航空機用)などの暗号化装置が開発され、1970年代から1980年代にかけてNESTORを置き換えていった[93]。
第二次世界大戦中、アラン・チューリングによる秘話装置ディライラの開発により音声暗号化装置のノウハウを獲得したイギリスは、アメリカと同様、戦後もデジタル方式の音声暗号化装置の開発を続けた。アメリカのKO-6やKY-9等の初期の暗号化装置はSIGSALYの技術を受け継ぐアナログ方式のボコーダーを使い、無理な情報の圧縮を行っていたため音質の悪さに苦労していた。それに対しイギリスでは、ディライラと同じように音声を直接サンプリングして暗号化する広帯域の音声暗号化装置の開発を進めた。
1954年にイギリス陸軍がフィールド試験を行った音声暗号化装置 BID/100 (Hallmark) はそのような装置の1つである[95]。"BID"は"British Inter Departmental"の頭文字で、機器がイギリスの複数の政府機関や部門で使用されうることを意味する[96]。第二次世界大戦中にチューリングがエニグマ暗号の解読に従事したGC&CS(政府暗号学校、ブレッチリーパーク)は戦後GCHQ(政府通信本部)に改編され諜報や暗号関係の活動を行っており、"BID"機器はこの1部門であるCESG(コミュニケーションエレクトロニクスセキュリティグループ)が管轄している[96]。
BID/100は専用の電話回線網や無線回線を使う広帯域音声暗号化装置で、音声をPCM符号化した後に暗号化する方式だった。無線回線を使う場合通常のアナログ電話回線の10倍の500Hz〜30kHzの帯域が必要で[95]、当時イギリスで開発されたSHF帯 (4580-4860MHz) の軍用ポータブル無線機 WS B70 (Wireless Set B70) などと組み合わせて使用された。有線の場合は4線式のケーブルを用い5マイルの距離までの通信ができた[95]。
装置は音声をデジタル信号に変換するPCMユニット1台と、送信/受信それぞれの暗号化と復号のための2台のウェーブフォームジェネレータ (WFG) ユニットから構成され、通常の電話機のように送受信を同時に行う全二重、交互に送受信を行う半二重のいずれかのモードで動作した[95]。各ユニットは独立しており、3台を積み上げた高さは184cmで幅は52cm、重量は183kg(404ポンド)で[95] 第二次世界大戦中に使われたSIGSALYと比べるとはるかにコンパクトだった。
ウェーブフォームジェネレータ内部には複数の基板を組み合わせた4つの「ブック」と呼ばれるユニットがあり、そのうち3つは信号の暗号化/復号を、残りのユニットは外部とのインタフェースを担当する[95]。
1960年代中頃からはBID/150 (Delphi) が使用された[97]。これは同じころにアメリカで使われた KG-13 暗号鍵生成装置と同様に擬似乱数生成と暗号化の機能を持っており、音声をデジタル化するデジタル変調ボックスと組み合わせて使用した[97]。擬似乱数生成の元になる暗号鍵の設定にはX、Y、Zと印刷された3枚のパンチカードを用いた[97]。パンチカードはIBMスタイルの80欄×12列のもので、24時間単位で交換する運用だった。この装置は1980年代の初め頃まで使用された[97]。
以下にイギリスの音声暗号化装置のいくつかを示す。
大祖国戦争の終結後、当時のソビエト連邦もアメリカやイギリスと同じようにデジタル方式の音声暗号化装置の開発を積極的に推し進めた。初期の研究は秘話装置開発のためモスクワ郊外のマールフィノ(Marfino、露: Марфино)に創設された特殊研究所で行われた[108]。
マールフィノの特殊研究所は、当時シャラーシカ(Sharashka、露: Шарашка)と呼ばれた秘密研究を行う特別収容所の1つで、知識や技術を持った囚人たちが集められ政府のために研究と開発を行った。この当時のソビエトは大祖国戦争のため疲弊し、またスターリン批判などの政治的理由で多くの知識人が投獄された。科学者やエンジニアなどの人材は貴重で、優秀な人材をシベリアでの強制労働で無駄にする余裕はなかった。
マールフィノ研究所で秘話の研究/開発を行った囚人でもっとも有名な人物はノーベル賞作家のアレクサンドル・ソルジェニーツィンで、後にマールフィノ研究所での経験を元にこの研究所を舞台にした小説『煉獄のなかで』を書き、「マーヴリノ研究所」の名前でこの特殊研究所の様子を描写している[109]。最初は数学者として秘話システムの基礎理論の構築を行うグループに配属され、1948年10月にそのグループが解散した後は研究所内部の音響研究室で1950年まで秘話装置評価のための明瞭度と了解度測定の研究を行った[110]。他に、楽器テルミンの発明者として有名なレフ・テルミンも秘話装置の音質改善に関係した[111]。
マールフィノ研究所は1948年に創設されたが、そのきっかけは第二次世界大戦中にまで遡ることができる。ウラジーミル・コテルニコフ (Vladimir Kotelnikov) の研究所で新しい秘話装置"Sable-P"の量産の準備が行われていた1943年、秘話解読のためにピーターソン (A. P. Peterson) をリーダーとした5名のメンバーからなる研究チームが作られた[112]。1944年の中頃にはソビエト版のサウンドスペクトログラムを開発し1945年から1946年頃にかけてこのチームは秘話の解読の研究を推し進めた。秘話の解読技術が向上すると共に、自国の政府専用の長距離電話回線で使われているアナログ方式の秘話装置の脆弱性についての緊急の対応が必要なこともわかってきた。1946年頃には秘話解読チームの責任者が政府関係者に会い積極的に危険性を訴えるようになった。これを受け、1946年の5月か6月頃、内務人民委員部 (NKVD) から名称が変わったばかりのソビエト連邦内務省 (MVD) の関係者との間で秘話通信に関する会議が開かれ、脆弱性の有無を確かめるための試験を行うことが決まった[112]。
政府が使用している秘話装置をさらに一部改造したものを用い、秘話解読チームが実際に内務省からの電話回線による通信を解読できるかどうかの試験が行われた。チームによる秘話通信の解読はわずか24分で終わり、チームから内務省に報告された解読結果は会話内容と一致した[112]。今までより強力なまったく新しい秘話装置の必要性は明らかだった。
1947年には複数のワーキンググループからなる委員会が組織され秘話装置開発のための検討が行われた[108]。この頃には内務省の関係者にも新しい秘話装置の重要性は十分理解できていた。第二次世界大戦中に秘話装置の開発に貢献しこの当時モスクワ電力工学研究所 (MEI) に招かれ無線理論の研究を行っていたコテルニコフにもリーダーとして参加するよう打診が行われた[108]。しかし独自の信号検出理論の論文を書き終えたばかりで[62] 基礎研究に強い関心を持っていたコテルニコフは研究所にとどまることを希望し、これは実現しなかった。コテルニコフは後に政府の秘話装置評価委員会の技術メンバーとして開発後の秘話装置に関係するが、その後は秘話や暗号の分野から離れ、信号検出理論を応用した宇宙船のテレメトリーシステムや惑星探査用レーダーの開発などソビエト宇宙開発計画のキープレイヤーとして活躍することになる[62]。
1947年の秋にはワーキンググループによる具体的な方針が決まった[108]。1948年1月21日にはスターリンを議長とするソビエト連邦閣僚会議による布告が出され[108]、1948年2月19日に政府用の秘話装置の研究所をモスクワ郊外のマールフィノ村に設置するという布告が内務省から行われた[108]。
この研究所は秘密研究を行うという性質上から施設No.8あるいは特別収容所No.16と番号のみで呼ばれ[113]、囚人たちは「マールフィノの特別収容所」(マールフィンスカヤ・シャラーシカ、露: Марфинская шарашка)と呼んでいた[113]。
当初の開発計画で与えられた期間は極めて短かった。開発目標の秘話装置はソビエト国内で経験のない全く新しい技術が必要だったにもかかわらず、秘話装置サンプルの納期は1949年5月1日で開発期間が1年と少ししかなかった[108]。ソルジェニーツィンの小説『煉獄のなかで』では、この開発期間の決定はスターリンが個人的に行ったように記述されている[108][114]。 この計画は現実的なものではなく開発は困難を極めた。後にソルジェニーツィンは、どんな学者でもそこで研究を行うことを名誉と考えるほど研究所の水準が高かった、とインタヴューで述べている[115]。しかし相手の言葉をほとんど聞き取ることができない不完全なデジタル暗号化装置のプロトタイプが出来たのが1949年の中頃、まともな音質と十分な秘話性を持ったものが実際に完成したのは1952年の初め頃で[116]、それでも多大な努力が必要だった。この特別収容所での規定の労働時間は通常のメンバーが8時間で囚人は12時間だったが、開発後期には文字通り夜明けから夜中まで働く必要があった[110]。このような厳しい状況ではあったが、それでもキビの粥ではなく食べ放題の黒パンと400グラムの白パンとバターと肉のまともな食事があり、板寝床ではなく白いシーツのベッドが用意され、小説も読むことができ、一般の強制収容所ではめったに手に入らないタバコも配給されるなど[117]、知識人である囚人の待遇はシベリアの強制収容所と比べるとはるかに優遇されていた。また囚人と呼ぶことは禁止され相手の姓で呼びかける決まりになっていたという[110]。
マールフィノ研究所の当時の建物は、過去に"癒しの聖母"教会(Church of Assuage My Sorrows、露: Церковь "Утоли мои печали")の修道院として使われ、その後に政府の児童施設として使われていた[110]。独ソ戦の終結以降はフィリップスのベルリンの研究所を解体し押収した測定機などの機材をここに移して警察用の携帯無線機(ウォーキートーキー)を開発していたが[113]、秘話装置開発が最優先になったためこの場所を転用することになった。
戦争の影響でこの当時の建物の状態はひどく、建物の通路は天井も床もない状態だった[110]。1948年3月から補修工事が始まり、ようやく研究メンバーが入れるようになった[110]。
1948年末には囚人280人を含む490名の研究者がここで秘話装置の開発を行っていた[110]。他の囚人と同様、ソルジェニーツィンもこの中の一人としてスターリンの秘話装置のために働いていた。この当時、ソルジェニーツィンが所属していた音響研究室では秘話装置を開発・評価するために必要となる音声そのもの特性の研究を行っており、数学者だったソルジェニーツィンは同じ囚人である同僚の言語学者レフ・コペレフ (Lev Kopelev) と共にロシア語の音節の統計的な性質の研究を行った。
秘話装置の明瞭度や了解度のロシア語での評価を行うためには、日常的なロシア語会話で使われる音素と音節の性質を知る必要がある。当時ドイツ語など他の言語の研究結果は知られていたが、現代ロシア語での知識は少なかった。ソルジェニーツィンらは、ロシア語の全ての音節の種類、主な音節とその出現頻度、音節の周波数スペクトル、会話内容による音節の変化を調べる課題が与えられた[118]。過去に十分なデータに基づいて実証的に調査された研究はなく、課題のためには独自に調査を行う必要があった。
現代小説、演劇などでの会話、新聞など報道関係、技術文献の4つの分野で調査が行われることになり、ソルジェニーツィンはこの研究の数学方面を受け持っていた[118]。統計学や確率理論についての書籍や文献を調べ、これらの知識から各分野ごとに2万程度、全体で8万程度の音節のサンプルが必要と試算した[119]。最終的には10万件以上のサンプルを様々な資料からピックアップし音節を調べることで必要な統計情報を得ることができた。現代ロシア語には3500程度の異なった音節があり[120]、核となる100の音節で全体のサンプルの63%、600の音節で全体の93%がカバーできることもわかった[121]。
これらの研究から過去に明瞭度試験のために使われていた単語リストは現代ロシア語に即しておらず正しい試験ができないことが分かり、研究結果を元に新しい単語リストが作られた。研究所内で最初に開かれた学術会議でソルジェニーツィンとコペレフとはそれぞれ研究成果の数学的側面と音声学的側面について発表し[122]、コペレフはこの研究の成果を図表を含め4巻からなる大著にまとめた[121]。
当時コペレフはスペクトログラムから何を話しているかを読み取ることができる唯一のロシア人とも呼ばれていた。その技能のためソルジェニーツィンの助けを借りながら電話の声の声紋分析によりスパイを割り出す仕事もさせられた[123]。
研究所には若い女性中尉が管理する図書室があり[118]、ソルジェニーツィンやコペレフはここで多くの調査を行った。調査に必要な新聞や現代小説、研究のための文献などはモスクワ図書館やレーニン科学アカデミーの図書館などから借りることができた[118]。膨大な量のサンプルを調べる作業は大変なものだったが、若い女性中尉の笑顔を見たり、安っぽい化粧品の香りを嗅いだり、偶然に肌が触れたり、冗談を言ったりすることも[124]、現代小説を読むことも、一般の強制収容所では経験できないことだった。
ソルジェニーツィンがマールフィノ研究所での経験を元に書いた小説『煉獄のなかで』のロシア語原題の直訳は『第一圏のなかで』(露: В круге первом)である。この第一圏とはダンテの「神曲」からとられた言葉で、地獄の階層の中で異教徒の賢人たちが住む最上位の場所を意味している[125]。囚人にとってマールフィノ研究所は天国ではなかったが、他の強制収容所よりはるかに恵まれた場所だった。小説『煉獄のなかで』でも、ソルジェニーツィン自身がモデルと言われる数学者のネルジンと、レフ・コペレフがモデルの[126] 言語学者レフ・ルービンとが共同研究する様子や、音声テストを手伝う若い女性中尉シーモチカとの関係などが描写されている[127]。
ソルジェニーツィンらのようにマールフィノ研究所内は多くのグループに分かれ、リーダーから異なった課題を与えられ研究と開発を行っていた。秘話装置の開発のために必要となる理論や技術は多く、開発期間は限られていた。先行するアメリカやイギリスのデジタル音声暗号化技術の多くは極秘扱いだったため、同じような苦労を重ねながらあらゆるものを独自に開発する必要があった。研究所内のグループは、音声符号化技術、高能率の変調技術、音声用の高速暗号化技術、様々な計測器類、新しい半導体と特殊真空管の技術から、ソルジェニーツィンやコペレフらが所属していた音響研究室での音声やロシア語の研究まで、それぞれ異なった分野の研究開発をグループ毎に進めた[110]。
多くの理論研究と試行錯誤の後、1948年末から1949年頃にはいくつかの異なった政府専用長距離電話回線向け秘話装置が複数のグループで開発され競い合っていた[128]。 各グループとも、電話回線で送れるよう音声を2000bps程度に圧縮し、この頃としては高速な音声のデジタル信号の暗号化を当時の機械的な暗号化装置で安定して行う必要があった[128]。試作品は音質や暗号強度と安定性を評価する別のグループに渡され、目標の水準に達しているかの評価が行われた。この当時開発されていた秘話装置として以下のようなものがある[128]。
当初の開発目標だった1949年5月1日に対し、音声符号化装置と暗号化装置とを組わせたプロトタイプが1949年5月末か6月初め頃になってようやく出来上がった[128]。装置は何とか動いたが音質は大幅な改善が必要な状態で[128]、政府が示した目標にはとても届かなかった。
この後も改善のための厳しい作業が続くことになり、メンバーは一日に12時間から15時間、さらには夜中まで働く必要があった[129]。各メンバーへの個別の作業指示は9時から23時まで行われ、宿舎に戻ってベッド上で作業を行うことも多かった。モスクワ近郊に住んでいた研究者の一人は忙しくて自宅に帰ることができず、暑さのための汚れと擦り切れとでワイシャツの襟が外れてしまった20日目になって、ようやく服を着替えるために自宅に帰れたという[129]。研究所から外に出られない囚人にとっても似たような状況だったが、十分な成果が挙げられれば刑期が終わる前に解放され前科も帳消しにされ家族と共に暮らすことができ[130]、成果がなければはるかに待遇の悪い強制収容所に送られてしまうため、必死に働かざるを得なかった。
遅れを取り戻すためにグループの再構成も行われた。この頃はクリッピング方式のM-803が最も有望と考えられていたため、1949年8月にM-803を開発の中心機種とする決定が行われ、ボコーダーを用いるM-801の開発は中断された[129]。小説『煉獄のなかで』でも、クリッピング方式の開発を行うグループ(小説中では第7班となっている)が有望視され、囚人たちが自由な世界に飛び出すために有望なグループに入り込もうとする様子が描写されている[131]。
M-803を使いモスクワ-キエフ間での電話回線を使った1ヶ月以上の試験も実施された。測定した音節明瞭度は30%と悪く[129] クリッピングによる雑音が多くてまともな通話ができない状況で、さらに通信回線の位相の反転により通話が途切れてしまう問題もあり[129]、とてもスターリンや政府関係者が使えるような状況ではなかった。
この試験以降、音質改善への試行錯誤とグループ間の主導権争いのために様々な動きがあった。M-803の改良とは別に、開発が中断されたボコーダーをクリッピング方式と組み合わせることで音質を向上させる新しい音声符号化方式が考案され、装置の試作が急遽行われた[129]。この符号化方式は、低い周波数ではクリッピングした音声信号を直接符号化し、高い周波数成分は大まかな周波数スペクトルをボコーダーの考え方を使って符号化するもので、後の1960年代に考案されたセミボコーダー (Semi-Vocoder) やボイスエキサイテッドボコーダー (Voice-Excited Vocoder) と呼ばれる方式と同様のものである[129]。
明瞭度は51.1%に向上し当時のM-803より良い結果が得られたため、さらに研究を進めるためマールフィノ研究所とは独立したボコーダー研究所を設立することがいったん決まり準備が進められたが、直前になってこの決定は覆された[129]。また、これらの一連の動きがM-803の開発リーダに知らされることは無かった[129]。
ソルジェニーツィンの小説『煉獄のなかで』ではクリッパーとボコーダーの結婚という表現でこの頃の組織内部の混乱の様子が描写されている[132]。
何回もの開発計画の見直しと遅れとで内務省からの圧力が強まる中、M-803開発グループによる改良は続いた。1950年にはようやく明瞭度が51.8%に改善し、1950年4月から行われた政府の技術委員会の評価により製品の試作と試験運用を行うという結論が下された[129]。
1951年にはさらに改良が行われたM-803-3、M-803-5、M-803-Mの3モデルが完成し、これらの間での比較試験が行われた。主な利用者である男性の声に対し比較的性能が良かったM-803-5が最終的なモデルとして選ばれ、この秘話装置は政府の国外向け長距離電話回線用として1951年に22台、1952年には32台が製造された。また以前にM-809の開発を行っていたグループは、開発が中断された1950年以降M-503と呼ばれる簡易版の秘話装置の開発を行い、これは後に国内の電話回線で使用された。
囚人たちからマールフィンスカヤ・シャラーシカと呼ばれたマールフィノ研究所の役割は1952年で終了した。しかし、この時期は冷戦のグローバル化が始まりヨーロッパやアジアでアメリカとソビエトの対立が深まった時期で、通信の盗聴や傍受の危険性が増したソビエトにとって秘話へのニーズが無くなることは無かった。
M-803開発グループによる改良作業が行われていたのと同じ頃、これと並行して次の研究組織の準備が始まっていた。1950年代の初めごろ、ソビエトの諜報活動と防諜活動を担当しマールフィノ研究所を管理していた国家安全保障省(MGB、露: МГБ)は秘話や暗号の専門的な評価に責任を持つ組織として共産党中央委員会特務本部(GUSS、露: ГУСС)を作った[133]。1950年から1951年頃、GUSSの一部としてNII-1(科学研究所 No.1、露: НИИ-1)ができマールフィノ研究所の責任者が兼任で管理するようになった。
その後、ソビエト連邦閣僚会儀の決定により1952年1月にはマールフィノ研究所の後継としてNII-2(科学研究所 No.2、露: НИИ-2、後に露: п/я 37と改名)が創設された[133][134][135]。この研究所は囚人を使わない普通の研究開発組織で、マールフィノ研究所で秘話装置の研究を行っていた一般の研究者と技術者をベースとする700名のスタッフが秘話装置の開発を続けた[133]。NII-2の主導で1954年にはモスクワ-ベルリン間の長距離電話回線でM-803-5と改良版のM-803-Tを使った評価が行われ[133]、この結果を踏まえベルリン-モスクワ-北京間の当時としては最長の秘話回線が構築された[133][135]。
その後、NII-2のみでは国防省やKGBなどからの秘話装置や暗号化装置の多様な要求に十分に対応できなくなってきた[136]。この当時の秘話装置の製造施設はモスクワ南西625kmに位置するペンザの工場"VEM"と、モスクワ南西188kmのカルーガの工場"KEMZ"があった[136]。1958年、この中の1つであるペンザに新たな秘話装置の研究所NII-3が開設された[136]。ここは後にペンザ電気工学研究所(PNIEN、露: ПНИЭИ)と呼ばれた[136]。
モスクワのNII-2も1966年にはオートメーション研究所(露: НИИ Автоматики、The Research Institute for Automatics)と改名され[134]、秘話装置を含むさまざまな暗号化装置の製造と研究開発を続けた。 1950年代から1960年代にかけてこれらの研究所で行われた第1世代デジタル音声暗号化装置の開発では、第二次世界大戦中から秘話解読に関係しM-803開発グループリーダーでもあったピーターソン (A. P. Peterson)[134]、第二次世界大戦中コテルニコフの研究所で秘話装置の開発を行いM-804開発グループのリーダーだったカラチェフ (K. F. Kalachev)[134]、M-809開発グループリーダーのネイマン (I. S. Neyman)[134] など、マールフィノ研究所で秘話装置の開発を行った多くのメンバーが活躍した。
その後も、オートメーション研究所はロシア連邦所有の独立採算制企業である連邦国家単一企業体 (Federal State Unitary Enterprise) として存続し[134]、1994年に複数の企業体から組織されたロシア連邦研究開発企業連合"オートメーション"の中心組織として秘話装置を含む情報セキュリティ機器の研究開発を続けている[134]。
例えば、常にロシア連邦大統領のそばにある黒いブリーフケース、"チェゲット"(露: Чегет)のコードネームで呼ばれニュークリア・ブリーフケース (nuclear briefcase) とも表現される核攻撃指令装置が組み込まれたブリーフケースは、オートメーション研究所が開発したものと言われる[135][137]。
アナログスクランブラーの多くはスクランブル後の信号にも元の音声の強弱の情報などが残ってしまう。それに対し、音声信号を符号化した後に暗号化を行いデジタル信号として伝送するデジタル方式の秘話装置ではほぼホワイトノイズのような信号になり、残留了解度が問題になることは少ない。またデジタル方式では暗号強度の高い様々な暗号化方式が使用できるため高い秘話性が得られる。デジタル方式の秘話装置では、音声符号化により音声信号をビット列に変換した後にストリーム暗号を用いて暗号化する方式が一般的である。
デジタル方式の問題点はアナログ方式と比べ広いバンド幅が必要になることである。電話などアナログ音声用の通信回線の帯域幅は通常3kHz程度しかなく、音声信号をPCMのような単純な符号化方法でデジタル化した場合に必要な帯域幅はこれよりずっと大きい[138]。デジタル方式の音声暗号化装置は、広い帯域の特別な通信回線を使いそのままデジタル信号を送る広帯域方式と、圧縮率の高い音声符号化方式を用いてビットレートを下げた後アナログ電話回線と同程度の帯域幅でデジタル信号を送る狭帯域方式の二つの方式が並行して開発されてきた[138]。1970年代までは音声符号化技術が未熟だったため、狭帯域方式では音声がロボットのような声になってしまう問題があった。現在では音声符号化方式と変調方式の進歩により狭帯域方式でも問題ない音質が得られるようになっている。
音声をPCM符号化のような単純な方式でデジタル化すると、複雑な変調方式を使わない限り必要な帯域幅が元の音声信号より大幅に増えてしまう。そのため、最初期のデジタル音声暗号化装置であるSIGSALYの時代から音声信号を低いビットレートでデジタル化する音声符号化技術の研究が盛んに行われてきた。
音声波形はかなり早い振動成分を含むが、波形の性質を決める咽喉と口腔、鼻腔、舌、唇などの調音器官の動きはそれと比べると比較的緩やかであり、それらを適切にパラメータ化することができれば必要なデータを大幅に減らすことができる。実際、秘話通信で使われる多くの音声符号化方式では、人間の声を音源である声帯の音の特性や有声・無声の区別の情報と、調音器官(声道)の共鳴による周波数選択特性とでモデル化することで、単純なPCM符号化のビットレートの10分の1から100分の1程度に情報を圧縮できる。
このような考え方を最初に取り入れたものが1939年にベル研究所の技術者のホーマー・ダッドリーが発表したボコーダー(Vocoder、Voice Coderの略)と呼ばれるものである。これは、音声の周波数スペクトルを複数のチャネルに分けバンドパスフィルタで分析し、声帯の音の基本周期(ピッチ)や有声・無声の区別と共に送り、受信側でそれらの情報を使い音声を合成するものだった。その後様々な方式のボコーダーが考案されたため、この方式はそれらと区別するためチャネルボコーダーとも呼ばれる。
ベル研究所で開発された世界最初の音声暗号化装置であるSIGSALYでは、このチャネルボコーダーからの12チャネル分のアナログ出力を20mS単位で標本化すると共に6段階に対数量子化した。これを2進数に換算すると音声信号を1550bps程度に圧縮できたことになる。単純なアナログ回路だけで適切な音声の分析と合成を行うことは難しく、この頃のチャネルボコーダの音質は極めて悪かった。チャネルボコーダからの合成音はしばしばドナルドダックのような声、あるいはロボットのような声と表現される。
1960年代になるとデジタル信号処理の基礎研究が開始され、1966年頃に板倉文忠と斉藤収三により線形予測符号化方式が考案された。この方式では線形予測法を用いて音声の周波数スペクトルを表現するフィルタの係数を求める。1970年代頃にはこれを応用した機器が作られるようになり、現在でも多くの音声符号化方式でこの技術が使われている。
1985年にはCELP符号化方式が発表された。この方式は声道に相当する合成フィルターとして線形予測フィルターを、声帯に相当する音源として適応型と固定型のコードブックを使用する。有声音のような繰り返しの多い波形は適応型コードブックで効率的にパラメータ化し、線形予測と適応型コードブックで符号化できなかった残差信号の符号化には固定型コードブックを使用する。「合成による分析」の手法を用い、音声波形を再合成し聴感補正を行った後の信号と元の信号とを比較することで、コードブックから誤差が最小になるものを探索する。合成による分析は音質の向上に大きく貢献しているがその反面大きな計算量が必要で、計算量を減らすためにACELPのような多くの派生方式が考案された。 これらの方式は比較的低いビットレート (4.8-16 kbps) でも良好な音質が得られるため、携帯電話やVoIPなど多くの分野で使われている。 CELP方式を用いた音声符号化方式は、ITU-T G.723.1 (5.3 kbps), G.729 (8 kbps), G.722.2 (6.6-23.85 kbps), 及び携帯電話用のAMR(GSM/W-CDMA用), AMR-WB(W-CDMA用、AMRのワイドバンド版), EVRC(CDMA2000用), VMR-WB(CDMA2000用のワイドバンド版), SMV(CDMA2000用), PDC-EFR(PDC用)など多数ある。
さらに低いビットレートが必要な場合は、分析合成符号化、あるいは単純にボコーダーと呼ばれる方式が用いられる。これはチャネルボコーダの考え方にデジタル信号処理の技術を組み合わせたもので、声帯-声道モデルを元に人間の音声を分析してパラメータ化し符号化を行う。CELPが音声の波形が同じになるように分析を行うのに対し、この方式では聴感上同じ音声に聞こえるように符号化と復号を行う。CELPのような音声波形を意識した符号化方式は音声信号を比較的良い音質で符号化できるが、ビットレートが4kbps以下になると音声波形の再現が十分にできず音質が悪化する [139]。 それに対し多くの分析合成符号化方式は、1.2〜4kbps程度で音声を符号化でき、方式によっては0.6kbps (600bps) 程度でも了解可能な音声の符号化ができる。分析合成符号化は低いビットレートでの符号化が必要な無線通信の分野、特に衛星電話や、軍事用戦術無線通信などで音声暗号化のために使われている。
具体的な符号化方式として、主に軍事用・政府用に使われたLPC-10e (2.4kbps)、その代替として使われているMELPや改良版のMELPe (enhanced MELP, 2.4kbps/1.2kbps/0.6kbps)、衛星通信などで使われるIMBEとAMBEが知られている。
低ビットレートの音声符号化方式では音声を何らかのモデルに当てはめパラメータ化を行うため、音声信号にバックグラウンドノイズが含まれるとパラメータ化がうまく行えず、音質が悪化する。このような環境での音質の向上のための技術の一つとして、音声強調がある。これは様々なアルゴリズムを用いて音質を改善するための技術で、音声符号化ではバックグラウンドノイズを減らすための技術として用いられる。 軍用の無線機器や携帯電話のような騒音の多い野外で使うことが多い機器では、何らかの音声強調処理を行った後に符号化を行う場合が多い。例えば、携帯電話用の音声符号化方式EVRCや、軍用の暗号化戦術無線通信システムや政府用の暗号化電話のための音声符号化方式として使用されているMELPeでは符号化方式の一部として音声強調の技術が使われている。実際、MELPeは軍用車両のハンヴィー (HMMWV) やCH-47ヘリコプターなどの騒音環境で評価が行われ、それ以前の方式に対して優れた音質であることが分かっている[140]。
多くの音声暗号化装置ではストリーム暗号による暗号化が行われる。音声符号化技術により音声をデジタル化してビット列に変え、鍵ストリーム生成部が生成した鍵となるビット列と組み合わせることで暗号化されたビット列を作る。鍵ストリーム生成部では秘密鍵から擬似乱数列を生成する。音声のビットストリームと鍵ストリームとの組み合わせ方法としては排他的論理和 (XOR) を使うのが一般的である。受信側では秘密鍵から送信側と同じ鍵ストリームを生成し、受信した暗号化ビット列と再度組み合わせることで元の音声のビット列を復元する。
鍵ストリームの生成方式として、構成が簡単で周期が長い線形帰還シフトレジスタ (LFSR) がよく用いられてきた。しかし線形システムは暗号解読が容易なため、通常は何らかの形で非線形化した方式が用いられる。またAESのようなブロック暗号やSHA-1等のハッシュ関数を応用した鍵ストリーム生成方式もある。
秘密鍵のみを鍵ストリーム生成の初期値として使うと、暗号化の際に毎回同じ鍵ストリームが生成され解読が容易になってしまう。これを避けるため適当な乱数値(初期化ベクトル、IV)を秘密鍵と組み合わせ毎回異なる鍵ストリームを作成するのが一般的である。初期化ベクトルの値はそのまま受信側に送るか計算方法を共有し、受信側でも同じ値を秘密鍵と組み合わせて鍵ストリームを生成し復号を行う。
暗号強度を高めるためには、十分な長さの秘密鍵の使用、秘密鍵の適切な管理、安全性の高い鍵ストリーム生成アルゴリズムの利用、初期化ベクトルの頻繁な更新などが必要である。
デジタル方式の移動体通信で家庭用コードレスフォンとしても使われるPHS (Personal Handy-phone System) には簡易型の秘話機能が組み込まれている。音声信号は2段階のストリーム暗号により暗号化される。
PHSでの音声符号化にはADPCM方式が使われ、音声は32kbpsのデジタル信号に変換される。ADPCM方式の圧縮率はさほど高くないが、処理が単純で音質も比較的良い。符号化されたデジタル信号はまず10ビットのLFSR(線形帰還シフトレジスタ)の出力との排他的論理和によりスクランブルが行われる[141][142]。LSFRの初期値としては端末のIDの下10ビットが使用される。このスクランブル結果に対し、続いて端末に入力されている16ビットの秘密鍵を初期値とする16ビットLFSRの出力と排他的論理和をとることで最終的なビット列が得られる[142][143]。
この方式は鍵長が16ビットと短く[142][144]、鍵ストリームの生成にも単純な線形帰還シフトレジスタのみが使われている[142][144] ため解析が容易で、初期化ベクトルも使われていないため、暗号強度は低い。さらに、基地局との秘密鍵のやり取りは特別な暗号化を行うことなく平文で行われる[145]。PHSの秘話機能はアマチュアによる単純な盗み聞きの防止には有効だが、基地局と端末との間でやり取りされるメッセージをモニターすることで第三者が秘密鍵を容易に知ることができるため専門家にとって暗号強度はほとんどない。
また、PHSの後継規格として開発されたXGPやAXGPはPHSの技術と全く異なるLTE (Long Term Evolution) の技術を用いており、暗号化や認証にはLTEと同じ方式が用いられる[146]。
アナログ方式の第1世代携帯電話は特別な秘話機能を持っておらず、音声の変調方式もよく知られたFM方式だったため、盗聴は容易だった。しかしデジタル方式の第2世代携帯電話からは音声暗号化の機能が仕様として組み込まれ、アマチュアが容易に解読できるものではなくなった[147]。
第3世代のCDMA2000方式とW-CDMA方式やそれ以降の世代はより強力な暗号化機能が仕様に含まれている。
ただし、仕様上暗号化機能をサポートしていることと、実際に音声の暗号化が行われることとは異なることに注意する必要がある。秘話通信を行うためには基地局側が秘話機能をサポートしている必要がある。通信事業者のポリシー等により基地局の秘話機能を無効にしている場合、音声の暗号化は行われない。端末側が秘話機能をサポートしない場合や秘話機能を有効にしていない場合も同様である。また、暗号化は通話をしている携帯端末間で行われるのではなく端末と基地局間で行われる。基地局と端末間の暗号化がいくら強力であっても、いったん基地局で復号された音声は通常の固定電話回線と同様に通信事業者の設備内での盗聴が可能である。
携帯電話の音声暗号化と認証とはペアで行われ、一般に次のような方法で実行される。基地局から定期的にメッセージとして送出される基地局の情報を端末側で判定し、発信や着信の際に端末から基地局側に認証を要請する。これに対し基地局側が乱数(チャレンジと呼ばれる)を端末側に送り、端末側はSIMカードなどに格納された秘密鍵などの端末固有の情報を元に特定の計算を行った結果(レスポンスと呼ばれる)を基地局側に返す。基地局側でも認証センタで管理している端末毎の秘密鍵などを用いて同じ計算を行い、結果が一致すれば実際の接続処理が行われる。このような方式はチャレンジレスポンス認証と呼ばれる。PHSの場合と異なり、秘密鍵自体がメッセージでやり取りされることは無い。
この時認証で用いた乱数と秘密鍵の値を元に端末と基地局の双方で音声暗号化用の秘密鍵が生成される。この値は元となる乱数が異なるため通信毎に異なった値となる。実際に音声通信を行うフェーズでは、この音声暗号化用の秘密鍵を元に生成した疑似乱数ビット列(鍵ストリーム)を用いてストリーム暗号化が行われる。
デジタル方式の第2世代携帯電話の初期のものとしてGSMがある。1987年に規格の基本部分が決められ[148]、音声の暗号化のためA5/1と呼ばれる方式が採用され主にヨーロッパで使用された。その後A5/1の暗号強度を落とした派生方式のA5/2も採用され、その他の地域で使用されている。これらの方式には脆弱性があることがわかっており、鍵ストリーム生成のコアとなるアルゴリズムとしてKASUMIを使用するA5/3と呼ばれる方式も2002年に標準として採用された[149][150]。
A5/1はストリーム暗号の一種で、鍵ストリームの生成には3つの線形帰還シフトレジスタ (LFSR) を組み合わせて使用する。各シフトレジスタにはクロックビットがあり、これらの多数決の結果と自身のクロックビットが等しい場合のみシフトを行わせる。クロックを不規則にすることで単純なLSFRより解読が難しくなる。暗号鍵の長さは64ビットで、同じ鍵ストリームの生成を防ぐためシフトレジスタの初期値には暗号鍵と22ビットのフレーム番号とを用いる。
A5/1のアルゴリズムは非公開だったが、GSMは比較的早い時期から広く使われていたためアルゴリズムの解析やA5/1の解読方法の研究も早い時期から行われた。GSM携帯端末のリバースエンジニアリングにより1999年にアルゴリズムが解析され、一般に公開されていたテストデータにより結果が検証された。2000年には通常のPCを使いリアルタイムで暗号鍵を見つけ出すことができる方法が論文として発表された[151]。またGSMのプロトコル上の脆弱性を利用し最も暗号強度の弱いA5/2を使わせることで秘密鍵を見つけ出す方法も考案されている[152]。
第2世代携帯電話として日本で使われたPDC (Personal Digital Cellular) も、暗号鍵で初期化されたLFSRを使うストリーム暗号が使われた。
第3世代携帯電話であるCDMA2000方式とW-CDMA方式にもそれぞれ音声暗号化方式が定義されている。いずれの方式でもストリーム暗号により暗号化を行う。また両者とも鍵ストリーム生成にブロック暗号を応用したアルゴリズムが最初の標準として採用された。ブロック暗号では線形解読法や差分解読法、高階差分攻撃法などさまざまな解読方法が知られており、それらに対する解読の難しさについての理論的研究も進んでいるため、暗号の解読されにくさの評価が行いやすい[153]。
W-CDMAでは、鍵ストリーム生成のために'f8'と呼ばれる鍵ストリーム生成アルゴリズムが仕様書で定義され[154]、そのコアとなる暗号化アルゴリズムとして、日本で開発されたブロック暗号のKASUMIが標準として登録されている[155]。KASUMIには致命的なものではないがいくつかの脆弱性が見つかったため[156][157]、SNOW 3Gと呼ばれる暗号化アルゴリズムも2006年に標準として追加された[158]。同じような脆弱性を持たないようアルゴリズムはまったく異なったものが選ばれ、KASUMIがブロック暗号アルゴリズムなのに対し、SNOW 3Gは線形帰還シフトレジスタ (LFSR) を複雑化したストリーム暗号アルゴリズムである[159]。これらで使用する暗号鍵の長さは128ビットで、認証の際にも同じ暗号化アルゴリズムが使用される。鍵ストリーム生成アルゴリズムの入力には暗号鍵以外に、32ビットの暗号シーケンス番号である COUNT-C、5ビット長の無線ベアラ識別子 BEARER、1ビットの方向識別子 DIRECTION があり[160]、同じ鍵ストリームが短期間に繰り返し生成されないような工夫がされている。
CDMA2000方式では、ブロック暗号の128ビットAESがストリーム暗号化の鍵ストリーム生成用に[161]、認証のためにはCAVE (Cellular Authentication and Voice Encryption)[161]、あるいはより新しいAKA (Authentication and Key Agreement) アルゴリズムが使用される[161][162]。2.5世代携帯電話とも呼ばれたcdmaOneから段階的に発展したCDMA2000方式は過去の規格やアルゴリズムを土台に新しい機能が追加されてきた。AESによるストリーム暗号化やAKAによる認証はそのような拡張機能の1つである。
CAVEアルゴリズムを認証に用いる古典的な方式では、A-Key (Authentication key) と呼ばれる64ビットの秘密鍵(マスターキー)を元にSSD (Shared Secret Data) と呼ばれる128ビットの二次的な鍵を生成し、認証と暗号化に使用する[163]。R-UIMカード(SIMカード)を用いる場合、A-Key、SSD共にカード内に格納され通常外部から読み取ることはできない。これらのパラメータを使った計算もカード内部で行われる[164]。SSD_Aと呼ばれるSSDの上位64ビットが認証、SSD_Bと呼ばれる下位64ビットが暗号化に使われる[165]。暗号化のためにORYXと呼ばれるアルゴリズムが定義されているがあまり使われず[165]、後述のボイスプライバシー (Voice Privacy) と呼ばれる方式が主に使用されてきた[165]。
AKAアルゴリズムを用いる方式はより新しいもので、128ビットの鍵である'K'をマスターキーとして用い、これから生成した64ビットの認証鍵と128ビットの暗号化鍵を用い認証と[166]AESアルゴリズムによる暗号化を行う[167]。音声の暗号化の際には128ビットの暗号化鍵をAESアルゴリズムの入力とする。W-CDMAと同様、同じ鍵ストリームの繰り返しを避けるためシステム時間を基準とした32ビットのカウンタ値など複数のパラメータも暗号化アルゴリズムの入力として与える。
CDMA2000方式では暗号化とは別にボイスプライバシーと呼ばれる傍受しにくくする仕組みも組み込まれている。CDMA2000で使われる通信方式である符号分割多元接続方式(CDMA方式)では端末毎に固有の拡散符号を用いてスペクトラム拡散を行い、受信側では同じ符号を用いて逆拡散を行い元の信号を復元する。通常の通信では端末毎に割り当てられたESN (Electronic Serial Number) と呼ばれるパラメータから拡散符号(パブリックロングコードマスク)を計算し用いる。しかし秘話通信を行う場合は、認証に使われるSSD (Shared Secret Data) から計算した特別な拡散符号(プライベートロングコードマスク)を使用する[166]。ESNは基地局間のメッセージ内で平文でやり取りされ盗聴可能だが、SSDは直接やり取りされないためどのような拡散符号を用いているか盗聴している第三者にはわからない。この場合逆拡散が正しくできないため信号は単なる広帯域のノイズにしか聞こえず、端末からの信号の受信自体が難しくなる。
携帯電話用の新しい通信規格であるLTE (Long Term Evolution) はデータ通信専用の規格で音声データが直接やり取りされることは無いが、音声データをIP (Internet Protocol) 上のパケットデータとしてやり取りすることは可能である。この方式はVoLTE (Voice over LTE) と呼ばれる。LTEでも無線でやり取りされるビット列の暗号化のためにストリーム暗号が用いられる。鍵ストリーム生成に使用される暗号化アルゴリズムとしてW-CDMAの標準の一つでもあるSNOW 3Gと、CDMA2000で使われるAESの2種類が定義されている[168]。鍵ストリーム生成に使用される暗号化鍵の生成には、元の鍵(マスターキー)を元に二次的な鍵、三次的な鍵と順次鍵を生成し階層的に管理する方式が使われている[169]。これは基地局間の切り替わりであるハンドオーバー時や事業者間の切り替わりであるローミング時の鍵生成を高速化し[169]、さらに鍵の1つが危険にさらされた場合の被害を最小にするためである[169]。
携帯電話で使われる暗号化方式は、A5/1やA5/2のような古い方式を除けば、一般的な用途には十分な秘話性を持っている。しかし最初に記述した通り、仕様上暗号化機能をサポートしていることが盗聴できないということを意味するわけではない。GSM、CDMA2000、W-CDMA、LTEとも通信仕様の詳細は標準化を行っている3GPPや3GPP2が一般に公開しており誰でも通信プロトコルの詳細を知ることができる[170][171]。公開情報には暗号化アルゴリズムの仕様の多くも含まれている[172]。基地局や端末が使用している暗号鍵が分からない場合でも、公開されている情報のみから暗号化が行われていない通話の盗聴を行う装置を専門家が作成することは可能である。暗号化が有効な場合でも、通信プロトコルの脆弱性を用い暗号強度の低い暗号を使用するように仕向けることもできる[152]。偽の基地局を端末の近くに用意しそこから本来の基地局と通信を行うことで相手に気づかれずに盗聴する中間者攻撃も考えられている[152]。 さらに、強力な暗号化機能を使用している場合であっても、通信事業者の設備内での復号後の音声の盗聴は可能である。
例えば、アメリカでは犯罪捜査を目的に公的機関による携帯電話の盗聴が日常的に行われている。2012年には前年より24パーセント多い3393件の盗聴が連邦判事や州判事の許可のもとに行われた[173]。アメリカ合衆国連邦裁判所では犯罪調査などを目的とする携帯電話やメールなどの盗聴の統計を"盗聴レポート" (Wiretap Report) の名前で毎年公表している[173]。この盗聴には2001年から行われている暗号解読も含まれる[173]。
また、アメリカ同時多発テロ事件が起こった翌年の2002年以降、ブッシュ大統領の指示によりNSAが令状を取らない大規模な通信傍受を行っていたことも明らかになっている[174]。
NSAはアメリカ国内だけではなく友好国であるドイツのメルケル首相の携帯電話の盗聴を行っていたと言われ[175]、シュピーゲルによると2002年からモニターしていたとされる[176][177]。さらに、アメリカの政府関係者が得た連絡先の電話番号を利用し世界中の35名のリーダーの携帯電話も盗聴していたことが明らかになっている[178]。
日本でも2000年に施行された通信傍受法に基づき犯罪捜査のための通信傍受が行われている。内容は毎年法務省から国会に報告され、件数や傍受の実施状況、傍受が行われた事件に関して逮捕した人数などが一般にも公開されている[179]。報告内容には携帯電話の傍受も多数含まれる[179]。
Bluetooth(ブルートゥース)は、2.4GHzを使用するデジタル機器用の近距離無線通信規格の1つである。様々なデバイスでの通信に使用されることを想定しており、機器の種類ごとに策定された多くのプロファイルが定義されている。音声通信の用途にはヘッドセット用のHSP (Headset Profile) やハンズフリー通話のためのHFP (Hands-Free Profile) が標準化されている。
Bluetoothは比較的新しい通信規格であるため認証や暗号化も配慮されており、これらの各アルゴリズムが正しくインプリメントされ適切に使用されていれば一般的な用途には十分なセキュリティが得られる[180]。一番大きな問題点は機器の運用で、認証や暗号化の元になるパスキー(パスワード)としてデフォルト値や短い文字列("0000"など)を使用していたり、常に近くの機器と接続可能な設定になっていたりすることが多い[180]。このような場合、会話内容の盗聴や外部からの機器の不正な制御が容易にできる。また仕様の自由度が大きく、暗号鍵長やセキュリティモードを機器の製造者が決めることができる問題点もある。暗号鍵長が既定の最大値より短い場合やセキュリティモードが低い場合、盗聴の可能性は高くなる。
Bluetoothの規格は頻繁にバージョンアップされており、それに伴い認証方法や使われる暗号化アルゴリズムにもいくつかのバリエーションがある。セキュリティの強さを示すセキュリティモードとして1から4までが定義され、接続機器のBluetoothバージョンやサポートする機能に応じそのいずれかのモードで動作する[181]。モード1から4の順にセキュリティのレベルが高くなる。モード1は認証や暗号化を全く行わない。最もレベルが高いモード4はBluetoothバージョン2.1で追加されたもので、認証の方式が変わるとともに全てのサービスで暗号化が行われる。ただし接続先の機器のバージョンや機能が低い場合は、相手に合わせたモードが選択される。Bluetoothの最新バージョンであれば必ず強力な暗号化が行れるわけではない。
Bluetoothの通信は、認証と暗号化で使われる秘密鍵の元となるリンクキーの生成(ペアリング)[182]、リンクキーを用いたチャレンジレスポンス認証[183]、認証で使われたリンクキーと乱数値から生成された秘密鍵による通信データの暗号化/復号[181]、の3つのフェーズからなる。
Bluetooth機器同士が通信を行う場合、最初に128ビット長のリンクキーを生成しなければならない。セキュリティモード2と3では16バイト以下の長さのユーザが入力したPIN (Personal Identification Number) と呼ばれるパスキー(パスワード)と内部で生成した乱数を使って相互にチャレンジレスポンス認証を行い共通鍵であるリンクキーを生成する[184]。ペアリングを行ったBluetooth機器どうしの認証と暗号化の鍵は全てリンクキーから派生するため、システム全体のセキュリティの強さはPIN入力に依存する。PIN入力が4ケタ程度の小さい桁数の場合、第三者がPIN入力値を予想することは比較的容易である。もうすこし桁数を増やした場合でも、ペアリングの際に機器間でやり取りされる乱数値と認証の計算結果を傍受し総当たり式で計算を行うことでPIN入力値を調べられる。6ケタまでのPIN値であれば1秒以下、8ケタの場合でも数分でPIN入力値を求めることができる[185]。
セキュリティモード4ではSSP (Secure Simple Pairing) と呼ばれる方式でリンクキーを生成する[186]。この方式ではリンクキー生成に楕円曲線ディフィー・ヘルマン (Elliptic Curve Diffie-Hellman) 鍵交換を用いる。長いPINコードの入力ではなく、鍵から計算された6ケタの数値の入力あるいは表示内容の確認だけでペアリングができる仕様になり、より使いやすくなっている。この数値自体は機器間で直接やり取りされるわけではなく、公開鍵方式の鍵交換の結果を元に計算される。ただし小型のヘッドセットのように文字入力も表示もできない機器ではユーザの確認なしにリンクキーの生成が行われ、セキュリティ強度は弱くなる。
いったんペアリングを行ったBluetooth機器は、通信可能な距離になると自動的に認証と通信を行えるようになる。これらの機器間で通信を行う際、最初にE1と呼ばれるアルゴリズムを用いたチャレンジレスポンス認証でリンクキーが一致することを確認する[187]。認証元の装置が生成した128ビットの乱数値をチャレンジ値として認証先に送り、認証先ではリンクキー、乱数値と自分自身の48ビットBluetoothアドレスからE1アルゴリズムで計算を行いレスポンスとして認証元に送り返す。送り返すのは計算結果となる128ビットのうち上位32ビットで、下位の96ビットは後で通信時の暗号鍵の生成のために使用される。認証先でも同じ計算を行い上位32ビットを比較することで認証を行う。
認証が正常終了し接続先がペアリング済みの機器であることが確認できると、実際に機器間の通信が行われる。通信で使われる暗号鍵は、認証時の計算結果の下96ビット、内部で生成した128ビットの乱数値、128ビットのリンクキー、内部クロックから計算したスロット番号の4つのパラメータから計算する[188]。暗号鍵の長さは8ビットから128ビットまでの可変長で[189]、使用される鍵長はBluetooth機器の製造者が定義できる仕様になっているため、暗号強度は製造者ごとに異なる。
暗号化にはE0と呼ばれるアルゴリズムを用いたストリーム暗号が使われる。E0は25、31、33、39ビット長(合計128ビット)の4つのLFSR(線形帰還シフトレジスタ)と非線形の組み合わせロジックとを用いたもので[190]、生成された疑似乱数ビット列(鍵ストリーム)と信号のビット列とは排他的論理和 (XOR) で結合される。
ヘッドセットプロファイルでは、音声信号が適応デルタ変調の一種であるCVSD (Continuously Variable Slope Delta modulation) でデジタル化され、前記のE0アルゴリズムを用いて暗号化される。また、制御用の信号はシリアルポートプロファイルにより音声信号とは独立して送受信される。機器の制御用のコマンドとして携帯電話やモデムの制御などの用途でよく使われるATコマンドを用いる[191]。ATコマンド自体は非常に多機能で強力なため、不正に利用されるとBluetooth機能を持つ携帯電話などを外部から制御できてしまう問題が知られている。
NSAはBluetooth機器の使用について以下の勧告を行っている[192]。また利用は機密扱いでない用途のみとしている。
アナログ方式の秘話装置はアナログスクランブラーとも呼ばれ、アナログ信号の音声信号を加工し聞き取れないよう全く別のアナログ信号に変換する。デジタル方式との違いはアナログ通信回線を使うことで [193] 、内部処理はアナログ処理、デジタル処理のいずれでも構わない。アナログ回路を用いるもの以外に、DSPを用いてデジタルフィルター処理などを行った後に再度アナログ信号に戻すものもある。 一般にデジタル信号の伝送には広い周波数帯域の回線やノイズの少ない高品質の回線が必要とされるのに対し、アナログ信号に変換する秘話装置は音声信号と同じ帯域の無線回線や電話回線で送ることができ、送受信に使う装置もアナログ音声用のものをそのまま流用できることが多い。従来の回線や送受信機をそのまま使え導入が容易だったこともあり、長い間秘話装置の主流はアナログ方式だった。
アナログスクランブラーで用いられるアナログ信号の代表的な操作方法を以下に示す[194]。
音声周波数反転方式に代表される周波数領域の操作は最も古くから知られている方式である[195]。帯域が広がりにくく波形伝送の必要もないため既存の通信装置のほとんどに適応でき、音声の遅延も少ない[196] 。しかしスクランブル後も発話時のリズムがそのまま残ってしまう欠点がある[197]。
時間領域の変換ではいったん音声を何らかの記憶媒体に保存し並べ替えや反転などの操作を行う。発明された当初は音声を磁気媒体に記録した後に複数の固定磁気ヘッドや回転する磁気ヘッドで読みだす必要があったが、デジタルメモリの発達により実現が容易になった。メモリに記憶したサンプル値を20〜60ms単位のブロックにまとめこのブロック単位で置き換えれば帯域幅の広がりはほとんど無視できる[198]。復元した音声信号の音質は周波数領域でのブロック分けと置換の場合より良いとされている[198]。
また、周波数領域と時間領域の操作を同時に行うなど、複数の方式を組み合わせることでさらに複雑なスクランブルが可能になる。最も一般的なのは、音声信号を周波数と時間の2次元のブロックに分解しそれらを時間と周波数の両方で入れ替える方式である。
それ以外に、音声信号を変調して極性を不規則に反転させる方式(振幅反転方式)や、送信側で雑音を加え受信側で雑音を引く方式(雑音混入方式)などが知られている。
なお、周波数領域、時間領域のいずれでも、入れ替えるブロックの数が多ければ多いほど入れ替えのパターンも増えるため第三者による解読が難しくなるが、時間領域の入替の場合にはいったん内部に記憶してから入れ替える必要があり、ブロックの数を増やすほど音声自体の遅延も大きくなりエコーの問題も発生する[198]。そのためあまりブロック数を増やすことはできない。またブロックをあまり高速に入れ替えると必要な周波数帯域が広がってしまい、音声用の通信回線をそのまま流用できるというアナログ方式のメリットが生かせなくなる。 一般的なデジタル方式の暗号化処理では暗号鍵の長さが長くなるほどデータの入れ替えや変換のパターンが多くなり暗号強度が強くなるが、アナログスクランブラーでは入れ替えのパターンがあまり多くない。デジタル方式と比較すると解読は比較的容易なため、基本的に安全ではない[199]。
周波数領域のスクランブラーの例を以下に示す。
音声のFFT(高速フーリエ変換)を行い係数の並べ替えを行った後に逆FFTを行う方式も帯域分割方式と同様の考え方で、復元した音質が比較的よい[196]。
時間領域のスクランブラーとして以下のような方式が考案されている。
アナログスクランブラーの有効性を比較するの評価項目として以下のものがある[200]。
また、スクランブルした音声を受信側で元に戻した音声信号の音質(了解度や明瞭度)も重要な要素になる。
残留了解度とは評価項目で最も重要なもので、スクランブルした音声をどの程度聞き分けられるかを表す指標である[200]。音声信号はもともと冗長性がかなり高く、人間の聴覚も非常に柔軟性があるため、周波数スペクトルの変換や時間順序の入替を行っても全く聞き取れなくなるわけではない。残留了解度は意味のある単語や文章を用いて聞き取れた割合を0から100までのパーセントで表すもので、評価に使用する単語としては語彙数が限られ冗長性が低いものが扱いやすいため、数値を用いるのが一般的である[200]。0パーセントはホワイトノイズのように全く元の単語が分からない理想の状態で、10パーセントは通常の下限値、30パーセントは中間レベル、50パーセントは高い値でスクランブル後で数値や単語の半数が正しく聞き分けられることを意味する[200]。
遅延時間は音声を入力してからスクランブルした信号が出力されるまでの時間である[200]。例えば、信号をいくつかの時間毎にブロック分けして入れ替える方式の場合、ブロックの時間サイズ×ブロックの数の分だけ装置内部にいったん記憶してから出力する必要があるため、時間サイズとブロック数が大きくなるほど信号が出力されるまでの遅延時間は長くなる。遅延時間があまり長すぎると電話などで双方向のやり取りでスムーズに行えない問題が発生する。
鍵空間はスクランブルに使用可能な鍵の総数である[200]。一般的な暗号化の場合と同様、鍵空間が小さいと方式に関係なく総当たりで鍵を割り出す事が可能になるため、鍵空間はスクランブラーの解読しにくさに関係している。ただし、アナログスクランブラーの場合、鍵空間の広さだけではなく鍵を変えた際にスクランブラー出力も大きく変わることが必要になる。例えば音声周波数をシフトさせる方式の秘話装置を考えた場合、小さな周波数シフト(例えば10Hzや1Hz)を別の鍵とみなせば鍵の総数をいくらでも増やすことができる。しかし実際のスクランブラー出力は周波数シフトの小さな変化ではほとんど変わらないため、実用上の鍵空間は計算上の鍵空間よりずっと小さい。
また実際に使用可能な鍵の総数はスクランブルで使うパラメータのすべての組み合わせの数でないことにも注意する必要がある。パラメータの組み合わせのうち残留了解度の高いもの、つまり元の音声と似たようなスクランブル出力になる組み合わせは実質的に使えない。 例えば、短波帯の無線電話回線で長い間使われたA-3型秘話装置とその後継のA-4型秘話装置は、音声を5つのバンドに分け入れ替えとバンド内での周波数反転とを行う方式だったため、計算上の鍵の総数は 5!×52=3840 になる。しかし、例えば音声のエネルギーが大きい周波数帯域がスクランブル後も同じ場所に位置していたり、元々隣り合っていた周波数帯域がスクランブル後も隣り合っていたりするような入替パターンは残留了解度が高くなり容易に解読される可能性が高い。個々のバンド幅が広くないためバンド内の周波数反転の効果もあまり大きくない。そのため実際に使える鍵の総数は12程度で[193] 計算上の数よりずっと小さかった。
バンド幅の拡大もアナログスクランブラーの方式を評価する際の重要な評価項目である。一般に、音声信号をスクランブルすると信号の時間軸や周波数軸上で不連続になるためバンド幅が拡大する[200]。スクランブルを効率よく高速に行うほど不連続性が高くなるためバンド幅が拡大しやすくなる。バンド幅の拡大が大きくなると、音声信号を前提とした通常の電話回線/無線回線を利用した場合に音声の一部が伝送できずに音質が悪化する。またバンド幅の拡大が大きすぎる場合は通常の通信回線の利用ができないためアナログ方式のメリットが生かせない。
音声周波数反転 (Voice Frequency Inversion) 法、あるいはスペクトル反転法は、その名の通り音声の周波数スペクトルを反転させる秘話方式である[197]。この方式の秘話装置は単純にインバータと呼ばれる場合もある。
電話回線で一般的に扱われる0.3kHzから3.4kHzまでの音声信号の場合、例えば0.3kHzの周波数成分は3.4kHzに、3.4kHzの周波数成分は0.3kHzに変換することで周波数スペクトルの形を変え聞き取りにくくする。復調は受信側で同じ操作を行って再度反転させれば元の周波数スペクトルに戻る。
周波数反転は混合器とローパスフィルタから成る比較的単純なアナログ回路で実現できる。先ほどの周波数の場合であれば、基準となるキャリア周波数(反転周波数)3.7kHzの信号で音声信号を変調することでキャリア周波数に対する和の周波数成分(キャリア周波数+音声周波数)と差の周波数成分(キャリア周波数-音声周波数)とを発生させる。その後ローパスフィルターで差の周波数成分のみを取り出せば、音声信号の0.3kHzの周波数成分は3.7kHz-0.3kHz=3.4kHzに、3.4kHzの周波数成分は3.7kHz-3.4kHz=0.3kHzに変換できる。
簡単な回路で実現できるため最も古くから使われている秘話方式で、短波帯の国際無線電話用として1920年代から使われた。多くの国の警察無線でもデジタル化以前の通信機で長く使われ、日本のアナログ式コードレス電話の盗聴防止機能としても使われた。
古典的な音声周波数反転法は暗号鍵の概念が無いため、第三者が同じ装置を持っていれば容易に復元でき、暗号強度はほとんどない[196]。また、トレーニングを行えば周波数が反転された状態でも会話内容を理解することができる[197]。音声の中で比較的エネルギーの大きい1kHz〜2kHz付近の成分が周波数反転後も大きく変化しないためだと言われ、過去の実験によれば4時間程度のトレーニングで周波数が反転した状態でも互いに会話ができるようになった[201]。
秘話性をより高めるために、反転周波数を別の周波数に変えたり時間と共に変化させる方式を併用する場合がある。この方式は音声周波数反転と周波数のシフトとの組み合わせとみなす事もできる。
最も単純な方法は、複数の反転周波数をあらかじめ決めておき暗号鍵のように使う方法だが、多くの無線回線や電話回線では利用できる帯域幅が3kHz程度に制限されているため反転周波数を大きく変えると音声信号がこの帯域幅をはみ出し音質が悪化する。有効な反転周波数の範囲は限定される[202]。さらに、反転周波数のわずかな違いは音声の了解度に大きな影響を与えないため、各反転周波数の差はできるだけ大きくしないといけない[202]。これらの要因により実際に選択可能な反転周波数はごくわずかで[202]、この方式は暗号強度の向上にあまり役立たない。 例えば、1930年代に日本陸軍で試作された秘密有線電話機である特二号電話秘密装置が反転周波数切替方式を採用していたが[203]、選択できた反転周波数は2.3kHz、2.8kHz、3.3kHzの3種類しかなく[203]、通常の音声周波数反転方式の電話機の秘密度をわずかに強化したものにすぎなかった[203]。
さらに複雑な方法として、反転周波数を時間と共にランダムに変化させるローリングコード (Rolling Code) 方式がある[202]。これは選択された暗号鍵から疑似乱数を生成し、その値により複数の反転周波数の中から1つを選び切り替えていく方法で、反転周波数が固定している方式と比べると反転周波数の変化を盗聴者が予測しにくいため秘話性が向上する。暗号鍵と疑似乱数の生成アルゴリズムを知っている正当な受信者は同じ疑似乱数を送信側と同期して生成することで正しく元の音声に戻すことができる。
反転周波数の変化のさせ方としては、ある反転周波数から次の反転周波数へと非連続に変化させる周波数ホッピングと、周波数を連続的に変化させていく周波数スイープとがある[202]。周波数スイープでは秘話出力も連続的に変化するため、反転周波数の切り替え速度を早くしてもバンド幅の拡大が比較的少なく、音質が劣化しにくい[202]。
ただし、ローリングコードのような複雑な方式を採用した場合でも、スペクトルが反転しているだけで復調前の信号には音声固有の冗長性がそのまま残っている。音声信号の統計的な性質や音声スペクトルの変化の連続性などを利用することで、暗号鍵や疑似乱数が分からなくても元の音声信号に近い信号を信号処理により再現することが可能で[202]、ローリングコードによる秘話性の向上は限定されたものである[202]。
バンドシフト (Band Shift) 法、周波数シフト法、あるいは周波数推移法とは、音声信号全体を一定の周波数だけ移動させる秘話方法である。この方式単体では秘話性が高くないため[204]、通常は音声周波数反転など他の秘話方式と組み合わせて使われる[204]。
一般の無線回線や電話回線では帯域幅が決まっており、単純に周波数のシフトのみを行うと音声成分の一部が帯域外にはみ出し失われるため音質が悪化する。これを避けるため、はみ出した周波数成分が高域の成分であれば低域側に、低域の場合は高域側に移動させることが多い。このような方式は特にリエントラントバンドシフト (Reentrant Band Shift) と呼ばれる。これは特定の周波数を基準に音声信号を上側と下側の2つの帯域に分割しそれらを入れ替える操作に等しく、分割の基準となる周波数を変化させてもバンド幅が広がらず元の音声成分が失われない。
秘話性を高めるためには、音声周波数反転の場合と同様、基準となる周波数を時間と共にランダムに変化させるローリングコード (Rolling Code) が使われる。このような手法の秘話方式はVSB(Variable Split-Band、可変帯域分割)方式とも呼ばれる。
第二次世界大戦末期、ドイツで秘話研究を行っていたフォイヤーシュタイン研究所 (Laboratorium Feuerstein) で開発中だった秘話装置にはこの方式が使われた[47]。装置は音声信号をボコーダーで複数の信号の組み合わせに変え、その出力に3段階のリエントラントバンドシフトを行うものだった。シフト周波数をローレンツSZ-42暗号機の出力で時間と共にランダムに変化させるローリングコード方式も用いられた[48]。
帯域分割 (Band Splitting) 法、あるいは周波数分割置換法とは、信号を複数の周波数ブロックに分割した後に特定の規則で入れ替える秘話方法である[205]。例えば、0.3kHzから3.3kHzの音声信号を0.6kHzの幅の5つのブロックに分解し、0.3-0.9kHzのブロックを2.7-3.3kHzに移動させるなど、それぞれを別の周波数に移動させる。また分割したブロック内で周波数反転を行うことも多い。入れ替えのしかたや周波数反転の有無を時間と共にランダムに変化させるローリングコード方式により秘話性を高めることもよくおこなわれる。
音声信号を複数の周波数ブロックに分割する方法として、アナログ回路を使用する場合は通常のバンドパスフィルタが使用される。デジタルシグナルプロセッサなどが利用できる場合には折り返し雑音が発生しない直交ミラーフィルタなどが用いられる。
1937年にベル研究所で開発され短波帯の無線電話回線で長い間使用されたA-3型秘話装置やその後継のA-4型秘話装置にはこの帯域分割法が採用され、ローリングコード方式により20秒ごとに置換のしかたを変化させていた。周波数ブロックの数は5ブロックで、ブロック内の周波数反転も併用された。A-3やA-4の入れ替え方法の総数は計算上 5!×52=3840 あるが、秘話性が高い組み合わせはこれよりはるかに少なく12程度にすぎなかった[193]。 秘話性が高いかどうかは、置換された音声信号を実際に聞いてみて残留了解度を測定することで判断でき、以下のような事実が分かっている[205]。
実際に使用する置換パターンではこれらの事実を考慮する必要がある。置換後の周波数ブロック全体が元の位置からどの程度離れているかは、各ブロックの置換後の移動距離の全ブロック平均として定義されるシフトファクター (shift factor) を計算することで求められる[205]。
秘話性を高めるためには、シフトファクターができるだけ大きくなるような置換を行う[206]。また隣り合った周波数ブロックが置換後は離れるのが望ましい[206]。置換のパターンが常に同じだと解読はとても容易なので、ローリングコード方式を採用し音質の劣化が起らない範囲でできるだけ頻繁に置換のパターンを変更する必要がある[206]。
アナログフィルタ使用時、その特性の制限から分割できる周波数ブロック数には限度がある。周波数の分割数が少ない場合、周波数ブロックを置換する組み合わせの数が少なくなる。実際に秘話装置として実用になる秘話性が高い組み合わせはさらに少ない。そのため、分割数が少ない帯域分割法は十分な暗号強度を持たない[196]。 実際、アメリカ政府高官用の国際電話回線で使われたA-3は、第二次世界大戦が始まるとドイツにより24時間体制で盗聴されていたことが分かっている[31][32]。
この方式の応用として、離散フーリエ変換 (DFT) を用いてフーリエ係数を求め、係数の置換を行った後に逆DFTでアナログ信号に戻す方式がある。DFT/逆DFTによる時間遅延が発生するが、比較的音質が良く[196] 80〜90程度の分割が容易に実現できる[196][207]。係数の置換パターンを決める際に秘話性の低い組み合わせをできるだけ除外するのは周波数ブロックの分割数が少ない場合と同様である。
時間セグメント置換 (Time Segment Permutation, Time Element Scrambling) は特定の長さの音声信号を複数の時間ブロック(セグメント)に分け、置き換えを行う秘話方法である[208][209]。音声に含まれる周波数成分は時間と共に連続的に変化していくが、セグメントの置き換えを行うことでこの連続性が無くなり聞き取りにくくなる。この方式ではいったん音声を何らかの記憶媒体に保存し、書き込みとは別の順序でセグメント単位に読みだすことで置換を行う。一般的には特定の長さ(フレーム長)の音声信号に対して置換を行う。周波数領域でのスクランブルと異なり、この方式では必ず音声の遅延が発生する。また送信側と受信側とが同じ置換を行うためにタイミング同期の手段が必要になる。復号後の音質は帯域分割の置換方法より良いとされるが[198]、秘話性はあまり高くない[210]。
この方式は第二次世界大戦中に多くの国で研究が行われ、アメリカの戦術通信用秘話装置SIGJIPなどで使われた。当時は複数の読み取りヘッドを持った複雑な磁気記録装置が必要だったが、現在では音声信号をデジタル信号に変換しデジタルメモリに記憶させて読みだせばよいため、容易に実現できるようになった。
この方式では、セグメントの長さや1フレームあたりのセグメントの数、音声の遅延時間はすべてトレードオフの関係にある。セグメントの長さが短かすぎると波形の連続性が崩れて帯域幅が広がり音質が悪化するためあまり短くできない。しかし長すぎる場合は1セグメント内の情報が多くなり秘話性が低下する。置換の単位となるフレーム全体の長さはセグメント長と1フレームあたりのセグメント数が増えるほど長くなる。音声の遅延が増えるためスムーズな会話ができなくなる。音声の遅延を減らすためにセグメント数を少なくすると置換の組み合わせも少なくなるため十分な暗号強度が得られない。遅延時間や音質のバランスを考慮し、1フレームあたりのセグメント長は帯域幅の広がりがほとんど無視できる20〜60mS程度[198][208]、1フレームのセグメント数は8から10程度が選ばれる[208]。各セグメントの置換方法が常に同じだと解読は容易なので、置換方法を時間的に変化させることが多い。
セグメント数として8を選んだ場合、置換の組み合わせは計算上 8!=40320 通りあるが、全ての組み合わせが実際に使えるわけではない[208]。秘話性は置換の仕方により変化し、元の音声波形とあまり大きく違わない組み合わせは使用できない。スクランブル後の信号の残留了解度の予測は難しい場合があり、ヒアリングテストにより残留了解度が低くなるような組み合わせを選択する[208][209]。 また、複数の置換方法を切り替えて使う場合、ある置換方法でスクランブルした出力を別の置換方法で復号した場合の残留了解度が低くなるようにする必要がある[208]。
時間セグメント置換の方式は、大きく分けてホッピングウィンドウ (Hopping Window) 方式とスライディングウィンドウ (Sliding Window) 方式の2種類がある。ホッピングウィンドウは音声信号を一定の時間長のフレームに切り出し、それぞれのフレームの内部でセグメントの置換を行った後に送出する方式である。スライディングウィンドウではセグメント単位で連続的に処理を行う方式で、音声信号を1セグメントずつ読み込みながら過去の1セグメントのいずれかを選んで出力していく。
ホッピングウィンドウ方式は最も単純で素直な方式である。システム全体の遅延時間も容易に計算できる。送信側でのフレーム単位のスクランブルのためにフレーム長分の遅れが発生し、受信側でもフレーム単位で元の音声信号に戻すため同じ時間遅延する。1フレームのセグメント数を n、セグメント長を T とすれば、システム全体では必ず 2nT の遅延時間が発生する[209]。1フレームを8のセグメントに分けセグメント長として50mSを選んだ場合、送信から受信までのシステム全体の遅延時間は0.8秒となる。これは会話中に遅延に気が付く程度に大きな時間と言える[209]。
スライディングウィンドウ方式の遅延時間の計算はもっと複雑になる。送出するセグメントとして任意のものを選べる場合、どのようにセグメントを選ぶかにより遅延時間が変わり、いつまでも送出されないセグメントが生じえるため受信側で無限に近い長さのバッファが必要になってしまう。このような問題を避けるため、セグメントの最大遅延時間を設定し制御を行う。セグメント長を T、最大遅延時間に相当するセグメント数を k とし、この時間に達したもっとも古いセグメントは直ちに送出されるよう制御を行うと、この方式の遅延時間は (k+1)T になる[209]。スライディングウィンドウ方式ではホッピングウィンドウ方式と比較し遅延時間をほぼ半分にできる[209]。受信する側では送信側と同期して送出されるセグメントを受け取り元の信号を再構成する必要があるが、この方式では過去に送出されたセグメントの情報が同期と再構成のために必要で、途中から受信を始める場合に同期をとるのが難しいという問題点がある[209]。
周波数領域、時間領域のいずれのスクランブル方式でも、単体では残留了解度を十分に下げられない[211]。秘話性を高める一つの方法は、周波数領域のスクランブルと時間領域のスクランブルとを組み合わせることである。この方式は時間・周波数スクランブルや二次元スクランブル (Two-Dimensional Scramble) と呼ばれる。 周波数スクランブルで音声の周波数スペクトルの形を変えると共に、周波数スクランブルだけでは残ってしまう音声のリズムを時間スクランブルで分散させることにより秘話性を高める。この方式は、例えば第二次大戦中にソビエトで開発されスターリングラード攻防戦の頃にモスクワ-トビリシ間の無線電話などで使用された秘話装置"Sable-P"(露: Соболь-П)で使われた[58]。
時間領域、周波数領域のそれぞれのスクランブル方式の組み合わせにより多くの方式が考えられるが、代表的なものは時間セグメント置換と帯域分割とを組み合わせるものである。これは音声信号を時間軸と周波数軸の二次元にブロック分けしそれらを置換する方式で、時間・周波数セグメント置換 (Time-Frequency Segment Permutation) とも呼ばれる。方式が複雑で使用するメモリも単純な時間セグメント置換と比べると多く必要になるが、秘話性や暗号強度は向上する。DSP技術の発達に伴い実装も比較的容易になった。時間領域のみでセグメント置換を行う方式の残留了解度は50%程度なのに対し[210]、時間、周波数それぞれでセグメントに分けて置換を行う時間・周波数セグメント置換では20%程度と低く[210]、秘話性はかなり向上する。
変換領域スクランブル (Transform Domain Scramble) とは何らかの線形変換を用いてスクランブルを行う方法である[212]。サンプリングした音声信号を変換により全く異なる係数に展開した後に係数の並べ替えを行い、逆変換により時間領域のアナログ信号に戻して送出する。受信側では、受信した信号をサンプリングして送信側と同じ変換を行い、得られた係数列を送信側と逆に並べ替えて元の配置に戻してから逆変換を行って音声信号を復元する。デジタル信号処理とハードウェアの発達により、このような処理を手軽に行うことができるようになった。
使用される変換として、離散フーリエ変換 (Discrete Fourier Transform, DFT)、離散コサイン変換 (Discrete Cosine Transform, DCT)、離散ウォルシュアダマール変換 (Discrete Walsh Hadamard Transform) や偏長球波動関数 (Prolate Spheroidal Wave Function) を用いる方法などがある。離散フーリエ変換を用いる場合は音声信号を周波数領域で置換を行う帯域分割方式の一種と考えることもでき、アナログフィルタを用いる古典的な方法と比べはるかに秘話性を高くできる[196][207]。
これらの変換の中で、DFTやDCTはスクランブル後の信号の了解度である残留了解度が低い[212]。インプリメントも比較的容易である。
変換は一定の長さの時間単位(フレーム)で行われ、その中に含まれる N 個の音声信号のサンプル値を変換により別の N 個の係数に展開する。送信側と受信側とでフレーム単位に処理が行われるため、音声の遅延時間はサンプル値の数 N が増えるほど大きくなる。同時に、N が大きくなるほど係数を置換する組み合わせが増えるため暗号強度が高くなる。これらのバランスと処理の容易さから、一般的に N として256前後の値が選ばれる[213]。
暗号強度に関係する係数の置換の組み合わせの数は最大 N! になるが、帯域分割方式の場合と同様、全ての組み合わせが使えるわけではない。スクランブル後の信号の了解度である残留了解度の高い組み合わせは使えない。実際には、元の係数の位置と置換後の位置の差ができるだけ大きくなるような組み合わせのみが使われる。またフレームごとに組み合わせを変化させることで解読を困難にする。
この方式は残留了解度が低く暗号強度も他のアナログスクランブラーと比べ高くできるが、通信路の影響を受けやすいという問題点もある[213]。アナログフィルターを用いた帯域分割方式のような古典的な方式では波形が正しく伝送されなくても受信側では問題なく復調できるが、変換領域スクランブルでは伝送される信号の波形が大きく変わると受信側で同じ変換を行っても元の係数を正しく復元できず、受信結果が元の信号と大きく異なってしまう。アナログ音声用の多くの通信装置や伝送路は波形伝送についてあまり考慮されていないため、このスクランブル方式をそのまま使用するとひずみが大きくなり十分な性能を得ることができない。そのため、本方式で十分な性能を得るためには、伝送路のひずみや周波数で異なる遅延特性を補償するチャネルイコライザー技術が重要になる[213]。
音声信号を直接操作するスクランブル方式として極性反転方式や雑音混入方式が古くから知られている。
極性反転方式は音声のサンプル値を疑似乱数を使い不規則に極性反転する方式である[198]。受信側でも同じ疑似乱数で極性反転することで元の音声信号を復元できる。この方式は残留了解度が低いが、波形伝送が必要で通信路の影響を受けやすい[198]。また、どのように不規則な極性反転を行ったとしても単純な全波整流回路で極性反転の効果をキャンセルでき、波形は異なったものとなるが、容易に解読できるという欠点がある[214]。このような解読方法は第二次世界大戦の頃から知られていた。
雑音混入方式は音声にあらかじめ用意した雑音を加える方式である[214]。受信側では同じ雑音を引くことで元の音声信号を復元する。この方式では元の音声信号が聞き取れないようかなり高い振幅の雑音信号を加える必要がある。そのため、伝送路の非線形性や遅延特性のばらつきなどにより波形が崩れると受信側で雑音をキャンセルしきれず、高レベルの雑音が残ってしまう。一般にこの方式は復調した音声のS/N比が十分でない[214]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.