Loading AI tools
Из Википедии, свободной энциклопедии
Аудиоскремблер (англ. scramble — шифровать, перемешивать) — программное или аппаратное устройство, выполняющее скремблирование звука — обратимое преобразование звукового сигнала, основанное на изменении соотношений между временем, амплитудой и частотой звукового сигнала[1]. Скремблирование звука является одним из видов шифрования. Аудиоскремблеры используются для шифрования речевых сигналов и участвуют в обеспечении конфиденциальности телефонных переговоров[2].
Основным отличием аудиоскремблеров от других устройств, выполняющих шифрование звуковых сигналов, является то, что аудиоскремблеры могут шифровать непрерывный аналоговый сигнал, не подвергая его оцифровке[3].
Речевой сигнал несет как основную текстовую информацию, так и дополнительную в виде ударений и интонаций, а также сведения о голосовых характеристиках говорящего, что может позволить идентифицировать его по голосу[4].
В первую очередь скремблеры работают с непрерывными сигналами[3]. Непрерывные сигналы характеризуются своим спектром. Спектр сигнала — это эквивалентный ему набор синусоидальных составляющих (называемых также гармониками или частотными составляющими). Спектр сигнала получается разложением функции, выражающей зависимость формы сигнала от времени, в ряд Фурье[5]. Типичный спектр речевого сигнала показан на рис. 1[6].
Элементарными единицами слуховой информации являются элементарные звуки — фонемы, а смысловыми единицами — звучащие слоги, слова и фразы[7].
Множество фонем разбивается на три класса. Гласные образуют одно семейство, согласные — два класса, называемые взрывными и фрикативными звуками[8]. Гласные звуки производятся в течение длительного времени. Как правило, требуется около 100 мс для достижения его пиковой амплитуды. Взрывные звуки характеризуются их высокочастотными составляющими — 90 % их пиков амплитуды имеют длительность, не превышающую 5 мсек. Фрикативные звуки производятся частичным перекрытием воздушного потока, что дает звук, похожий на «белый шум». Фрикативный звук имеет пики амплитуды длительностью 20-50 мс и сконцентрирован по частоте от 1 до 3 кГц[9].
Другой важной характеристикой человеческой речи является частота основного тона — это частота вибраций голосовых связок. У каждого говорящего человека частота основного тона индивидуальна и обусловлена особенностями строения гортани. В среднем для мужского голоса она составляет от 80 до 210 Гц, для женского — от 150 до 320 Гц[10].
Таким образом, смысловая информация в речевом сигнале сконцентрирована в основном в частотном диапазоне от 300 Гц до 3000 кГц, а частоты в диапазоне от 80 Гц до 320 Гц несут информацию о голосе говорящего.
При оценке стойкости шифрования речевых сигналов необходимо учитывать возможности человеческого восприятия при прослушивании шифросигнала и попытке восстановить какую-либо информацию. В связи с этим говорят о так называемой остаточной разборчивости сигнала[1].
Это восприятие очень субъективно: одни люди воспринимают информацию на слух значительно лучше других. Например, хорошо известно, что родители понимают «речь» своих детей задолго до того, как её начинают понимать другие люди. Человеческий мозг способен адаптироваться к «добыванию» информации и быстро анализировать услышанное, поэтому, оценивая надежность шифрования, целесообразно несколько раз подряд прослушать скремблированные телефонные сообщения[11].
При скремблировании речевой сигнал может быть преобразован по трём параметрам: амплитуде, частоте и времени. Возможные помехи в канале связи оказывают влияние, в первую очередь на амплитуду сигнала, в связи с чем амплитуднные перобразования применяются редко[12]. Наиболее часто используются преобразования в частотной и временной области, а также их комбинации.
Основные методы скремблирования звуковых сигналов:
Простейшее из преобразований — инверсия спектра. Его результатом для сигнала в ограниченом диапазоне будет исходный сигнал, инвертированный относительно средней частоты в поддиапазоне. На рисунках 2 и 3 представлены примеры исходного и инвертированного сигналов[14].
Преобразование инверсии не зависит от секретного ключа. Это кодирование, являющееся нестойким против атак противника, обладающего аналогичным оборудованием[14].
Другой способ изменения сигнала в частотной области — деление диапазона. Спектр сигнала делится на некоторое число равных поддиапазонов, которые могут меняться местами друг с другом. К этому можно добавить также возможность инвертирования для некоторых поддиапазонов.
В качестве примера можно рассмотреть сигнал, изображенный на рис. 4. Частотный диапазон разбит на пять равных частей, которые переставляются в соответствии с указаной нумерацией, при этом первая и пятая части инвертированы[14] (см. рис. 5).
Всего имеется 5! возможных перестановок и возможностей для инвертирования. Итого — вариантов преобразований сигнала. Ещё хуже обстоит дело с остаточной разборчивостью. Если использовать лишь перестановки полос, то для большинства из них остаточная разборчивость достигает 10 %, что не дает гарантии стойкости[14]
То же можно сказать вообще о любом скремблере, использующем лишь действия с частотной областью. Их применение ограничивается лишь ситуациями, когда целью является препятствие пониманию разговора для случайного слушателя или противника, не обладающего подходящим оборудованием[15].
В основе методов скремблирования, воздействующих на временной диапазон сигнала, лежат следующие принципы.
Аналоговый сигнал делится на равные промежутки времени, называемые кадрами. Каждый кадр, в свою очередь, также делится на ещё меньшие части, называемые сегментами. Входной сигнал преобразуется путём перестановки сегментов внутри каждого кадра[16].
Этот процесс можно проиллюстрировать следующим примером.
На рис. 6 кадр разделен на 8 сегментов. Затем сегменты переставляются в соответствии с перестановкой
При настройке системы выбираются длины кадров и сегментов. Так как внутри сегмента сигнал не разрушается, то сегменты следует выбирать настолько короткими, чтобы в них не содержались целые фрагменты сообщения, например отдельные фонемы или слоги. С другой стороны, длина сегмента значительно влияет на качество звучания передаваемого сигнала, что объясняется чисто техническими причинами. Чем меньше сегмент, тем ниже качество звучания. Поэтому в выборе длины сегмента необходим разумный компромисс[17].
При выборе длины кадра необходимо учитывать фактор временно́й задержки между входным сигналом, поступающим в аппаратуру, и восстановленным сигналом на приеме. Передача скремблированного сигнала не может начаться прежде, чем в скремблер не будет введен весь кадр. Получатель так же не может начать расшифровку до получения всего кадра. Таким образом, задержка при передаче сигнала составит удвоенное время кадра. С точки зрения пользователя это нежелательно, и подобная задержка должна быть минимизирована. Однако для повышения надежности засекречивания желательно использовать достаточно длинные кадры и сегменты, своей длительностью не превышающие длительность самых коротких фонем языка. Однако, при передаче скремблированного сигнала по каналу связи происходит естественное сглаживание сигнала в точках разрыва (см. рис 5). После расскремблирования сигнала такое сглаживание негативно отражается на качестве звука, поэтому увеличение количества сегментов (и, как следствие, количества разрывов) приводит к понижению качества звука на принимающем устройстве[17].
Помимо выбора длин кадров и сегментов важным параметром является выбор перестановки. Для надежного шифрования следует использовать новую перестановку в каждом кадре, а генерацию перестановок выполнять с помощью генератора случайных (или псевдослучайных) чисел. При этом следует учитывать, что некоторые перестановки обеспечивают плохое перемешивание сегментов внутри кадра, и, как следствие, увеличивают остаточную разборчивость сигнала[16].
С точки зрения разработчика необходимо найти баланс между минимальной остаточной разборчивостью, качеством расскремблированного звука и минимальной временной задержкой.
Согласно принципу Керкгоффса, алгоритмы шифрования и свойства криптосистемы заранее известны криптоаналитику противника — поэтому следует отталкиваться от того, что противник знает длину кадров и сегментов, используемых в скремблере. В таком случае крайне опасным является использование ненадежных генераторов псевдослучайных последовательностей. Тогда дескремблирование некоторого числа кадров путём полного перебора всевозможных перестановок может позволить определить часть псевдослучайной последовательности[18], на основе которой можно восстановить всю последовательность и дескремблировать весь сигнал[1].
Предположим, что система стойка к описанному подходу. Это означает, что единственный путь, при котором криптоаналитик может получить сообщение, состоит в дескремблировании каждого кадра (или части кадров, достаточных для извлечения информации из речевого сигнала)[19]. При таком подходе криптоаналитик столкнется со сложностью автоматизации распознавания осмысленного речевого сигнала. Даже при частичной автоматизации этого процесса криптоаналитику придется самостоятельно прослушать большое количество дескремблированных сигналов (при этом каждый кадр сигнала необходимо дескремблировать отдельно), чтобы выяснить их осмысленность[1].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.