Remove ads
Технология сжатия изображений Из Википедии, свободной энциклопедии
DjVu (от фр. déjà vu — «уже виденное») — технология представления и хранения документов (книг, журналов, рукописей и подобных, прежде всего сканированных) с использованием сжатия изображений с потерями.
DjVu | |
---|---|
Расширение |
.djvu [1] или .djv [1] |
MIME-тип |
image/vnd.djvu image/x-djvu |
Сигнатура | AT&TFORM |
Разработчик | AT&T Labs-Research, LizardTech (с марта 2000[2]) |
Опубликован | 1998 |
Последний выпуск | 27 (июль 2006[3]) |
Тип формата | Электронный документ |
Открытый формат? | Да |
Сайт | djvu.org (англ.) |
Медиафайлы на Викискладе |
Изначально технология была разработана Яном Лекуном, Леоном Боту и Патриком Хеффнером в AT&T Labs с 1996 по 2001 годы.
Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения загрузки файла. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовать удобную навигацию в DjVu-книгах.
Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, по умолчанию понижается для экономии места. Передний план содержит цветовую информацию о маске; его разрешение обычно понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования, а маска — алгоритмом JB2.
Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.
Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi, средний размер страницы составляет около 15 Кб, то есть приблизительно в 100 раз меньше, чем исходный файл. В присутствии сложного заднего плана выигрыш объёма составляет обычно 4—10 раз. Однако при стандартных настройках в DjVu используется сжатие данных с потерями, поэтому для особо важных документов обычно используются форматы сжатия без потерь: PNG, JPEG 2000, TIFF и т. п. Например, сжатие без потерь предоставляет утилита CJB2 из пакета DjVuLibre.
В основе формата DjVu лежат несколько технологий, в том числе разработанных в AT&T Labs:
Формат DjVu предусматривает наличие текстового слоя, который содержит текст со страницы (используется для поиска и лёгкого копирования текста при работе с ним). В случае, если текстовый слой недоступен, единственный метод получения текста — выполнение оптического распознавания в сторонних программах.
В марте 2000 года[2] AT&T продали технологию компании LizardTech[4], которая пыталась использовать её в своих коммерческих интересах, но благодаря открытости формата[5] для создания и просмотра документов DjVu существует свободное программное обеспечение, доступное для различных платформ. 1 июля 2008 года LizardTech передал менеджмент DjVu родительской компании Celartem[6], а 10 июня 2009 года Celartem передал права на технологию DjVu компании Cuminas (ранее Caminova[7])[8].
Существует открытая публикуемая под лицензией GNU GPL библиотека DjVuLibre и программы-кодировщики и просмотрщики на ней.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.