Tехнология сжатия файлов изображений DjVu

SOFT

В настоящее время бурное развитие телекоммуникационных сетей, в том числе и Интернета, выдвигает большие требования к скорости сжатия и декомпрессии, а также к размерам передаваемых файлов изображений. Не всегда имеющиеся на сегодняшний день технологии удовлетворяют этим требованиям, вследствие чего возникают сложности с использованием изображений в реальном времени.

В этой статье речь пойдет о DjVu – новейшей технологии сжатия файлов изображений от компании LizardTech, возможности которой на порядки выше возможностей существующих технологий.

Компания LizardTech приобрела эту разработку у AT&T Labs и затем доработала ее до состояния, пригодного к продаже, в виде компьютерной программы для корпораций и частных лиц.

Рассмотрим сначала назначение и основные достоинства DjVu.
DjVu – технология, преобразующая отсканированные документы (книги, каталоги и т. д.) в файлы малых размеров, сохраняющие высокое качество исходного изображения, которые могут передаваться и размещаться в Интернет- и Интранет-сетях.

Следует отметить, что технология DjVu прежде всего ориентирована на различные документы, содержащие смешанную информацию – в основном текстовую и графические изображения. Для представления и преобразования сложных графических изображений, таких как, например, фотографии, существует другая технология от LizardTech – MrSID.

Новая технология DjVu сжимает файлы изображений до рекордно малых размеров без потери четкости и разрешения изображения. Так, если отсканировать цветные документы с разрешением 300 dpi, содержащие текст и картинки, то в формате DjVu они будут иметь размеры в 10-20 раз меньшие, чем в формате GIF или JPEG, при прочих равных условиях и одинаковых параметрах.

Что же касается сравнения PDF-файлов и DjVu-файлов, то файлы в формате DjVu могут иметь размеры в 50-100 раз меньшие, чем в формате PDF. Например, цветная страница документа в формате PDF, имеющая размер 12 Mb, в виде файла DjVu имеет размер всего 80 Kb.

Кроме того, данная технология позволяет сжимать файлы в 150 раз быстрее, чем это делается с использованием форматов PDF, и в 20 раз быстрее, чем при использовании форматов JPEG или GIF.

Как же достигаются такие высокие скорости кодирования и малые размеры сжатых файлов?
Все дело в особенностях обработки исходного отсканированного изображения, осуществляемой с помощью данной технологии.

DjVu выделяет из исходного отсканированного изображения два слоя: слой, содержащий высококонтрастные изображения – текст, а также штриховые рисунки (контуры), и слой, содержащий графические изображения, фотографии, цветной фон. Далее каждый слой кодируется соответствующим методом, обеспечивающим максимальные скорость и степень сжатия для данного слоя и максимальное качество.

При сжатии файла с использованием DjVu имеют место некоторые потери информации. Основной информационный слой исходного отсканированного изображения кодируется без потерь, в то время как для кодирования слоя, соответствующего фону, используется сжатие с потерями. Однако при просмотре DjVu-документов эти потери не будут заметными.

Следует отметить, что методы сжатия информации, используемые в JPEG и GIF, допускают значительно большие потери, чем DjVu.

Компанией LizardTech разработан целый ряд программных продуктов с технологией DjVu – от DjVu Solo для индивидуального использования до DjVu Enterprise для офисных систем.

Работа в программе DjVu Solo в упрощенном виде сводится к двум этапам:
1) сканирование изображения; 2) преобразование в формат DjVu и некоторые простейшие преобразования полученного файла. После опубликования DjVu-файла в сети Интернет возможен его просмотр с помощью DjVu Web Browser Plug-in.

Программные продукты DjVu позволяют производить различные операции над отсканированными документами. Так, программы DjVu Solo и DjVu Editor (для Linux) позволяют редактировать полученные файлы. (Скоро также появится редактор DjVu Editor для Windows.) Другой программный продукт – DjVu Enterprise – предусматривает операцию поворота изображения (rotation) на определенный угол.

DjVu Web Browser Plug-in позволяет встраивать файлы DjVu в HTML-страницы. Кроме того, с помощью программ DjVu Solo и DjVu Editor возможно добавление гиперссылок в файлы DjVu.

С помощью специальной утилиты PDF/PS to DjVu Conversion utility можно осуществлять преобразование PDF- и Postscript-файлов в формат DjVu.

Однако не все операции редактирования и обработки изображения доступны в существующих программных продуктах DjVu на данный момент. Так, например, пока что отсутствует операция выделения фрагмента исходного изображения (crop). Осуществление этой операции возможно в других программах перед преобразованием изображения в формат DjVu.

Совсем недавно была выпущена новая версия DjVu Solo – DjVu Solo 3.1, содержащая программу распознавания образов (OCR), которая позволяет искать в отсканированном и сжатом документе с иллюстрациями ключевые слова. Стоимость данной программы составляет примерно 0.

Упрощенная версия данной программы не содержит модуля OCR и, следовательно, не позволяет производить поиск по ключевым словам. Но она поставляется бесплатно и ее можно скачать на сайте компании LizardTech – www.lizardtech.com.

Минимальные системные требования для работы с данной программой следующие:
CPU Pentium 100 MHz, RAM 32 Mb.

DjVu Solo 3.1 работает под управлением ОС Microsoft Windows 95/98/2000 или Windows NT 4.0. Необходимо наличие Internet Explorer версии 5.0 или выше, или Netscape Navigator 4.0-4.7.

Программу DjVu Web Browser Plug-in также можно скачать с сайта компании LizardTech.

В заключение следует сказать, что благодаря своим высоким возможностям технология DjVu найдет широкое применение как среди обычных пользователей, так и в офисах больших компаний.

Михаил Азаров