• Narrow screen resolution
  • Wide screen resolution
  • Auto width resolution
  • Increase font size
  • Decrease font size
  • Default font size
  • default color
  • red color
  • green color

Официальный сайт Дяди Зорыча

Saturday
Jun 24th
Главная arrow ПО/Комп/Интернет arrow Текстографическое дежа вю
Текстографическое дежа вю Версия для печати
Написал Максим ИВАНОВ   
27.02.2011

Как перевести печатный документ в электронный вид? Нет ничего проще: сканировать или сфотографировать и сохранить как изображение. Однако при сканировании толстой книги мы получим несколько сотен разрозненных изображений. "Читать" такой документ будет крайне неудобно. Кроме того, файлы будут достаточно много весить. К примеру, одна страница черно-белого документа с разрешением 300 dpi формата А4 весит порядка 1 Мб. Есть другой вариант: распознать сканированные страницы документа и превратить их в текстовый формат (doc, rtf, txt и т. п.). Но этот способ не подходит в случае сложных исходных данных (текст плюс рисунки, формулы, графики, схемы, таблицы, наличие рукописных символов). Также отдельной проблемой является перевод в электронный вид тех документов, где важно сохранить не только содержание, но и его внешний вид. >>>

Немного теории

В конце 1996 года компания AT&T Labs Research начала разработку нового стандарта сжатия изображений с потерями, специально создаваемого для хранения сканированных документов. С тех пор права на технологию не раз переходили из рук в руки, но формат .djvu прижился, и теперь на нем базируются десятки различных электронных библиотек (в том числе ряд крупных научных). Ныне лицензией владеет компания Caminova, которая разрабатывает различное ПО для работы с этим форматом. Кроме того, существует открытая библиотека DjVuLibre, на которой базируется свободное программное обеспечение.

Итак, в чем заключается суть технологии DjVu? Для оптимального сжатия цветных документов исходное растровое изображение разделяется на три слоя: черно-белая (однобитовая) маска, передний слой и задний слой. В первом слое содержится изображение четких деталей (обычно это текст и картинки с резкими границами). Он сохраняется с разрешением исходного файла. Задний план — это иллюстрации и текстура страницы. Разрешение заднего плана ниже. Третий слой — это цветовая информация о деталях, не вошедших в передний слой. В этом случае разрешение понижается еще больше.

После данной процедуры каждый слой сжимается наиболее оптимальным алгоритмом. Однако в DjVu используются алгоритмы сжатия с потерями, поэтому происходит ухудшение качества итогового документа. В большей степени это относится к фотографиям и фону, а текст, чертежи, рисунки практически не теряют в качестве. Если нужно получить максимальное качество, увеличивают разрешение при сканировании либо используют другие, менее удобные графические форматы.

Чаще всего достаточно получить простой двухцветный черно-белый документ. Поэтому при переводе в DjVu используется только один слой. В таком случае одна страница с разрешение 300 dpi формата А4 может весить 10-15 Кб.

Получается, при помощи данной технологии мы получаем документ схожего качества по сравнению с другими форматами, но обладающий меньшим размером. Причем на выходе можно получить многостраничный документ (DjVu также поддерживает возможность создания одностраничных документов).

Но это еще не все преимущества. При создании DjVu-документа обычно создается текстовый слой, благодаря которому становится возможным полноценный поиск по книге, а также копирование из документа. Если же такой слой отсутствует, "вытащить" текст из документа можно будет только с помощью программ распознавания текста. Также возможно создание на текстовом слое активных ссылок, интерактивного оглавления, что упрощает навигацию по многостраничному документу.

DjVu vs PDF

Казалось бы, DjVu схож с форматом PDF. И зачем использовать первый, если адобовский формат более распространен? Однако по сути это разные форматы, созданные для различных целей.

PDF (Portable Document Format) — кросс-платформенный формат электронных документов, базирующийся на языке Postscript. В документ-контейнер формата PDF могут включаться текст, шрифты, векторные, растровые изображения, мультимедийные и иные объекты. PDF изначально создавался для работы в полиграфии, сейчас также активно используется для организации электронного документооборота.

DjVu — растровый формат, PDF базируется на векторных объектах. За счет этого при масштабировании PDF-документа качество не ухудшается (разумеется, при правильно созданном PDF). А при сканировании документов мы получаем растровое изображение, которое нельзя просто так превратить в векторный формат. PDF создается из электронных документов, DjVu - из сканированных.

DjVu распространен намного меньше, требует для своего просмотра специальный плагин для браузера либо программу-просмотрщик. Для просмотра PDF также требуется дополнительное ПО, однако во многих браузерах возможность просмотра PDF имеется по умолчанию. Есть и еще один минус: формат PDF стандартизирован организацией ISO, формат DjVu — нет. Также DjVu-файлы, выложенные во Всемирную сеть, в отличие от PDF не индексируются поисковыми системами.

При конвертации из DjVu в PDF размер файла существенно увеличится. Качество же останется прежним. Противоположная процедура (PDF > DjVu) также не имеет особого смысла, так как качество ухудшится и возможны сложности при конвертации.

Вьюверы для DjVu

Для просмотра DjVu-документов в ОС Windows/MacOS/Linux и других необходимо инсталлировать специальную программу-просмотрщик либо поставить плагин для браузера (проще всего найти для Internet Explorer). Также для просмотра DjVu можно установить плагины для ряда популярных графических вьюверов (IrfanView, ACDSee). Однако в таком случае корректный просмотр не гарантируется. Существуют утилиты для просмотра DjVu-документов на некоторых мобильных платформах.

Широко известны всего несколько вьюверов, наибольшей популярностью среди бесплатных пользуются WinDjView и DjVuLibre. Эти программы схожи как по дизайну, так и функциональности, поэтому вкратце рассмотрим только WinDjView. Он обыгрывает конкурента по удобству пользования.

WinDjView
WinDjView
При открытии документа в WinDjView в рабочем окне появляются две панели. В левой показываются страницы-миниатюры книги для более удобной навигации. В правой — текущая страница. Панели можно регулировать по ширине. Миниатюры можно уменьшать и увеличивать. Программа поддерживает систему вкладок для открытых документов. Также можно открывать каждый файл в отдельном окне.

WinDjView обладает следующими режимами просмотра: непрерывный листинг или "листать подряд", показывать по одной странице или разворот. Доступны несколько ступеней масштаба страницы, можно также увеличить отдельную область. Поворот страниц возможен на 90 и 180 градусов. Присутствуют полноэкранный режим отображения и специальные: цветной, черно-белый, передний план, задний план. Навигация и скроллинг очень удобные и осуществляются с помощью мыши или клавиатуры.

Если вы привыкли смотреть на документ в инвертированном режиме, можно включить соответствующую опцию. Либо применить коррекцию изображения по трем параметрам: яркость, контраст, гамма или включить более качественную (более долгую) прорисовку цветных страниц. Результаты коррекции можно применять и при печати.

Имеются поиск по тексту и его копирование. Только нужно учесть, что не со всеми файлами удастся так поработать: только с теми, в которых содержится текстовый слой.

В любом месте можно оставлять закладки либо аннотации (выделить цветом, обозначить границу, ввести текст, который будет появляться при наведении на область аннотации). Закладки можно экспортировать либо импортировать. Также WinDjView обладает поддержкой оглавлений и гиперссылок.

Разумеется, присутствует возможность экспорта текста (только в формат txt). Есть и опция экспорта страницы в графический файл (bmp, png, gif, tiff и jpg). Если экспортируете сразу несколько страниц или всю книгу, каждая страница составит отдельный файл.

Как создать DjVu-книгу

Разберем последний вопрос: как создавать DjVu-документы. Существуют три основных метода: печатать на специальный виртуальный принтер, использовать специальные программы либо воспользоваться онлайновыми сервисами. Рассмотрим их по порядку.

Первый способ: виртуальный принтер. Document Express 7.5 DjVu Virtual Printer распространяется компанией Caminova платно (стоит $19). Однако в Сети можно найти бесплатные более ранние версии. Например, LizardTech Virtual Printer (LTVP). После установки виртуального принтера достаточно в любой программы "напечатать" документ на этот принтер. В итоге получим DjVu-документ. Однако ранние версии LTVP не лишены ряда существенных недостатков: некорректная работа с рядом ОС и программ, отсутствие распознавания текста для русского языка (придется прибегнуть к помощи сторонних OCR-утилит).

Второй способ: воспользоваться специальными программами. Обычно советуют найти некоммерческую версию DjVuSolo 3.1 (например, здесь, версия для Windows).

Итак, вы приготовились сканировать какой-то многостраничный документ. Какое разрешение выбрать? Минимум 300 dpi. Максимум 600 dpi. Чем больше разрешение, тем больше размер. Выше 600 dpi не ставьте — размер увеличится еще больше, а качество уже практически не улучшится. Также разрешение зависит от качества исходного материала. Обычно сканируют в тонах серого (8 бит) или в черно-белом варианте (текст, чертежи). Для раритетных документов, журналов или в случае необходимости сохранения цветных иллюстраций используют цветной режим (24 бит).

Выбираем драйвер сканера и запускаем опцию сканирования. Если нужно обрезать лишнюю информацию (например, поля), делайте это перед сканированием. DjVuSolo не умеет этого делать. Равно как и переворачивать страницы на 90 или 180 градусов. Увы, DjVuSolo не умеет сканировать в многостраничном режиме. Собирать книгу придется после. Для этого открываем первую сохраненную страницу, потом добавляем остальные Edit/Append Page(s) и конвертируем изображения в DjVu-документ (File/Encode As DjVu). Перед выполнением этой операции вам предложат выбрать тип картинок и исходное разрешение.

К сожалению, DjVuSolo не умеет создавать текстовый слой (отсутствует опция распознавания). Поэтому, если он вам необходим, придется использовать коммерческую версию DjVuSolo, DjVuEditor Pro либо Document Express последних версий). Если вы являетесь сторонником бесплатного ПО, придется прибегнуть к ухищрениям: использовать OCR-программу и пакет утилит (OCR1 и OCR2) для автоматизации процесса распознавания и привязки текста к картинке.

После создания текстового слоя можно добавить в документ аннотации, гиперссылки, вставить миниатюры страниц. Добавление ссылок и аннотаций возможно в любое время после создания самого файла. Поле для них может быть любым по форме, ссылки могут вести как на страницу в Интернете, так и на собственные страницы документа.

Третий способ: онлайновые сервисы. Широко известен Any2djvu. Для конвертации принимаются исходные файлы в различных форматах (PS.GZ, PDF, TIFF, JPEG, PNG и т. д). Также можно привести ссылку на документ, выложенный в Интернете. После останется выбрать, в каком режиме сканировался документ, качество текста, необходимость распознавания текста (корректно распознается только английский язык) и ориентацию страниц.

Резюме

Удел формата DjVu — превращение сложных печатных документов в хорошо читаемый документ небольшого размера, а также точная передача как содержания, так и внешнего вида многостраничного документа. Тут DjVu до сих пор нет равных. Однако вряд ли формат в будущем получит массовое распространение, но по-прежнему будет использоваться в ряде электронных библиотек для хранения технической, справочной, учебной литературы, журналов, газет и других документов.

Максим ИВАНОВ, специально для www.softkey.info



10119 просмотров

  Ваш комментарий будет первым

Добавить комментарий
  • Пожалуйста оставляйте комментарии только по теме.
Имя:
E-mail
Домашняя страница
Тема:
BBCode:СсылкаEmailЖирный текстКурсивПодчёркнутый текстКавычкиCodeСписокПункт спискаЗакрыть список
Коментарий:



Код:* Code

 
< Пред.   След. >

///2011///
12 декабря. Новый рекорд: 812 посетителей (по данным счетчика "liveinternet.ru").
Апрель. Еженедельные горячие десятки анекдотов теперь не выкладываются на главной странице.
///2010///
27 января. Новый рекорд: 560 посетителей (по данным счетчика "mail.ru").
25 января. Перешел на более мощный тарифный план. Теперь сайт работает в 1,5-2 раза быстрее.
///2009///
19 ноября. Новый рекорд: 312 посетителя (по данным счетчика "mail.ru").
15 апреля. Закрылась почтовая рассылка "Лучшая десятка анекдотов от Дяди Зорыча". Сам раздел продолжит существование.
///2008///
21 октября. Новый рекорд: 102 посетителя (по данным счетчика "mail.ru").
26 июня. Сайт переехал на собственное доменное имя www.zorych.ru (спасибо Алексею Радченко).
01 июня.
День рождения сайта. В этот день начал заливать информацию на локальный сайт.