Сканирование документов и системы распознавания

Материал предоставлен сайтом Территория Дмитрия Новоженова (http://www.novojonov.ru)

Сканирование документов и системы распознавания

Введение

Преобразование документа в электронный вид делится на два этапа: получение графического образа документа и перевод графического образа в текстовый формат. Графический образ документа является результатом сканирования. Перевод графического образа документа в текстовый формат может быть произведен вручную (этот способ будет подробно рассмотрен в лекции "Индексация и имиджинг") или посредством автоматического распознавания.

Настоящая лекция посвящена вопросам сканирования и распознавания, в ней будут рассмотрены следующие темы:

  1. Технология сканирования
  2. Обзор сканеров для ЭА, их основные характеристики и примеры
  3. Программное обеспечение сканирования
  4. Суть процесса распознавания
  5. Точность распознавания и пути ее достижения

Сканирование - процесс оцифровки аналогового изображения (документ, фотография, иллюстрация, слайд) при помощи специального устройства, называемого сканером. Сканирование производится для получения, на основе оригинала, его цифрового "портрета", пригодного для компьютерной обработки.

Сканер - оптико-электронное устройство для ввода в компьютер графических зображений. Сканер создает оцифрованное изображение документа и помещает его в память компьютера.

Для работы с архивными документами в настоящее время используются, в основном, черно-белые и полутоновые монохромные сканеры. Это связано в первую очередь, с тем, что преобладающим типом архивного документа является текстовый документ, отпечатанный на пишущей машинке или монохромном принтере, с рукописным заполнением или правкой темными чернилами и эпизодически включающий печати, рисунки, схемы или черно-белые фотографии. Исходя из этого, в настоящей лекции будут рассмотрены только монохромные сканеры.

Обзор сканеров для ЭА

По характеру использования в технологическом процессе сканеры документов принято подразделять на следующие типы:

  1. Планшетные
  2. Протяжные или роликовые
  3. Планетарные или книжные

Планшетный сканер.

Планшетный сканер - сканер, в котором оригинал кладется на стекло и сканируется при помощи подвижной линейной ПЗС матрицы. Прибор с зарядовой связью (ПЗС) - светочувствительная матрица сканера. Принцип ее работы состоит в том, что падающий на датчик ПЗС свет создает на нем электрический заряд, величина которого определяется интенсивностью падающего света. Измерение величины этого заряда и позволяет представить информацию о цвете в цифровом виде.

Планшетные сканеры предназначены для ежедневного сканирования небольшого объёма фотографий, слайдов (при наличии слайд-адаптера) или документов (до 300 листов в день). Особенность данного типа сканеров - простота конструкции, ручная обработка документов, низкая производительность.

Протяжной или роликовый сканер.

Протяжной или роликовый сканер - сканер, в котором оригинал протягивается мимо неподвижной линейной ПЗС матрицы, разновидность такого сканера - факс-аппарат.

Скоростной сканер для работы с документами - разновидность протяжного сканера, предназначенная для высокопроизводительного многостраничного ввода. Сканеры могут быть оборудованы подающими и приемными лотками объемом свыше 1000 листов, и вводить информацию со скоростью до 180 и более листов в минуту.

Дополнительными возможностями, присущими данному типу сканеров, являются:

  1. двустороннее сканирование (дуплекс)
  2. подсветка оригинала разными цветами для отсечки цветного фона
  3. система компенсации неоднородного фона
  4. модули динамической обработки разнотипных оригиналов
  5. надпечатывание отметки о том, что документ прошел обработку

Скоростные протяжные сканеры предназначены для поточного сканирования (ввода) формализованных документов (бланки, накладные, картотеки и т.д.), а также обычных документов (договоры, письма, и т.д.)

Особенность данного типа сканеров - повышенная надёжность конструкции, пакетная обработка документов, высокая производительность.

Планетарный или книжный сканер.

Планетарный сканер - устройство, в котором при сканировании оригинал неподвижен и располагается лицевой стороной вверх на значительном удалении относительно оптической системы и сканирующей линейной ПЗС матрицы сканера. Планетарные сканеры могут быть оборудованы специальными книжными колыбелями для удобного размещения фолиантов при сканировании.

Данный тип сканера предназначен для сканирования скреплённых документов, периодических изданий и книг.

Особенность планетарных сканеров - бесконтактный метод сканирования, нет необходимости расшивки оригиналов, большая производительность при оцифровке книг и сшитых оригиналов.

Основные характеристики сканеров

Разрешение (Resolution) - число точек или растровых ячеек, из которых формируется изображение, на единицу длины или площади. Чем больше разрешение устройства, тем более мелкие детали могут быть воспроизведены. Измеряется в "точках на квадратный дюйм" (DPI, dots per inch). Типовое разрешение промышленных сканеров - 200-300 DPI.

Разрядность цвета (глубина цвета) - количество разрядов каждого пикселя в цифровом изображении, в т.ч. выдаваемом сканером. Описывает максимальное количество цветов, воспроизводимое сканером в виде степени числа 2. Одному разряду соответствует черно-белое изображение, 8-ми - серое полутоновое (типовое для рассматриваемых в данной лекции сканеров), 16-ти - цветное, 24-цветное изображение, наиболее близкое к человеческому восприятию (модель RGB), 36bit и больше - полноцветное изображение с высокой достоверностью цветопередачи, предназначенное для профессиональной работы, чаще всего в издательском деле.

Время сканирования. Измеряется в страницах в минуту (иногда - в секундах на изображение). Типовые значения различны для разных типов сканеров и приведены далее в примерах.

Формат. Формат сканируемого документа. Как правило - A3/A4.

Интерфейс передачи данных - способ подключения сканера к компьютеру. Способы могут быть различны (к COM или USB порту, к SCSI карте и др.).

Примеры сканеров

ЭЛАР ПЛАНСКАН.

ЭЛАР ПЛАНСКАН относиться к типу планетарных сканеров. Конструктивной особенностью подобных устройств является расположение документа на значительном удалении от модуля сканирования. Сканеры планетарного типа первоначально разрабатывались для сканирования книг. Отсюда и пришло их общепринятое название - книжные сканеры.

Со временем, сфера применения данных сканеров значительно расширилась и, помимо сканирования книг, они стали повсеместно использоваться для оцифровки любых скреплённых и крупноформатных документов.

Сканер обычно используется для решения следующих задач:

  1. Перевод в электронный вид архивных документов и дел
  2. Оцифровка периодических изданий и книг
  3. Сканирование инженерной и картографической документации (до А2)

Принцип работы сканера ПЛАНСКАН заключается в получении изображения неподвижной рабочей поверхности оригинала методом её сканирования ПЗС линейкой. Оригинал документа размещается на рабочей поверхности сканера и, с помощью оптической системы, проецируется на ограниченную область, по плоскости которой в течение 3 секунд производится перемещение ПЗС линейки. С помощью специальной электроники сканера, сформированное ПЗС линейкой изображение переводится в цифровой вид и преобразуется в полностью готовый образ документа. При этом, в зависимости от выбранного режима, производится обрезка по формату документа, выравнивание и очистка от мелких пятен. В последствии документ, уже в электронном виде, передаётся компьютеру для последующей обработки и архивации.

Данная технология сканирования даёт ряд преимуществ, особенно при работе со скреплёнными и крупноформатными документами. Основными из них являются:

  1. Высокая сменная производительность благодаря возможности быстрой смены оригиналов или переворота страниц оператором и наличию встроенных функций автоматической обработки изображений
  2. Возможность сканирования документов формата до А2 с разрешением 300 dpi
  3. Автоматическая фокусировка даёт возможность сканировать книги и папки толщиной до 20 см без перенастройки сканера
  4. Скорость сканирования - 2/3/6 сек.(формат А4/А3/А2)

ЭЛАР СКАМАКС.

ЭЛАР СКАМАКС относится к типу протяжных документных сканеров. Он предназначен для задач скоростного сканирования не сшитых документов до формата А3 (до 30.000 листов в день). Для отличия от обычных, не скоростных, протяжных сканеров, ЭЛАР СКАМАКС носит название “промышленного" документного сканера. Это обусловлено особыми требованиями к функциональности и надёжности работы устройства сканирования при столь высоких нагрузках.

Сканер обычно используется для решения следующих задач:

  1. Перевод бумажного архива в электронный вид
  2. Автоматизированная обработка формуляров
  3. Ввод текущих поступлений документов в электронный архив

Принцип работы ЭЛАР СКАМАКС заключается в поочерёдном протягивании через оптическую систему поступающих из подающего лотка документов. При этом изображение документа проецируется оптической системой, на камеру с неподвижной ПЗС линейкой для последующего преобразование оптического сигнала в цифровой вид. Встроенный в сканер документный процессор способен в реальном времени, не теряя скорости сканирования, обрабатывать сформированные ПЗС линейкой электронные образы документов, улучшая их качество и преобразуя в требуемый графический формат, например, осуществлять сжатие в TIFF G4. Для одновременного сканирования обеих сторон документа в сканер устанавливается дополнительная задняя камера.

Преимуществом данной конструкции сканирующего устройства является высокая скорость оцифровки документов. Для работы сканера оператору необходимо только загрузить пачку в подающий лоток сканера и запустить процесс сканирования, все остальные операции выполняются в полностью автоматическом режиме.

Прочие характеристики:

  1. Одно- и двухсторонний режимы сканирования
  2. Формат оригиналов от 2,6х6 см до А3
  3. Скорость сканирования
    1. 90 стр./мин. (односторонний режим)
    2. 180 стр./мин. (двусторонний режим)
  4. Разрешение 200/240/300dpi.

Программное обеспечение сканирования

Существует три категории ПО сканирования:

  1. ПО сканирование малых объёмов документов
  2. ПО сканирования больших объёмов документов
  3. ПО для специальных задач сканирования

ПО сканирование малых объёмов документов.

Применяется при домашнем и офисном сканировании.

Используется практически любое программное обеспечение, совместимое со стандартом TWAIN и поддерживающее функцию сканирования - система управления документооборотом, программа распознавания графических образов или любой распространенный графический редактор.

TWAIN (Toolkit Without An Interesting Name) - "инструментальный набор, для которого не удалось придумать интересного названия". Является стандартом для прикладного программного интерфейса (API) таких периферийных устройств, как сканеры, т.е. связующим звеном между компьютером и сканером.

Примеры ПО сканирования малых объемов:

  1. ABBYY FineReader
  2. Adobe PhotoShop
  3. Cognitive Cuineiform
  4. Microsoft Photo Editor
  5. ACDSEE

ПО сканирования больших объёмов документов.

Применяется при промышленном сканировании.

При поточном сканировании один сканер ежедневно может обрабатывать до 50.000 и более документов. При таких нагрузках возможностей универсального стандарта TWAIN становится не достаточно, и для программного управления сканерами используется промышленный стандарт ISIS (ISIS - Image and Scanner Interface Specification).

Примеры применяемого ПО:

  1. Kofax Ascent Capture
  2. Captiva InputAccel

ПО для специальных задач сканирования.

Применяется при планетарном, высококачественном сканировании.

Программное обеспечение специально разрабатывается с учётом специфики сканирующего устройства, не совместимо с другими стандартами.

Применяемое ПО:

  1. ПланСкан BSC-2
  2. RZ ProScan Book (Minolta PS7000 edition)
  3. Zeutschel OmniScan

Что такое системы распознавания?

Чтобы реализовать автоматический или автоматизированный перевод бумажных документов в электронный вид, необходимо выполнить сканирование бумажных документов и распознать их содержимое с помощью специальных программ, называемых системами оптического распознавания символов (Optical Character Recognition - OCR). Системы оптического распознавания символов предназначены для автоматического ввода печатных документов в компьютер. Обработка изображения OCR-системой включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы:

  1. определение областей распознавания
  2. определение таблиц
  3. определение картинок
  4. выделение в тексте строк и отдельных символов

и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.

Современные программно-аппаратные системы позволяют автоматизировать ввод больших объемов информации в компьютер, используя, например, сетевой сканер и параллельное распознавание текстов на нескольких компьютерах одновременно.

Точность распознавания

Ключевым параметром систем распознавания, характеризующим их практическую ценность, является точность распознавания, то есть процент правильно распознанных символов.

OCR-системы могут достигать наилучшей точности распознавания — свыше 99,9% для чистых изображений, составленных из обычных шрифтов. На первый взгляд такая точность распознавания кажется идеальной, но уровень ошибок все же удручает, потому что, если имеется приблизительно 1500 символов на странице, то даже при коэффициенте успешного распознавания 99,9 % получается одна или две ошибки на страницу. В таких случаях на помощь приходит метод проверки по словарю. То есть, если какого-то слова нет в словаре системы, то она по специальным правилам пытается найти похожее. Но это все равно не позволяет исправлять 100 % ошибок, что требует человеческого контроля результатов.

Точность распознавания падает за счет ошибок распознавания. Повышению точности распознавания способствует устранение указанных ниже причин ошибок.

Причины ошибок при распознавании

Встречающиеся в реальной жизни тексты обычно далеки от совершенства, и процент ошибок распознавания для "нечистых" текстов часто недопустимо велик. Грязные изображения — здесь наиболее очевидная проблема, потому что даже небольшие пятна могут затенять определяющие части символа или преобразовывать один в другой. Еще одной проблемой является неаккуратное сканирование, связанное с "человеческим фактором", так как оператор, сидящий за сканером, просто не в состоянии разглаживать каждую сканируемую страницу и точно выравнивать ее по краям сканера.

Если документ был ксерокопирован, нередко возникают разрывы и слияния символов. Любой из этих эффектов может заставлять систему ошибаться, потому что некоторые из OCR-систем полагают, что непрерывная область изображения должна быть одиночным символом.

Страница, расположенная с нарушением границ или перекосом, создает немного искаженные символьные изображения, которые могут быть перепутаны OCR.

Вопросы практического применения систем распознавания, а также проблем, вызванных недостаточной точностью распознавания, и путей их решения будут рассмотрены в следующей лекции, "Индексация и имиджинг".

Материал предоставлен сайтом Территория Дмитрия Новоженова (http://www.novojonov.ru)