Система оптического распознавания текста ABBYY® FineReader Версия 8.0

Руководство пользователя
Источник:ABBYY Software
Дата публикации:2005
Поделиться в Twitter Поделиться в F******k Поделиться в VKontakte Поделиться в Telegram Поделиться в Mastodon

Информация, содержащаяся в этом документе, может быть изменена без предварительного уведомления, и компания ABBYY не берет на себя на этот счёт никаких обязательств.

Глава 1. Работа с программой ABBYY FineReader 8.0

Анализ макета страницы

Прежде чем приступить к распознаванию, программа должна знать, какие участки изображения надо распознавать. Для этого проводится анализ макета страницы, во время которого выделяются блоки с текстом, картинки, таблицы и штрих–коды.

В этой главе вы узнаете, когда может потребоваться ручной анализ макета страницы, какие типы блоков могут быть размечены на изображении, как отредактировать полученные в результате автоматического анализа блоки, а также, как упростить процесс анализа, используя шаблоны блоков.

Общая информация по анализу макета страницы

Анализ макета страницы может проводиться как автоматически, так и вручную. В большинстве случаев ABBYY FineReader сам успешно справляется с анализом сложных страниц. Автоматический анализ производится по нажатию кнопки 2–Распознать одновременно с распознаванием текста.

Замечание. Отдельная процедура анализа макета страницы тоже доступна (меню Процесс>Распознать> Анализ макета страницы). Правда, при этом качество сегментации может быть ниже, т.к. при совместной процедуре распознавания и сегментации для анализа страницы используется дополнительная информация, полученная в процессе распознавания.

Ручное выделение блоков может понадобиться, если

  • 1. вы хотите распознать часть страницы;
  • 2. в результате автоматического анализа блоки были выделены неправильно.

Совет:

  • В некоторых случаях качество автоматического анализа можно улучшить, правильно установив опции анализа макета. Проверьте установленные опции анализа (закладка Распознать, меню Сервис >Опции).
  • Если программа выделила неправильно некоторые блоки, часто оказывается быстрее исправить только их, воспользовавшись инструментами для редактирования блоков, а не выделять блоки на изображении заново вручную.
Типы блоков

Блоки – это заключенные в рамку участки изображения. Блоки выделяют для того, чтобы указать системе, какие участки отсканированной страницы надо распознавать и в каком порядке. Также по ним воспроизводится исходное оформление страницы. Блоки разных типов имеют различные цвета рамок. Вы можете изменить цвета рамок блоков на закладке Вид диалога Опции (меню Сервис >Опции) в группе Объекты. В поле Объект выберите нужный тип блока, а в поле Цвет – требуемый цвет.

При обработке изображений выделяют блоки следующих типов:

Зона Распознавания – блок используется для распознавания и автоматического анализа части изображения. После нажатия на кнопку 2–Распознать выделенный блок автоматически анализируется и распознается.

Текст – блок используется для обозначения текста. Он должен содержать только одноколоночный текст. Если внутри текста содержатся картинки, выделите их в отдельные блоки.

Таблица – этот блок используется для обозначения таблиц или текста, имеющего табличную структуру. При распознавании программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей. Вы можете выделить и отредактировать таблицу вручную.

Картинка – этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую Вы хотите передать в распознанный текст в качестве картинки.

Штрих–код – этот блок используется для распознавания штрих–кодов, если ваш документ содержит штрих–код, и вы хотите передать его не картинкой, а перевести его в последовательность букв и цифр, выделите штрих–код в отдельный блок и присвойте ему тип Штрих–код.

Замечание. Для автоматического распознавания штрих–кодов необходимо, чтобы в группе Распознать диалога Дополнительные опции был отмечен пункт Искать штрих–коды. Для того чтобы открыть диалог Дополнительные опции, щёлкните по кнопке Дополнительные опции на закладке Общие диалога Опции (меню Сервис > Опции).

Типы штрих–кодов, поддерживаемых ABBYY FineReader 8.0

  • Code 3 of 9
  • Check Code 3 of 9 
  • Code 3 of 9 without asterisk
  • Codabar
  • Code 93
  • Code 128
  • EAN 8
  • EAN 13
  • IATA 2 of 5
  • Inerleaved 2 of 5
  • Check Inerleaved 2 of 5
  • Matrix 2 of 5
  • Postnet
  • Industrial 2 of 5
  • UCC–128
  • UPC–A
  • UPC–E
  • PDF417
Опции автоматического анализа макета страницы

При автоматическом анализе макета страницы ABBYY FineReader сам выделяет блоки, содержащие тексты, таблицы, картинки и штрих–коды.

Автоматический анализ запускается по кнопке 2–Распознать одновременно с распознаванием текста. До запуска распознавания необходимо установить опции анализа таблиц.

Опции анализа таблиц

В большинстве случаев программа делит таблицу на строки и столбцы автоматически. Дополнительные параметры анализа таблиц устанавливаются в группе Распознать диалога Дополнительные опции. (Для того чтобы открыть диалог Дополнительные опции, щёлкните по кнопке Дополнительные опции на закладке Общие диалога Опции). Опции анализа таблицы рекомендуется использовать, если:

  • в результате автоматического анализа макета страницы таблица была выделена и разделена на строки и столбцы неверно;
  • документ содержит много однотипных таблиц, для которых имеется дополнительная информация (например, таблица не содержит объединенных ячеек или таблица состоит из ячеек, текст в которых расположен в одну строку).

1. Опция В каждой ячейке таблицы не более одной строки текста используется для уверенного анализа таблиц с неполным количеством черных разделителей или без таковых, а также с ячейками, содержащими не более одной строки текста.

КилометрыМили 10.62
53.2

Физ.явление t по Цельсию
Температура кипения
воды
100
Температура
замерзания воды
0

2. Опция Таблица не содержит объединенные ячейки используется для уверенного анализа таблиц, не содержащих объединенных ячеек.

пример таблицы с объединенными ячейками

Температура
По ЦельсиюПо Кельвину
–2730
100373

Замечание. В таблицах общей структуры или на страницах с таблицами различной структуры отмеченные опции В каждой ячейке таблицы не более одной строки текста и Таблица не содержит объединенных ячеек могут привести к ошибкам анализа и, следовательно, понизить качество распознавания.

Выделение и редактирование блоков вручную

Чтобы создать новый блок:

1. Выберите один из инструментов:

  • выделить зону распознавания;
  • выделить текстовый блок;
  • выделить картинку;
  • выделить табличный блок.

2. Установите курсор мыши в угол предполагаемого блока. Нажмите левую кнопку мыши и, не отпуская кнопки, потяните в противоположный по диагонали угол.

3. Отпустите кнопку мыши.

Выделенная часть изображения будет заключена в рамку.

Вы можете поменять тип блока (присвоить выделенному блоку один из существующих типов: Зона распознавания, Текст, Таблица, Картинка или Штрих–код). Для этого: Щёлкните на блоке правой кнопкой мыши и в локальном меню выберите Изменить тип блока, а затем – нужный вам пункт.

Редактирование формы и положения блоков

Чтобы передвинуть границу блока:

1. Установите курсор мыши на границу блока.

2. Нажмите левую кнопку мыши и потяните в нужную сторону.

3. Отпустите кнопку мыши.

Замечание. Если вы установите курсор мыши на угол блока, то при движении мыши будут одновременно изменяться вертикальная и горизонтальная границы блока.

Чтобы добавить прямоугольную часть блока:

1. Выберите инструмент .

2. Установите курсор мыши внутри блока, к которому вы хотите добавить часть. Нажмите левую кнопку мыши и, не отпуская кнопки, потяните по диагонали. Выделив нужную часть изображения, отпустите кнопку мыши. Выделенный прямоугольник будет добавлен к блоку.

3. При необходимости передвиньте границу блока.

Чтобы удалить прямоугольную часть блока:

1. Выберите инструмент .

2. Установите курсор мыши внутри блока, там, где вы хотите вырезать часть. Нажмите левую кнопку мыши и, не отпуская кнопки, потяните по диагонали. Выделив нужную часть изображения, отпустите кнопку мыши. Выделенный прямоугольник будет удален из блока.

3. При необходимости передвиньте границу блока.

Замечания.

1. Вы также можете изменять границы блоков, добавляя на них новые узлы (точки разбиения). Получившиеся отрезки можно перемещать мышью в любом направлении. Чтобы добавить новый узел, подведите курсор, удерживая клавишу SHIFT, к нужной точке границы (курсор при этом примет форму перекрестия) и щёлкните мышью. На границе блока появится новый узел.

2. ABBYY FineReader накладывает на форму блоков некоторые ограничения, обусловленные необходимостью передавать на распознавание неразрывные текстовые строки. Для соблюдения этих ограничений ABBYY FineReader либо автоматически корректирует границы блока после операций добавления или удаления прямоугольной части блока (например, при удалении внутренней части блока снизу или сверху дополнительно удаляется часть блока справа до границы блока), либо запрещает некоторые операции по передвижению отрезков, образующих границу блока.

Чтобы выделить один или несколько блоков: Выберите инструмент и щёлкните мышью по нужному блоку или, удерживая кнопку мыши, нарисуйте прямоугольник, охватывающий нужные блоки.

Замечание. Вы можете выделить один или несколько блоков, используя стандартные инструменты выделения блоков. Чтобы выбрать несколько блоков, нажмите клавишу SHIFT или CTRL (при этом должен быть выбран один из инструментов) и мышью щёлкните на требуемых блоках. Чтобы отменить выделение уже выбранного блока или добавить невыделенные блоки, нажмите клавишу CTRL (при этом должен быть выбран один из инструментов) и мышью щёлкните на требуемых блоках.

Чтобы передвинуть блок: Нажмите клавишу ALT (при этом должен быть выбран один из инструментов ) и мышью переместите блоки.

Чтобы перенумеровать блоки:

  • 1. Выберите инструмент .
  • 2. Выделите блоки в том порядке, в котором вы хотите видеть их содержимое в выходном тексте.

Замечание. Если вы перенумеровываете блоки на уже распознанном изображении, то одновременно в окне Текст в черновом режиме редактора происходит перегруппировка распознанного текста в соответствии с новой нумерацией.

Чтобы удалить блок: Выберите инструмент и выделите блок, который вы хотите удалить. Выделите блоки, которые Вы хотите удалить, и нажмите клавишу DEL.

Внимание! Если вы удаляете блок с уже распознанного изображения, то одновременно с этим в окне Текст удаляется текст, соответствующий этому блоку.

Чтобы удалить все блоки на изображении: В меню Пакет выберите пункт Удалить блоки и текст.

Внимание! Если вы удаляете блоки с уже распознанного изображения, то одновременно с этим в окне Текст удаляется текст, соответствующий этим блокам.

Редактирование таблицы

Для редактирования таблицы выберите на панели Изображение один из инструментов (в оригинальном руководстве инструменты показаны в виде картинок):

  • чтобы добавить вертикальную линию;
  • чтобы добавить горизонтальную линию;
  • чтобы удалить линию.

Чтобы объединить ячейки таблицы: В меню Изображение> Ячейки таблицы выберите пункт Объединить ячейки.

Чтобы разбить ранее объединенные ячейки таблицы: В меню Изображение> Ячейки таблицы выберите пункт Разбить ячейки.

Чтобы объединить строки таблицы (в этом случае деление на столбцы остается): В меню Изображение> Ячейки таблицы выберите пункт Объединить строки.

Ручной анализ таблицы

Совет: Если в результате автоматического анализа таблицы разделение на строки и столбцы произошло неверно, прежде чем анализировать таблицу вручную заново, попробуйте сначала отредактировать результаты автоматического анализа.

Чтобы отредактировать таблицу вручную:

Отредактируйте таблицу, используя инструменты (панель в окне Изображение):

  • Добавить вертикальную линию.
  • Добавить горизонтальную линию.
  • Удалить линию.

Если ячейка таблицы содержит только картинку, в диалоге Свойства блока (меню Вид>Свойства) отметьте пункт Считать ячейку картинкой. Если же, помимо картинки, в ячейке содержится некоторый текст, то выделите картинку в отдельный блок внутри ячейки.

Чтобы объединить ячейки или строки таблицы: в меню Изображение> Ячейки таблицы выберите пункты Объединить ячейки или Объединить строки. При объединении строк таблицы деление на столбцы остается.

Объединенные ячейки можно снова разделить, воспользовавшись командой Разбить ячейки (меню Изображение> Ячейки таблицы).

Замечание. Чтобы повторно не рисовать вертикальные и горизонтальные линии в таблице, выделите таблицу в отдельный блок и щёлкните правой кнопкой мыши на блоке. В локальном меню выберите пункт Анализ структуры таблицы. А затем, используя инструменты по работе с таблицей, отредактируйте полученные результаты.

Использование шаблонов блоков

При работе с документами с одинаковым расположением текста и картинок, такими, например, как формы, бланки и т.п., вместо того чтобы анализировать макет каждой страницы, вы можете провести анализ одной из них, сохранить расположение блоков на этой странице в файл, а затем, когда потребуется, "спроецировать" эти блоки на изображение (или группу изображений) со сходным расположением текста.

Замечание. Созданный шаблон блоков можно использовать только для документов, отсканированных с тем же разрешением, что и документ, на котором данный шаблон блоков создавался.

Чтобы создать шаблон блоков:

  • 1. Откройте изображение и выделите на нём блоки автоматически или вручную.
  • 2. В меню Изображение выберите пункт Сохранить блоки... В открывшемся диалоге укажите имя для шаблона блоков.

Чтобы наложить шаблон блоков:

  • 1. В окне Пакет выделите страницы, на которые вы хотите наложить существующий шаблон.
  • 2. В меню Изображение выберите пункт Наложить блоки. В открывшемся диалоге Открыть файл с блоками выберите файл (*.blk) с нужным расположением блоков.
  • 3. В диалоге Открыть файл с блоками в группе Применить к установите переключатель в одно из положений: Всем страницам (если Вы хотите наложить шаблон на все страницы пакета) или Выделенным страницам (если вы хотите наложить шаблон только на выделенные страницы).
  • 4. Нажмите кнопку Открыть (Open).

Предыдущая |  Следующая |  Содержание



Распространение материалов сайта означает, что распространитель принял условия лицензионного соглашения.
Идея и реализация: © Владимир Довыденков и Анатолий Камынин,  2004-2024