|
Информация, содержащаяся в этом документе, может быть изменена без предварительного уведомления, и компания ABBYY не берет на себя на этот счёт никаких обязательств. Глава 1. Работа с программой ABBYY FineReader 8.0Получение и обработка изображения программой ABBYY FineReaderКачество распознавания во многом зависит от качества исходного изображения. В этой главе вы узнаете о том, как правильно отсканировать документ, как открыть и распознать уже имеющиеся на компьютере изображения (список поддерживаемых системой форматов приведён в разделе "Поддерживаемые графические форматы"), как можно обработать изображение и устранить некоторые его дефекты (например, мусор, возникший при сканировании) и т.д. СканированиеABBYY FineReader работает со сканерами через TWAIN–интерфейс. Это единый международный стандарт, введённый в 1992 году для унификации взаимодействия устройств для ввода изображений в компьютер (например, сканера) с внешними приложениями. При этом возможно два варианта взаимодействия программы со сканерами через TWAIN–драйвер:
Преимущества каждого из режимов В режиме "Использовать интерфейс TWAIN–драйвера сканера", как правило, доступна функция предварительного просмотра изображения (preview), позволяющая точно задать размеры сканируемой области, подобрать яркость, тут же контролируя результаты этих изменений. Диалог TWAIN–драйвера у каждого сканера выглядит по–своему, в большинстве случаев все надписи даются на английском языке. Вид этого окна и смысл опций описан в документации, прилагаемой к сканеру. В режиме Использовать интерфейс ABBYY FineReader доступны такие опции, как возможность сканирования в цикле на сканерах без автоподатчика, сохранение опций сканирования в отдельный файл набора опций (*.fbt) и возможность использования этих опций в других пакетах. Вы можете легко переключаться между этими режимами: на закладке Сканировать/Открыть диалога Опции (меню Сервис>Опции) установите переключатель в одно из положений: Использовать интерфейс TWAIN–драйвера сканера или Использовать интерфейс ABBYY FineReader. Замечания. 1. Для некоторых моделей сканеров опция Использовать интерфейс ABBYY FineReader может быть по умолчанию отключена (недоступна). 2. Чтобы в режиме Использовать интерфейс ABBYY FineReader показывался диалог Настройки сканера, на закладке Сканировать/Открыть (меню Сервис>Опции) отметьте пункт Запрашивать опции перед началом сканирования. Важно! Для того чтобы правильно подключить сканер, обратитесь к документации, прилагаемой к сканеру. При установке не забудьте установить необходимое программное обеспечение, поставляемое вместе со сканером (драйвер TWAIN и/или сканирующую программу). Чтобы запустить сканирование: Нажмите кнопку 1–Сканировать или в меню Файл выберите пункт Сканировать изображение. Спустя некоторое время в главном окне программы ABBYY FineReader появится окно Изображение с "фотографией" отсканированной страницы. Если вы хотите отсканировать несколько страниц, то на закладке Сканировать/Открыть (Сервис>Опции) отметьте пункт Сканировать несколько страниц. Замечание. Диалог Опции можно также открыть, выбрав пункт Опции в меню кнопки 1–Сканировать. В случае если сканирование не началось сразу, показывается один из следующих диалогов:
Совет: ABBYY FineReader отсканирует и распознает изображения. В главном окне программы появятся окно Изображение с "фотографией" отсканированной страницы и окно Текст с результатом распознавания. Распознанный текст вы можете передать во внешние приложения или сохранить в одном из поддерживаемых форматов. Установка параметров сканированияКачество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости. Основными параметрами сканирования являются:
Замечание. Сканирование с разрешением 400–600 dpi вместо 300 dpi или сканирование в сером или в цвете может занять существенно больше времени, чем сканирование в черно–белом режиме. На некоторых моделях сканеров сканирование с разрешением 600 dpi занимает в 4 раза больше времени, чем сканирование с разрешением 300 dpi. Чтобы установить параметры сканирования:
Советы по подбору яркости Отсканированное изображение должно быть удобочитаемым (просмотрите изображение в окне Крупный план). В оригинальном руководстве в этом месте помещена иллюстрация – пример хорошего (пригодного для распознавания) изображения. Если в полученном изображении вы обнаружили множество дефектов (разрывов или склеек букв), то обратитесь к таблице, приведенной ниже. В ней указаны возможные способы устранения этих дефектов.
Сканирование многостраничных документовДля удобства сканирования большого количества страниц в программе ABBYY FineReader предусмотрен специальный режим сканирования: Сканировать несколько страниц. Он позволяет отсканировать несколько страниц подряд. Для того чтобы включить этот режим, отметьте опцию Сканировать несколько страниц на закладке Сканировать/Открыть диалога Опции (меню Сервис> Опции). При этом:
Вы можете отсканировать большое количество страниц двумя путями: с использованием автоподатчика (ADF) и без него. При использовании автоподатчика (ADF)
Замечание. Для того чтобы открыть диалог Настройки сканера, щёлкните по кнопке Настройки сканера на закладке Сканировать/ Открыть диалога Опции (меню Сервис>Опции). Без использования автоподатчика (ADF) 1. Интерфейс ABBYY FineReader Для удобства сканирования нескольких страниц подряд на планшетном сканере без автоподатчика:
Для завершения сканирования в меню Файл выберите пункт Остановить сканирование Замечание. Для того чтобы открыть диалог Настройки сканера, щёлкните по кнопке Настройки сканера на закладке Сканировать/ Открыть диалога Опции (меню Сервис/ Опции). 2. Интерфейс TWAIN–драйвера сканера
Для завершения сканирования в Twain–диалоге сканера нажмите на кнопку Close (или аналогичную ей по смыслу). Совет: Чтобы вы могли контролировать результаты сканирования, в группе Вид диалога Дополнительные опции отметьте опцию Открывать изображения по мере сканирования. (Для того чтобы открыть диалог Дополнительные опции, щёлкните по кнопке Дополнительные опции на закладке Общие диалога Опции). В этом случае по окончании сканирования страницы отсканированное изображение появится в окне Изображение. Если изображение отсканировано неверно, остановите сканирование (в меню Файл выберите пункт Остановить сканирование) и отсканируйте изображение заново. Решение проблем сканирования: сканер не поддерживает работу с Twain–драйвером Если ваш сканер не поддерживает работу с Twain, то вы можете работать с программой следующим образом: 1. Создайте в программе новый пакет, откройте пакет или продолжите работу в уже открытом пакете. 2. Установите параметры распознавания (язык распознавания, тип страницы, тип печати). 3. В меню Процесс выберите пункт Запустить фоновое распознавание. 4. Не закрывая программы, отсканируйте документ, который вы хотите распознать, любой графической программой и сохраните его в ту папку, в которую вы сохранили созданный пакет, с именем 0001.TIF. ABBYY FineReader автоматически подхватит изображение и распознает его. Замечание. Если при добавлении страниц в пакете уже были страницы, то имена добавленных файлов (также как и номера соответствующих им новых страниц пакета) будут начинаться не с единицы (1), а с номера страницы, следующей за последней страницей пакета, т.е. если в пакете было 10 страниц, то новым файлам будут присвоены следующие имена: 0011.tif, 0012.tif и т.д. 5. Отсканируйте второй документ и сохраните его с именем 0002.TIF и т.д. 6. Чтобы прекратить распознавание, в меню Процесс выберите пункт Остановить фоновое распознавание. Таким образом, все отсканированные страницы будут распознаны программой. Открытие файлов с изображениями и PDF файловЕсли у вас нет сканера, вы можете открывать и распознавать готовые графические файлы (список открываемых форматов приведен в разделе "Поддерживаемые графические форматы"). Чтобы открыть изображение: В диалоге Открыть изображение выберите одно или несколько изображений. Выбранные изображения появятся в окне Пакет, и последнее из выбранных изображений откроется в окне Изображение и в окне Крупный план ABBYY FineReader, при этом копия изображения помещается в папку пакета. Более подробно о представлении страниц в пакете и об устройстве пакета см. "Общая информация по работе с пакетом". Совет: Если вы хотите, чтобы открытые изображения были сразу распознаны, воспользуйтесь режимом Открыть и распознать. Для этого: 1. В меню Процесс выберите пункт Открыть и распознать. Клавиатурная команда: CTRL+SHIFT+D. 2. В открывшемся диалоге Открыть выберите изображения для распознавания. Особенности открытия PDF–файловСоздатель PDF–файла может ограничить доступ к своему файлу, например, защитить его паролем, установить запрет на открытие файла или извлечение из него текста и графики. При открытии подобных файлов ABBYY FineReader будет запрашивать пароль, чтобы обеспечить защиту авторских прав создателя файла. Добавление в пакет изображений со сдвоенными страницамиПри сканировании книг удобнее отсканировать две страницы (книжный разворот) сразу. При этом для повышения качества распознавания такие изображения следует разделить на два, чтобы каждой странице соответствовала отдельная страница пакета (анализ и распознавание осуществляется для каждой страницы по отдельности, исправляется перекос строк). Для этого перед сканированием или добавлением в пакет сдвоенных страниц: На закладке Сканировать/Открыть (меню Сервис >Опции) отметьте опцию Делить разворот книги. Замечание. Если книжный разворот (сдвоенные страницы) был разделен на две страницы неудачно, то снимите отметку с опции Делить разворот книги, заново отсканируйте или добавьте в пакет изображение с книжным разворотом и попробуйте разделить его в диалоге Разбить изображение (меню Изображение>Разбить изображение) вручную. Добавление в пакет изображений с визитными карточкамиПри вводе в компьютер информации с визитных карточек их удобнее сканировать не по одной, а сразу по несколько штук. При этом качество распознавания будет выше (в частности, благодаря исправлению перекосов) в том случае, когда каждая визитка попадет в пакет в виде отдельной страницы. Для этого в системе предусмотрены средства автоматического и ручного разбиения изображений, содержащих расположенные в определенном порядке визитные карточки. Замечание. Необходимо чтобы визитные карточки были разложены определенным образом на стекле сканера. Подробнее см. раздел "Работа с визитными карточками" в "Обучении на примерах". Чтобы разбить изображение: 1. В окне Пакет выберите нужное изображение. 2. В меню Изображение выберите пункт Разбить изображение. 3. В открывшемся диалоге Разбить изображение нажмите кнопку Разбить на визитки. Замечания. 1. Разрезаемая страница удаляется из пакета; на её место добавляются новые страницы, соответствующие разрезанным частям. Подробнее о пакете см. "Общая информация по работе с пакетом". 2. Если изображение было разрезано на визитки неверно, то попробуйте разрезать его вручную, воспользовавшись кнопками Добавить вертикальный разделитель/Добавить горизонтальный разделитель. 3. Чтобы удалить все разделители, нажмите кнопку Удалить все разделители. 4. Чтобы передвинуть разделитель, перейдите в режим Выбора объекта (нажмите кнопку ) и переместите разделитель. 5. Чтобы удалить разделитель, перейдите в режим Выбора объекта (нажмите кнопку ) и переместите разделитель за пределы изображения. Съемка текстов фотоаппаратомФотосъемка документов требует определенной подготовки фотографа, а также налагает ограничения на характеристики фотоаппарата и режим съемки. Данная статья поможет вам выбрать режим работы фотоаппарата и получить снимок документа, пригодный для распознавания текста. Технические параметры вашего фотоаппарата и инструкции по работе с ним приведены в описании фотоаппарата и другой документации, прилагаемой к фотоаппарату. Перед съемкой убедитесь в том, что: 1. Страница целиком умещается в кадре, и что она целиком его занимает (не остается излишних полей). 2. Свет достаточно ровный, без теней на фотографируемом тексте. 3. Фотографируемый документ расположен перпендикулярно оптической оси объектива, т.е. фотоаппарат должен быть расположен напротив центра текста. Неровности бумаги (у корешка книги, например) нужно по возможности разгладить. Ниже приведены требования к фотоаппарату и рекомендации по выбору режима съемки. Требования к фотоаппарату Минимальные требования
Рекомендуемые параметры фотоаппарата
Как фотографировать текстыОсвещение По возможности обеспечьте хорошее освещение, лучше всего дневное. Если используется подсветка, то лучше использовать подсветку двумя лампами с разных сторон, чтобы избежать образования теней. Как располагать фотоаппарат Для съемки документов рекомендуется использовать штатив. Снимать лучше всего при максимальном оптическом увеличении, при этом фотоаппарат должен быть максимально удален от текста. Объектив должен располагаться параллельно поверхности съемки и по центру фотографируемого изображения. Фотоаппарат должен быть удален от страницы настолько, чтобы при максимальном увеличении страница полностью умещалась в кадре. Обычно это расстояние около 50–60 см. Вспышка Если освещение позволяет, вспышку лучше всего отключить, поскольку она создает пересвеченные области и резкие тени. Тем не менее, если внешнего света недостаточно, то можно использовать вспышку, если съемка ведется с достаточного расстояния (~50 сантиметров). Даже при использовании вспышки все равно желательно подсветить документ. Внимание! Категорически не рекомендуется использовать вспышку при съемке документов, отпечатанных на глянцевой бумаге. Выбор режима съемки Диафрагма: При недостаточном освещении рекомендуется выбирать небольшие значения диафрагмы (~2,3 – 4,5), т.е. максимально открывать диафрагму. Если съемка ведется при ярком дневном свете, значение диафрагмы лучше увеличить, чтобы получить более резкий снимок. Чувствительность матрицы: При недостаточном освещении рекомендуется выбрать большую чувствительность матрицы (большее значение ISO). Фокусировка: При недостаточном освещении автоматический фокус может срабатывать плохо (аппарат не может сфокусироваться), в этом случае рекомендуется использовать ручную фокусировку. Баланс белого: По возможности установите баланс белого по цвету бумаги. Если ваш фотоаппарат не позволяет произвольно задавать баланс белого, выберите режим, максимально отвечающий условиям съемки. Дополнительные рекомендации При недостаточном освещении в автоматическом режиме используются большие выдержки, что отрицательно сказывается на резкости получаемого изображения. Поэтому рекомендуется дополнительно:
Что делать, если...Снимок слишком темный и неконтрастный. Постарайтесь улучшить освещение. Если такой возможности нет – установите меньшее значение диафрагмы. Возможно, автофокус плохо срабатывает из–за отсутствия света. Попробуйте улучшить освещение. Если это не помогает, используйте ручную фокусировку. Если нерезкая только часть снимка – попробуйте выставить большее значение диафрагмы. Снимайте с большего расстояния при максимальном оптическом увеличении. Наводите фокус на точку, расположенную между центром и краем изображения. Вспышка создает пересвеченную область в центре кадра. Отключите вспышку. Если нет возможности использовать другие источники света, снимайте с большего расстояния. Проверка и корректирование полученного изображения1. Очистить от мусора Распознаваемое изображение может быть сильно "замусорено", т.е. содержать много лишних точек, возникших в результате сканирования документов среднего или низкого качества. Точки, близко расположенные к контурам букв, могут отрицательно сказаться на качестве распознанного текста. Чтобы уменьшить количество лишних точек, можно воспользоваться опцией Очистить от мусора. Для этого: Выберите пункт Очистить изображение от мусора в меню Изображение>Обработать изображения. Если вы хотите очистить от "мусора" отдельный блок, то: Выберите пункт Очистить блок от мусора в меню Изображение>Обработать изображения. Внимание! Если исходный текст был очень светлым или в исходном тексте использовался очень тонкий шрифт, то применение функции Очистить изображение от мусора может привести к исчезновению точек, запятых или тонких элементов букв, что ухудшает качество распознавания. 2. Изменить разрешение изображения Разрешение изображения – это параметр, определяющий, какое количество точек, составляющих изображение, приходится на единицу длины. Разрешение обычно измеряется в dpi – количестве точек, приходящихся на один дюйм. Для качественного распознавания текста с помощью системы ABBYY FineReader необходимо, чтобы разрешение изображения по вертикали и по горизонтали совпадало. Рекомендованное разрешение оптимальное с точки зрения распознавания – 300 dpi. Слишком большое или слишком маленькое разрешение может приводить к ухудшению качества распознавания. У некоторых форматов изображения разрешение отсутствует (например, у *.bmp файлов). Изображения могут также иметь нестандартное разрешение (например, 204*96 dpi), что тоже может повлиять на качество распознавание. Система ABBYY FineReader проверяет разрешение каждого изображения и при обнаружении "подозрительного" изображения автоматически исправляет его разрешение, при этом физические размеры изображения (его длина и ширина) не изменяются. Такое изображение помечается значком в окне Пакет. При наведении мыши на такое изображение возникает всплывающая подсказка. Если качество распознавания изображения низкое, корректировка разрешения изображения может привести к улучшению результатов распознавания. Для того чтобы исправить разрешение изображения:
3. Устранить искажение строк При сканировании книг возможно искажение строк текста в той части изображения, где страница примыкала к переплету. На изображениях, полученных с помощью фотокамеры, строки текста также могут искажаться по краям изображения. Для того чтобы устранить искажения строк: l нажмите кнопку или выберите в меню Изображение>Обработать Изображение>Устранить искажение строк. Замечание. Для выполнения данной операции может потребоваться значительное время. 4. Инвертировать изображение Некоторые сканеры инвертируют изображения при сканировании (черный цвет переводят в белый, а белый в черный). Чтобы получить стандартное представление документа (черный шрифт на белом фоне): В меню Изображение>Обработать изображения выберите пункт Инвертировать. Замечание. Если вы сканируете или открываете инвертированные изображения, то перед добавлением в пакет таких изображений отметьте пункт Инвертировать изображение в группе Сканировать/Открыть в диалоге Дополнительные опции. Для того чтобы открыть диалог Дополнительные опции, щёлкните по кнопке Дополнительные опции на закладке Общие диалога Опции (меню Сервис >Опции). 5. Повернуть или зеркально отразить изображение При распознавании изображение должно иметь стандартную ориентацию: текст должен читаться сверху вниз, и строки должны быть горизонтальными. По умолчанию программа при распознавании определяет и корректирует ориентацию изображения автоматически. Если ориентация изображения была определена ошибочно, то на закладке Сканировать/Открыть снимите отметку с пункта Определять ориентацию страницы (при распознавании) и поверните изображение вручную. Чтобы повернуть изображение:
6. Стереть участок изображения Если вы хотите исключить какой–то участок текста из распознавания или на изображении имеются большие участки мусора, то вы можете стереть такие участки. Для этого: Выберите инструмент (на панели в окне Изображение) и, нажав на левую кнопку мыши, выделите участок изображения, который вы хотите удалить. Отпустите кнопку, выделенная часть изображения будет удалена. 7. Обрезать изображение Иногда в результате сканирования по краям изображения появляются зачерненные поля. В таком случае перед распознаванием можно выполнить обрезку изображения, удалив ненужные фрагменты. С помощью инструмента обрезки изображения можно также получить изображение стандартного размера (соответствующего одному из стандартных форматов, например, А4, А5).
Замечание.
8. Увеличить/Уменьшить масштаб изображения
9.Получить информацию об изображении Вы можете получить следующую информацию об открытом изображении: ширину и высоту изображения в точках; вертикальное и горизонтальное разрешение в точках на дюйм (dpi); тип изображения. Чтобы просмотреть информацию об изображении: Щёлкните правой кнопкой на изображении и в локальном меню выберите пункт Свойства. В открывшемся диалоге выберите закладку Изображение. 10. Печать изображения Вы можете напечатать одно изображение, открытое в окне Изображение, несколько изображений, выделенных в окне Пакет, или все изображения. Для этого: В меню Файл выберите пункт Печать>Изображение и в открывшемся диалоге Печать установите параметры печати (принтер, количество печатаемых страниц, количество копий и т.д.) 11. Отменить последнее действие Для отмены последнего действия на панели Стандартная нажмите кнопку Отменить . Совет: Для повторного выполнения последнего отмененного действия на панели Стандартная нажмите кнопку Вернуть . Нумерация страниц при добавлении в пакетПо умолчанию каждой сканируемой странице присваивается номер, на единицу больший номера последнего изображения в пакете. Вы можете задать номер добавляемой страницы и вручную (например, вам нужно сохранить исходную нумерацию страниц или вы сканируете стопку отсортированных по порядку страниц). Для этого: на закладке Сканировать/Открыть (меню Сервис >Опции) отметьте пункт Запрашивать номер страницы перед добавлением в пакет. При сканировании стопки двусторонних отсортированных по порядку страниц:
Опции хранения изображений в пакетеПриводить цветное/серое изображение к черно–белому Отметьте эту опцию при сканировании через TWAIN–диалог сканера в сером режиме (с автоподбором яркости) или при сканировании в цвете, если при этом сканируемые документы не содержат цветных картинок, цветного шрифта и фона, или если вам не требуется передача цвета в выходное изображение. В этом случае сохраняемые в пакет изображения будут занимать меньше места на диске. Замечание. Данная опция устанавливается в диалоге Дополнительные опции. Для того чтобы открыть этот диалог, щёлкните по кнопке Дополнительные опции на закладке Общие диалога Опции (меню Сервис >Опции). Предыдущая | Следующая | Содержание |
|||||||||||||||||
Распространение материалов сайта означает, что распространитель принял условия лицензионного соглашения. Идея и реализация: © Владимир Довыденков и Анатолий Камынин, 2004-2024 |
Социальные сети