Все сталкивались с пересылкой по электронной почте текстовых и прочих документов. При этом некоторые из них необходимо переводить в электронный вид. Иногда полученные файлы требуют редактирования. На помощь приходит функция распознавания текста со скана или картинки. Этим пользуются студенты, которые предпочитают справочники и литературу иметь в электронном виде.
Принцип работы
Сейчас в интернете можно найти научную, справочную, учебную, методическую и прочую литературу. Книги и статьи, выпущенные в прошлом, оцифрованы и представляют собой фотографии, сканы в различных форматах.
Для работы в текстовом редакторе понадобится программа, считывающая текст с картинки. Последние версии позволяют распознавать на изображении не только текст, но и таблицы.
Любой графический файл (растровый рисунок) состоит из точек. Оптическое распознавание букв основано на выделении точек, их анализе и преобразовании в текст. А процесс выглядит следующим образом:
- Выделяются блоки, содержащие текст.
- Приложение блок выстраивает в линии.
- Линия делится на слова.
- Слова делятся на символы.
- Символ анализируется с шаблонами шрифтов.
- Программное обеспечение перебирает множество вариантов.
- В итоге распознавалка выдает текст, готовый к изменению в редакторе.
Все многообразие программного обеспечения делится на:
- бесплатные программы;
- платные программы;
- онлайн-сервисы.
Распознаватели предоставляют широкие возможности. После процедуры полученный файл можно сохранить в различных форматах: Word, Excel, PowerPoint, Jpeg, PDF. К тому же можно сделать перевод текста, сжатие файла, применить эффекты, отсканировать и даже проверить на антиплагиат.
Используемые программы
Среди платных и бесплатных программ встречаются как хорошо зарекомендовавшие себя продукты, так и не нашедшие широкого применения. По составленному рейтингу в сети большей популярностью пользуются следующие.
Программа | Поддерживаемые языки | Формат сохранения | Достоинства |
Abbyy Fine Reader | 179 | DOC, DOCX, XLS, XLSX, PPT, PPTX, PDF | Сохраняет структуру, высокая скорость |
Cunei Form | 20 | RTF, TXT, HTML | Присутствует редактор, обработка пакетами, сохраняется структура документа |
Win Scan 2PDF | 3 | Отсутствие дополнительных инструментов, пакетная обработка | |
Simple OCR | 3 | DOC, TXT, TIFF | Текстовый редактор |
Vue Scan | 32 | PDF, JPG, TIFF | Сохранение шаблонов, всплывающие подсказки |
Ri Doc | 4 | DOC, DOCX, XLS, XLSX, PDF, JPG, TIFF | Редактор, конвертер |
Top OCR | 11 | HTML, RTF, PDF, MP3 | Создание аудиофайлов |
Capture Text | На кириллице и латинице | DOC, TXT, RTF | Извлечение текста и картинок и анимации |
Informatik Scan | 3 | JPG, BMP, PNG, TIFF, PDF | Удаление однотонных блоков, редактор текста |
Readiris | 130 | DOC, XLS, RTF, TXT, PDF, JPG, TIFF | Определение рукописного текста |
Abbyy Fine Reader
Программа для распознавания текста с картинки от разработчика ABBYY считается одной из лучших. В своем функционале имеет множество инструментов. В зависимости от версии она работает и с djvu-файлами.
Источник сканов
Сканирование. Перед началом работы с растровыми изображениями необходимо настроить сканер текста с фото. В настройках указывается максимальное количество точек на дюйм (DPI). Рекомендуемое значение не ниже DPI 300. Чем больше этот показатель, тем выше качество и меньше вероятность возникновения ошибок.
Цветность. От цветности зависит скорость сканирования. Среди основных ее настроек три варианта:
- Черно-белый — подходит для сплошного текста.
- Оттенками серого можно воспользоваться, если нужно сканировать документ, содержащий картинки, таблицы и текст.
- Цветным режимом пользуются, когда идет оцифровка журналов и периодики, для которых цветопередача важнее содержания.
Фотография. Программа для считывания текста с картинки работает не только со сканами, но и с фотографиями, снятыми на фотоаппарат или на смартфон в хорошем разрешении. Но как показывает практика, снимки со смартфона имеют искажения, которые влияют на распознавание.
Распознавание графических документов
Утилита работает почти со всеми популярными файлами с расширением jpeg, bmp, png, tiff. Рабочая область имеет два экрана. На левом находится исходник, на правом — результат. После загрузки фото в программу производится его распознавание, но не всегда процедура происходит корректно. Часто приходится прибегать к ручному режиму. Если есть выход в интернет, то полученный результат можно проверить на орфографические ошибки.
Текст. На панели инструментов есть иконка «Т», которая при выделении области исключает работу с таблицами и изображениями. При наличии на странице нескольких таблиц, выделять текст придется несколькими блоками. После чего нажимается иконка «Распознать».
Таблицы. Работа с таблицами сопряжена с некоторыми трудностями. Внутреннее содержание распознается и вставляется в Excel. Но если необходимо ту же таблицу разместить на странице Word, то ее придется создавать заново, а распознанные данные вставляются с ошибками.
Изображения. При необходимости копирования изображений со сканированного листа они просто выделяются, копируются и вставляются. Не нужно пользоваться графическим редактором для обрезки. Word обладает рядом инструментов для редактирования изображений.
Ненужные области. На отсканированных страницах встречаются области, мешающие работе, такие как реклама и колонтитулы. Перед работой с документами эти области следует удалить. В Fine Reader есть функция «ластик». С ее помощью ненужная область удаляется полностью до белого листа.
Работа с DJVU и PDF
Документы этих форматов не что иное, как графические изображения, преобразованные в формат меньшего объема. И хранить таких документов можно значительно больше на ограниченном объеме памяти.
Распознавание и чтение файлов djvu и pdf идет по всей странице, включая номера страниц и колонтитулы. Это затрудняет дальнейшее редактирование. Чтобы исключить лишнюю информацию в программе устанавливаются дополнительные настройки, ограничивающие рабочую область. Делается это следующим образом:
- Редактирование → работа с изображениями.
- Активировать опцию «Обрезка».
- Установить границы обработки.
- Сохранить настройки кнопкой «Применить ко всем страницам».
Работа онлайн
Если на компьютере или ноутбуке мало места и нет желания возиться с установкой специального программного обеспечения, можно бесплатно воспользоваться онлайн-сервисами. Хороший и известный Img2txt. Сервис бесплатный, функционирует с 2014 года.
Войдя, через вкладку «Открыть» загружается необходимый файл. Далее, нажимается кнопка «Начать распознавание», запускается процедура сканирования текста с фотографии онлайн и его распознавание.
В качестве вывода специалистами отмечается, что широким функционалом обладают платные версии программ. Но если нужно просто распознавание текста для работы с текстовым редактором, то достаточно онлайн-сервисов.