ABBYY FineReader Engine научился классифицировать документы

Компания ABBYY выпустила FineReader Engine 11 – новую версию инструментария разработчика (SDK), который позволяет добавлять в cоздаваемые решения функции оптического распознавания текста (OCR), распознавания рукопечатных символов (ICR), оптического распознавания меток (OMR), распознавания штрих-кодов и конвертации документов в PDF-файлы. SDK выходит одновременно для Windows, Linux и Mac-платформ.

В версии 11 появилась функция автоматической классификации, которая сортирует документы во входящих пакетах по заранее заданным типам (например, счета, счета-фактуры, договоры, справки, полисы и т.п.). Предварительно классификатор обучается на небольшом наборе документов, представляющих тип, который необходимо определять. Определение типа происходит по графическим и текстовым признакам. Новая функция позволяет классифицировать документы со скоростью до 120 страниц в минуту на одно ядро процессора.

В FineReader Engine 11 улучшена работа с форматом PDF: экспорт в PDF стал быстрее на 12%, сжатие фона документа позволяет уменьшить размер файлов на 50%, добавлен экспорт в принятый в Европе и США стандарт архивного хранения PDF/A-2. Полностью поддерживается 64-битная архитектура. Добавлен ряд возможностей для улучшения качества распознавания изображений, полученных с помощью фотокамеры. Новый API позволяет извлекать данные из всех полей визитной карточки и экспортировать их в CRM-системы или другие программы. Улучшено качество распознавания арабского, китайского, японского и корейского языков. Всего инструментарий распознаёт печатные тексты на 202 языках, заполненные от руки формы – на 126 языках. В новую версию включена словарная поддержка латыни, азербайджанского языка, а также дореволюционного варианта орфографии русского языка.