Современные OCR-решения выходят за рамки простого распознавания данных в скан-копиях. Сейчас эта технология широко используется для работы с цифровыми документами совместно с системами хранения или обработки документации благодаря функциям сверки разных версий документов, возможности извлекать различные данные, контролировать наличие штампов, подписей и других элементов, а также выполнять проверки с внешними базами, например ФНС, МВД и другими. Георгий Гончаров, инженер-консультант SOICA, компания SL Soft, поделился с Клубом ОЦО опытом внедрения OCR-решения для обработки договорной документации в компании.
Сценарии обработки договоров
При реализации проекта по обработке договорной документации для крупного ИТ-дистрибьютора было внедрено OCR-решение SOICA. В рамках проекта было реализовано четыре сценария обработки договоров.
Сценарий 1: полнотекстовая сверка двух договоров. Применяется для сличения ранее согласованного договора в формате docx с версией, присланной контрагентом, например, с подписанным сканом в формате pdf. Сравнение документов происходит посимвольно, цветом подсвечиваются места разночтений по двум документам. Это позволяет пользователю системы оперативно реагировать на изменения со стороны контрагента (см. рисунок).
Сценарий 2: сравнение договора с шаблоном. В сравнении участвует шаблон документа и заполненная версия. При проверке пропускаются изменяемые фрагменты (номер и дата договора, заказчик и т.д.), а основной текст, прописанный в теле договора, сверяется полнотекстово — посимвольно и построчно. При обнаружении расхождений SOICA оповещает пользователя о нарушениях и выделяет цветом обнаруженные изменения.
Сценарий 3: классификация и атрибутирование. При поступлении договора на обработку происходит его полнотекстовый анализ и дальнейшая классификация. Например, по признаку «язык» документы делятся на англоязычные, русскоязычные и двуязычные, по типу — на договоры аренды, предоставления услуг и т.д. После этого в соответствии с классификацией из договора извлекаются нужные атрибуты. Атрибуты позволяют разделить информацию и в каждый департамент направить только те данные, которые нужны для работы конкретного подразделения. Так, юристам отправляется одна информация, кредитному отделу — другая. Также в этом сценарии ИТ-решение контролирует, на месте ли необходимые элементы — подписи, печати, реквизиты, адреса и т.п.
Сценарий 4: финализация договорной документации. Этот сценарий включает в себя комплексную обработку договора: полнотекстовое распознавание, извлечение требуемых атрибутов, перевод в pdf-версию и нанесение QR-кода по правилам, определенным заказчиком. QR-код содержит номер договора, дату и ссылку на внутреннюю систему хранения.
Этапы внедрения OCR-решения
Все этапы внедрения являлись типовыми — эта схема справедлива для большинства наших проектов.
На первом этапе выполняется аудит текущих процессов. Здесь мы изучаем, как организован текущий процесс обработки документации, и выявляем типы договоров, с которыми в дальнейшем будет работать OCR-решение.
Второй этап — обучение системы на реальных документах. Обучение может проходить на мощностях заказчика. В данном случае база содержала чуть более 500 договоров. На этой ступени прорабатываются алгоритмы работы с каждым типом документов, а также операции, которые необходимо выполнить системе. Далее OCR-решение проводит классификацию документа до извлечения атрибутов, на основе которых формируется карточка документа. Затем сформированная карточка передается в систему заказчика.
Технические особенности внедрения
Внутри системы электронного документооборота заказчика реализован коннектор к системе распознавания. В СЭД пользователь нажимает кнопку добавления документа на распознавание, после чего файл из системы отправляется в SOICA. Далее происходит обработка массива данных, классификация, извлечение атрибутов, затем формируется XML-файл, который передается по REST API обратно в СЭД. Пользователь получает финальный результат в привычном ему интерфейсе. Благодаря открытому REST API решение может быть интегрировано в любые системы заказчика.
Мы предоставляем систему полностью — у заказчика есть модули администрирования и валидации. В модуле администратора возможно как настраивать с нуля правила обработки новых типов документов, так и редактировать уже существующие. Вся настройка осуществляется по принципу no-code, поэтому SOICA проста в освоении. Кроме того, мы как разработчик осуществляем техподдержку и помощь в обучении, передаем видеоуроки и лабораторные работы.
Эффективность автоматизации
Очевидные преимущества — значительное повышение скорости работы с договорами, уменьшение роли человеческого фактора при проверке документов и, как следствие, снижение рисков внесения несанкционированных изменений. При реализации данного проекта дополнительно были улучшены механизмы работы менеджеров с договорной документацией, позволяющие сохранять всю историю изменения документа и отслеживать его текущий статус.
Топ-5 приоритетов для HR-руководителей в 2024 году
Исследование Gartner: что должно измениться в подходах HR-руководителей к воспитанию лидеров, управлению изменениями, карьерному развитию сотрудников.
«Завершили проект по приему новых компаний, планируем развивать новые сервисы»
Нелли Валихова, «Сегежа Групп – ОЦО» - об итогах-2023 года и приоритетах на 2024 год: предоставление аналитических данных бизнесу и внедрение КЭДО