В архиве казахстанской компании «Казцинк» за десять лет работы накопилось около 25 тысяч страниц бумажной документации. В таких условиях о быстром поиске не могло быть и речи, он часто занимал слишком много времени. В результате в декабре 2006 года было решено внедрять электронный архив документов. За основу была взята система «1C:Архив».
Кроме этого нужно было решить задачу оцифровки и распознавания бумажных документов, а также обеспечить их надежное хранение при высокой доступности базы документов. Стоит отметить, что оцифровка данного массива не представляет собой слишком сложную задачу для систем потокового ввода.
Здесь после исследования рынка выбор был сделан в пользу ABBYY Recognition Server. Эта система не только обеспечивает высокое качество распознавания, но и обладает богатыми возможностями по настройке, позволяет создать «прозрачный» процесс распознавания для пользователя и не требует специальных знаний по обработке изображений и технологиям OCR. Кроме того, как отметил начальник управления информационных технологий и автоматизации АО «Казцинк» Владимир Мошнинов, Recognition Server легко масштабируется и интегрируется с другими приложениями, что весьма важно для выстраивания ИТ-инфраструктуры компании. Надо отметить, что задача получения точно распознанных электронных копий документов не ставилась. Распознавание используется лишь для полнотекстового поиска в электронном архиве. Результаты сохраняются в формате PDF в режиме «изображение поверх текста», который отображает оригинал документа, позволяет искать текст на русском и английском языках и копировать его в другие приложения. Данный формат делает некритичными ошибки распознавания. По оценке специалистов, уровень ошибок составляет менее 5% и возникают они, как правило, при попытке распознавания рукописных текстов (подписи, вручную проставленные номера документов и т. п.). Однако на качестве полнотекстового поиска это практически не сказывается. Кроме того, документы в формате PDF занимают предсказуемый объем, который можно настроить в параметрах экспорта Recognition Server.
На рабочем месте оператора установлено МФУ Xerox WorkCenter Pro 123. Выбор этого устройства обусловлен прежде всего тем, что в компании есть собственная печатно-множительная служба с сертифицированными специалистами Xerox, так что проблем с расходными материалами и обслуживанием быть не должно. Такие машины могут помещать образы документов сразу в заданный каталог на файловом сервере, из которого Recognition Server будет автоматически забирать их на распознавание и выдавать результат для пользователя в другой каталог. Если же нужно обработать пакет документов из автоподатчика и при этом «неформатные» листы отсканировать вручную на рабочем экране, то модель Xerox WorkCenter Pro 123 позволяет выполнить и эти специфичные задачи. Наконец, в том случае, если в пакете листов для сканирования находится несколько страниц плохого качества (которые не пройдут через автоподатчик), то их можно тут же скопировать и вложить в пакет. В результате он весь пройдет из автоподатчика.
В проектах, связанных с массовым вводом и сканированием документов, именно такие нюансы могут существенно влиять на производительность и общие сроки работ.
У «Казцинка» отладка процесса сканирования и распознавания много времени не заняла. На создание электронного архива организационно-распорядительной документации потребовалось около двух месяцев (25 000 страниц, один человек, занятый на оцифровке). Оптимизировать решение данной задачи помогла правильная организация работы: потоковое сканирование производится в рабочее время, процесс распознавания выполняется ночью. Это позволило разгрузить сервер распознавания для оперативной работы административно-хозяйственного отдела.
Сегодня операторы по оцифровке бумажных документов занимаются отработкой заявок служб и в фоновом режиме — переводом документов центрального архива долговременного и постоянного хранения.
О компании «Казцинк»
«Казцинк» — крупный интегрированный производитель цинка с большой долей сопутствующего выпуска меди, драгоценных металлов и свинца. Основан в 1997 году. Более 20 тысяч человек заняты в горной, обогатительной, металлургической отраслях, а также в выработке электроэнергии и машиностроительном производстве.