Термин "массовый ввод данных" имеет относительно давнее происхождение. Его придумали на заре внедрения информационных систем, когда началось активное использование емких носителей информации (магнитные ленты, барабаны и диски) и потребовалось заполнять их данными. Именно тогда возник интерес к технологиям, связанным с автоматическим вводом информации. Разрабатывались специальные читающие автоматы, построенные на логических схемах, предназначенные для ввода определенных типов символов, к примеру, цифр. Современные технологии оптического распознавания текстов (английское сокращение "OCR" - Optical Character Recognition) существенно превосходят возможности первых автоматов. Теоретически с их развитием отпала необходимость в машинистках для ввода больших объемов данных. Однако на практике во многих организациях все еще можно увидеть большие залы, заполненные старыми компьютерами, за которыми сидят сосредоточенные женщины и бьют по клавишам…
Проблема массового ввода данных стала особо актуальной в последнее время. Стало очевидно, что для организации управления и контроля необходимо, чтобы любая информационная единица, порожденная на уровне отдельного гражданина или отдельного предприятия, попадающая в зону интересов государства (финансовая операция, акт регистрации чего-либо и т.д.), сразу оказалась в информационных системах и была доступна в любой момент для анализа и обобщения. Возможность совместной работы отдельных распределенных по всей России информационных систем - вопрос отдельный, однако для начала нужно иметь недорогой и эффективный механизм сбора информации. Информация, получаемая от предприятий, может быть сразу представлена в электронном виде, в то время как граждане в подавляющем большинстве случаев подают данные в виде бумажных документов. Каждый из нас заполнял за свою жизнь немало всевозможных бланков, форм, анкет. Вся эта информация по большей части хранится в шкафах и на полках и фактически не доступна ни для чего, кроме текущего делопроизводства. Отсюда возникает проблема массового ввода данных, когда надо ввести и обработать большие объемы информации, представленные на бумажных носителях: в виде анкет, деклараций, форм и т. д. С подобными задачами сталкивается подавляющее большинство крупных государственных и коммерческих структур.
Как известно, преобразование документов в электронный вид осуществляется при помощи сканера. Но это только один из этапов преобразования - любой документ, попавший в электронный мир, может считаться полноценным лишь если случае, если он соответствует требованиям этого мира. А одним из главных требований является текстовое представление документа, которое позволяет производить поиск, сортировку и модификацию документов. Поэтому вторым этапом преобразования документа в электронный вид является конвертирование его в текстовый файл с помощью программ распознавания. Для создания эффективно действующей системы массового ввода данных крайне важны обе составляющие: и сканеры, и системы оптического распознавания. Однако для того, чтобы успешно построить систему ввода информации, необходимо четко представлять себе задачу, которую вы намерены решить.
Задачи ввода данных
Информация, которую необходимо вводить, бывает двух типов: структурированная и нестуктурированная. В первом случае это анкеты, таблицы и другие формы, в которых данные разнесены по полям и типизированы, т. е. описано, какой тип данных (фамилия, дата, вид документа и т.д.) должен быть в каждом поле. Неструктурированная информация - это обычный текст, например, тот, который вы сейчас читаете.
Более подробно мы об этом поговорим ниже, в разделах, посвященных технологиям распознавания, а здесь остановимся на задаче ввода структурированных данных (для простоты будем ее называть просто "ввод форм").
При вводе форм встает серьезная проблема качества информации. Что это значит? Информация является некачественной, если данные не соответствуют требованиям, налагаемым правилами их представления или объективными правилами, заложенными в природе данных. К примеру, если дата должна быть указана в виде "день-месяц-год", а заполнял форму американец и записал ее в виде "месяц-день-год", то вы имеете неверное представление данных. Если же у вас в номере месяца написано "13" или не сходится итог, то это уже нарушение правил, заложенных в смысл данных.
Когда вы собираете данные в электронном виде, у вас есть возможность контроля этих данных на этапе их ввода или конвертации. К примеру, вы можете дать возможность оператору выбрать месяц из списка, застраховав себя от ввода неверного названия месяца, и можете проверить соответствие суммы итогу, чтобы пропустить только заведомо верные данные. Когда же человек заполняет бумажный бланк, всех этих механизмов нет, он волен писать все, что ему вздумается. Поэтому мы говорим, что при представлении на бумажных формах информация имеет существенно более низкое качество, чем при представлении в электронном виде. Конечно, результирующее качество информации существенно зависит от того, как сделан сам бланк. Этот вопрос относится к числу вопросов организации процесса ввода документов.
Сканеры
Сканеры для массового ввода данных делятся на две категории: скоростные и промышленные. Разница между ними состоит в первую очередь в их производительности. У скоростных сканеров она колеблется в диапазоне от 10 до 40 страниц в минуту, в то время как у промышленных моделей производительность составляет от 40 до 200 и более страниц в минуту.
По внешнему виду скоростные сканеры похожи на обычные офисные сканеры, снабженные механизмом автоматической подачи документов. Тем не менее в отличие от последних работают они значительно быстрее. Большинство скоростных сканеров могут работать как в режиме автоматической подачи листов, так и в режиме планшетного сканирования. В последнем случае их используют для сканирования книг и журналов. Скоростные сканеры выпускаются компаниями Fujitsu, Bell+Howell, Mitsubishi, Hewlett-Packard, Avision, Kodak и некоторыми другими производителями. Эти устройства позиционируются в первую очередь для офисного применения в рабочих группах. Однако благодаря их относительной дешевизне многие организации в России приобретают такие сканеры для сканирования большого объема документации. Автоподатчики скоростных сканеров вмещают от 50 до 100 страниц. Их ценовой диапазон составляет от 1,5 до 8 тыс. долл.
Промышленные сканеры (в английской терминологии - production scanners) отличаются от скоростных тем же, чем промышленный сверлильный станок отличается от бытовой электродрели. Они обладают значительной механической прочностью и могут работать в непрерывном режиме. Как уже упоминалось, скорость сканирования находится в диапазоне от 40 до 200 и более страниц в минуту. Однако среди промышленных сканеров существуют и свои рекордсмены, которые обеспечивают скорость сканирования до 500 страниц в минуту. Устройства этого класса штатно оснащаются аппаратными реализациями сложных алгоритмов обработки изображений в реальном времени, что повышает качество полученных изображений. Автоподатчики промышленных сканеров позволяют загружать до 500 и более страниц. Промышленные сканеры выпускаются компаниями Kodak, Banctec, Bell+Howell, Fujitsu (модель M3099) и др.
Как правило, к промышленным сканерам поставляется значительное число дополнительных компонентов, которые позволяют решать специализированные задачи. Например, специальные лампы дают возможность сканировать цветные машиночитаемые бланки.
Встроенный принтер (imprinter) дает возможность пропечатывать в углу сканируемой страницы текст, который затем появится на отсканированном изображении. Или еще одна достаточно неожиданная опция - пылесос. Поскольку при сканировании больших объемов бумаги подающий тракт может забиться бумажной пылью, к некоторым сканерам поставляется специальный пылесос, который систематически включается и очищает сканер от бумажной пыли, мешающей работе сканера и создающей дефекты на изображении.
Важные характеристики
Любой сканер, который планируется использовать для сканирования большого объема документов, должен быть оснащен автоматическим податчиком бумаги. Это единственное универсальное условие, которое необходимо учитывать при выборе сканера, в остальном подбор сканера вещь сугубо индивидуальная и зависит от задач, которые вы перед собой ставите. В каких-то случаях форма документов разрабатывается под сканер, в каких-то, наоборот, - сканер подбирается под документы. В последнем случае, если формат документов нельзя менять ни в коем случае, подбор сканера придется осуществлять экспериментально.
Хорошие сканеры стоят недешево, поэтому покупать их следует с прицелом на будущее. Допустим, вам необходимо перевести в электронный вид документы из уже существующего у вас архива. Как правило, архивные бумаги хранятся сшитыми и пропустить их через автоподатчик невозможно. Казалось бы, оптимальным решением является приобретение нескольких планшетных сканеров, которые будут параллельно обрабатывать архивные документы. На самом же деле имеет смысл приобретать один скоростной сканер с автоподачей страниц, который может работать в планшетном режиме. При вводе документа с планшета скоростной сканер работает в несколько раз быстрее обычного сканера, следовательно, потребность в нескольких устройствах отпадет, вы также сэкономите на рабочих местах. А новые, еще не подшитые документы можно сканировать с автоподачей. Следовательно, покупая один скоростной сканер, вы существенно ускорите ввод как новых, так и старых документов.
Учитывайте, что скорость, указанная в паспортных данных сканера, достижима только в том случае, если все остальные факторы близки к идеальным. Для того чтобы загрузить на полную мощность сканер с производительностью 200 страниц в минуту, вам необходимо располагать бригадой хорошо обученных людей, которые будут четко, без суеты и задержек подготавливать документы к сканированию. При этом сами документы должны быть однородными, бумага должна быть прочной, ровно обрезанной, без ворса и рваных краев. На практике же скорость сканирования зависит от многих факторов, не имеющих непосредственного отношения к сканеру, поэтому его реальная производительность определяется только в работе. Грубую оценку реальной скорости можно получить, поделив паспортную производительность пополам.
При оценке скорости сканирования необходимо учитывать еще одну особенность. Дело в том, что иногда в погоне за цифрами производители сканеров несколько лукавят. Чаще всего паспортная скорость достигается при сканировании листов формата A4 в альбомной ориентации (т. е. при минимальной продольной длине листа) с разрешением 200 точек на дюйм. Между тем для большинства задач массового ввода этого разрешения недостаточно, так как при этом теряются важные детали изображения. Увеличение же разрешения до 300 точек на дюйм может привести к падению скорости сканирования в полтора-два раза. Кроме того, для практических целей вам вряд ли понадобятся изображения в альбомной ориентации - для их поворота придется использовать либо специальные платы (что стоит недешево), либо достаточно мощный компьютер, который будет поворачивать изображения в темпе сканирования.
Ресурс работы сканера определяется, исходя из общего объема документов, которые требуется преобразовать в электронную форму. Не следует тратить деньги на покупку дорогого супернадежного сканера, если вы выработаете его ресурс только за двадцать лет. За это время технологии уйдут далеко вперед и старая техника станет безмолвным памятником вашей недальновидности. Нормальный срок выработки ресурса сканера - 5-7 лет. Отработав этот срок без значительных простоев, устройство, независимо от стоимости, окупит себя многократно.
Ресурс сканера не всегда указывается в паспортных данных. Однако эту информацию, как правило, можно получить у дилера. Если же ресурс работы неизвестен, покупать такой сканер не стоит. Нелишне будет узнать и о ресурсах расходных компонентов сканера. Например, ролики и другие детали механизма подачи, в зависимости от модели сканера, рассчитаны на сканирование от 100 до 500 тыс. листов. А лампу, при интенсивной эксплуатации, скорее всего придется менять раз в полтора-два года, а может и чаще, поскольку при длительном использовании ее яркость и равномерность освещения падают, что моментально сказывается на качестве получаемых изображений.
При покупке сканера имеет смысл запасаться основными расходными компонентами по крайней мере на год. Дилеры заказывают их, как правило, по мере необходимости, и поставка необходимой вам запчасти может растянуться на месяц и более. Кроме того, в ситуации перманентного экономического кризиса в России никто не может дать гарантии, что уже через год ваш дилер не переключится на торговлю картошкой.
При выборе сканера важно оценить характеристики документов и требования к их сохранности. К примеру, ветхие документы не выдержат прохода через автоподатчик, который выбирает страницы из пачки за счет трения (а именно таким типом устройств оснащено большинство сканеров). Этот автоподатчик не подходит и в случае, если сканируемые документы имеют значительную ценность и никак нельзя допустить их повреждения. В этих случаях используют сканер с подачей на электростатической ленте (к которой лист как бы "прилипает") или с вакуумным подсосом страниц. Последние стоят достаточно дорого, но обеспечивают максимальную сохранность документов. Правда, стоит отметить, что вакуумная подача, как правило, не является автоматической - листы кладутся в приемный лоток по отдельности.
Надежность сканера - один из наиболее важных параметров. Представьте себе, что перед вами стоит задача отсканировать бюллетени голосования во время общего собрания большого акционерного общества, где могут присутствовать десятки тысяч человек, и от результатов голосования зависит дальнейший ход событий. Автор этих строк однажды попал в такую ситуацию, производя обработку бюллетеней на ежегодном собрании известного АО. Представьте мои ощущения, когда я положил увесистую пачку бюллетеней в автоподатчик сканера, а множество людей, судьба которых, возможно, решалась в эти минуты, собрались за моей спиной в ожидании результатов голосования. Любая заминка во время сканирования могла бы интерпретироваться нервной публикой как попытка сорвать голосование или исказить его результаты. И хотя рядом стоял запасной сканер, полностью готовый к работе, у меня выступил холодный пот.
Этот пример следует рассматривать скорее как курьез, однако я привел его, чтобы продемонстрировать простой тезис: понятие надежности сканера распространяется не только на аппарат, но и на процесс сканирования. Иными словами, сбоем можно считать не только неисправность сканера (с хорошими сканерами такое случается крайне редко), но и всевозможные проблемы в процессе сканирования, как то: "зажевывание" бумаги, захват нескольких страниц одновременно, перекос страницы во время сканирования. Эти сбои в лучшем случае приводят к существенному замедлению процесса сканирования, а в худшем могут исказить результаты. Конечно, комплекс ввода должен быть спроектирован таким образом, чтобы максимально нивелировать последствия сбоев сканера. Но, к сожалению, это не всегда возможно, и лучше, если ваш сканер будет оснащен специальными средствами, позволяющими обнаруживать такие сбои, как повреждение листа, захват нескольких листов и сильный перекос.
Распознавание
Эффективность систем распознавания при переводе текстов в электронную форму уже доказана практикой, и найдется немного людей, которые в этом сомневаются. Однако еще пять лет назад ситуация была прямо противоположной - в эффективность OCR-технологий верили только редкие энтузиасты. Эта ситуация имела под собой вполне объективную причину - существующие на тот момент технологии были крайне несовершенны. Скептики (да и прагматики тоже) говорили: зачем нужна ваша система, если после нее надо производить дополнительную проверку - проще набить вручную. Возразить им было трудно.
Перелом в сознании пользователей произошел, когда системы оптического распознавания стали ошибаться реже, чем профессиональные машинистки. Все сразу вспомнили, что машинистки тоже делают ошибки, и за ними также нужно вычитывать.
Объекты распознавания
Современные технологии OCR позволяют достаточно эффективно распознавать печатный текст, независимо от шрифта, с минимальным количеством ошибок. Например, система FineReader 4.0 при работе с текстами среднего качества делает не более одной-двух ошибок на машинописный лист, причем практически в 100% случаев помечает свои же ошибки, что позволяет оператору легко найти и исправить их.
Если задачу ввода печатных текстов можно считать решенной, то ввод рукописных текстов - существенно более сложная задача, и она еще ждет своего окончательного решения. Уже сейчас существуют системы, которые достаточно эффективно (лучше, чем машинистка) вводят так называемый рукопечатный текст (когда каждая буква в слове пишется раздельно). Эти системы используются для ввода бланков, заполняемых от руки. Чтобы отличить системы, распознающие рукописный текст, от обычных OCR-систем, их называют ICR (Intelligent Character Recognition). Смена Optical на Intelligent, как вы понимаете, означает усложнение технологии.
Возможно, вы заполняли анкету застрахованного лица Пенсионного фонда или налоговую декларацию (кстати, машиночитаемая налоговая декларация в России была внедрена в 1998 году одновременно с США). Бланки этих форм имеют некоторые особенности, как то: выделенные области под каждую рукописную букву (знакоместа), реперные черные квадраты по углам, четкая инструкция по заполнению - все эти специальные требования необходимы для автоматизированного ввода рукописной информации. Отвечающие этим требованиям бланки называются машиночитаемыми.
Задача ввода неадаптированных рукописных текстов, с нашей точки зрения, скорее академическая, чем практическая. Однако ситуация выглядит совсем иначе, если коснуться задачи ввода рукописного текста с планшета или экрана карманного компьютера. Развитие рынка карманных компьютеров во многом тормозится отсутствием надежных систем ввода информации "от руки". Отчасти это связано с тем, что карманные компьютеры все еще сильно ограничены в ресурсах, поэтому полноценная система распознавания на них работать не может. По мнению экспертов, в течение ближайших года-полутора карманные компьютеры существенно прибавят в характеристиках при сохранении цены, и тогда можно надеяться, что и встроенные в них системы распознавания рукописного текста станут "умнее".
Существует большой класс задач, при решении которых необходимо вводить информацию из форм, полная стандартизация которых невозможна. Такие формы называются гибкими. Типичным примером такой формы является банковское платежное поручение. Другой пример - обработка входящей корреспонденции при занесении в систему документооборота. В любом письме существуют общие атрибуты: отправитель, получатель, дата, номер и т.д. Очевидно, что положение этих полей в документе может быть любым, а значит, для решения задачи автоматического ввода этих атрибутов также нужна технология ввода гибких форм. Распознавание гибких форм основано на описании формы, включающем всевозможную информацию, которая может помочь системе найти то или иное поле.
Сегодня в мире нет программных продуктов, которые можно было бы настроить на ввод любых гибких форм без программирования. Однако уже есть готовые приложения, в основе которых лежит технология распознавания гибких форм, такие как FineReader Bank - система автоматизированного ввода платежных поручений. Многие компании разрабатывают собственные решения, лицензируя у производителей модули распознавания.
Арам Пахчанян:вице-президент компании
ABBYY Software House
по корпоративным проектам.
С ним можно связаться по адресу электронной почты Aram_P@abbyy.ru