Государственная публичная научно-техническая библиотека (ГПНТБ России) располагает огромными фондами. В ее хранилищах находится более 7 млн. экземпляров отечественных и иностранных изданий, посвященных различным отраслям науки и техники. Важно отметить, что лишь восемьдесят процентов этого фонда представлено в традиционном виде, на бумаге, остальные двадцать процентов размещены на всевозможных микроносителях.
Плюс ко всему любая библиотека, существующая больше двадцати лет, и ГПНТБ России здесь не исключение, имеет большой фонд, не отраженный в электронном каталоге. В результате перед многими крупными книгохранилищами стоит задача оцифровки устаревших карточных каталогов. Да если и весь каталог переведен в электронную форму, поиск нужной литературы не так прост, как кажется на первый взгляд. Часто для того, чтобы найти необходимую книгу или журнал заданной тематики, приходится строить гипотезы относительно того, как могли бы называться соответствующие материалы, или проводить поиск по различным классификаторам, например по российскому УДК или международному ISBN. Для этого надо быть специалистом в библиотечном деле, для обычных же посетителей библиотек такая работа превращается в длительное и непродуктивное занятие. Кроме того, положение усугубляет то, что составители классификаторов часто просто не успевают за появлением новых тем. Так что основная задача, которую должен был решить новый каталог, — это обеспечить быстрый поиск необходимой карточки по ключевым словам обычному читателю, не являющемуся специалистом в области библиотечного дела. Немаловажной задачей, как особо отметил первый заместитель генерального директора ГПНТБ по научной работе и информатизации Борис Маршак, было также сокращение площадей, которые занимает каталог. А площади в любой библиотеке являются таким ресурсом, которого никогда не бывает слишком много.
Специалисты ГПНТБ России пришли к выводу, что для решения данной задачи необходимо создать имидж-каталог, способный не просто упорядочивать изображения карточек, но и выполнять полнотекстовый поиск по их содержимому. В этом случае читатель будет избавлен от необходимости выполнять библиографический поиск, а обнаружение всех материалов по интересующей теме займет считанные секунды.
Новое решение было реализовано на основе одного из продуктов семейства ИРБИС, а именно «Системы автоматизации библиотек ИРБИС 64 — Полнотекстовые базы данных», являющейся собственной разработкой ГПНТБ России и Международной Ассоциации пользователей и разработчиков электронных библиотек и новых информационных технологий (Ассоциация ЭБНИТ). Выбранный продукт располагал практически всеми необходимыми качествами за исключением одного — возможности поиска по ключевым словам, поскольку для этого нужен текст карточек в электронном виде. Таким образом, для реализации решения в виде, пригодном для работы обычных читателей, в данную систему необходимо было встроить функцию распознавания текста с оцифрованных каталожных карточек.
Исходя из высокого качества технологий распознавания компании ABBYY и их устойчивой репутации специалисты ГПНТБ России остановили выбор на продукте ABBYY FineReader Engine. Это современное средство разработки предназначено для встраивания в приложения технологий распознавания печатных текстов, рукописных символов, меток и штрихкодов. ABBYY FineReader Engine включает в себя все основные функции системы (сканирования и распознавания) и при этом не имеет графического пользовательского интерфейса. Впрочем, в нём в данном случае не было нужды. К тому же это позволило упростить работу с системой, поскольку использование традиционных продуктов оптического распознавания текста, как правило, вызывает у персонала существенные сложности и требует масштабной программы обучения. Здесь же внешний вид привычного приложения не претерпел никаких изменений.
В новых модулях ИРБИС, где работают теперь технологии ABBYY, процесс обработки строится прежде всего на автоматическом («на лету») распознавании текстов каталожных карточек. Таким способом удалось добиться следующих результатов.
- Реализован полнотекстовый поиск. Важно отметить, что он ведётся с ранжированием результатов с учетом близости слов, морфологии и многих других особенностей текста. За счёт этого решение, по-прежнему поддерживая возможности библиографического поиска (для профессионалов), способно вести и полноценный тематический поиск. Таким образом, читатели ГПНТБ России теперь избавлены от необходимости часами просиживать у обычного каталога, строя предположения «как же это могло называться?».
- Решение не предъявляет никаких требований к порядку сканирования и размещения образов карточек. Поэтому процесс ретроконверсии карточных каталогов в ГПНТБ России теперь может быть организован так, как это удобнее сотрудникам, а не каким-либо программам.
Как отмечают создатели новых модулей системы автоматизации библиотек ИРБИС, ни разу не возникло необходимости обращаться за консультациями в компанию ABBYY. Все работы по интеграции «Системы автоматизации библиотек ИРБИС 64 — Полнотекстовые базы данных» и FineReader Engine, включая отладку, были выполнены сотрудниками ГПНТБ России самостоятельно. Впрочем, речь идет о профессиональных программистах высокой квалификации.
О ГПНТБ России
Государственная публичная научно-техническая библиотека России основана в 1958 году. Она является центральным органом НТИ, государственным депозитарием отечественной и зарубежной научно-технической литературы, автоматизированным информационным центром, координационным центром по методологии комплектования, межбиблиотечному абонементу, книгообмену среди научно-технических библиотек страны, головной организацией по ведению и развитию автоматизированной системы Сводного каталога России и стран СНГ по научно-технической литературе.
Оцифровку каталожных карточек (без их распознавания) производила компания «ПроСофт-М», являющаяся головным подразделением корпорации «Электронный архив» («Элар»), по договору аутсорсинга. Эта компания имеет десятилетний опыт подобного рода деятельности и обладает всеми необходимыми техническими средствами, включая быстродействующие документ-сканеры и специальное оборудование для оцифровки ветхих оригиналов. Интересно отметить, что наряду с оборудованием лидеров рынка, таких как Canon, Fujitsu, Kodak, Panasonic и ряд других, «ПроСофт-М» использует средства ввода изображений, являющиеся собственной разработкой корпорации «Элар», в частности книжные сканеры.
Фактически система уже работает, по крайней мере для литературы, выпущенной после 1989 года. Причем запрос можно сделать из любой точки мира, просто зайдя на специальный раздел сайта ГПНТБ России.
Несмотря на то что работа по созданию электронного каталога в ГПНТБ еще не завершена в полном объеме (на момент написания этих строк процесс распознавания текста с бумажного каталога еще продолжался), перспективы развития построенной системы вселяют оптимизм. Продолжается и ее усовершенствование. В частности, специалисты приняли решение добавить возможность использования для поиска вербальных тематических навигаторов и классификаторов. Все это позволит читателю ещё свободнее ориентироваться в огромных массивах каталога и ещё быстрее находить интересующую литературу, пользуясь естественным языком. Примечательно, что новая функциональность уже реализована на уровне модели.