О том, что объемы данных постоянно растут, говорится уже более чем полвека. И действительно, каждые 18 месяцев объем данных удваивается. Этот процесс, точнее, борьба с его последствиями, во многом способствовал совершенствованию ИТ.
При этом накопление информации происходит быстрее, чем увеличиваются бюджеты. Хотя, с другой стороны, такая «вилка» не мешает распространению постулата о том, что все равно выгоднее каждые несколько лет закупать новые СХД. Ведь затраты на их установку оказываются ниже, чем усилия по наведению порядка в накопленных данных.
Однако все не так просто. Накоплению информации способствует множество факторов. Это и деятельность регулирующих органов, которые предписывают хранить нужные данные в течение определенного, и довольно длительного, срока. Внедрение новых систем автоматизации бизнеса или модернизация уже имеющихся также приводит к увеличению объемов данных. А только при обновлении ERP‑системы, особенно «тяжелой», АБС или СЭД, объемы могут вырасти в несколько раз, притом что данные остались теми же самыми. И процессы, связанные с накоплением все больших объемов, начали приводить к качественным изменениям, последствия которых серьезнее, чем кажется на первый взгляд.
Конец безразмерности
Эксперты все чаще признают, что архитектура ПО для работы с данными во многом оставалась в прошлом. Архитектура СУБД, например, не претерпела никаких принципиальных изменений с конца 70‑х гг. прошлого века. Все распространенные на рынке продукты являются прямыми наследниками или ADABAS, или Ingress, или System R. А за эти 30 лет оборудование претерпело изрядные усовершенствования, которые в полной мере не используются. В 1970‑е гг. основным узким местом был дефицит оперативной памяти. Сейчас узкое место — это обмен данными между дисковыми накопителями и ОЗУ, выросший с тех времен, но не так значительно, как быстродействие других компонентов систем. Это в полной мере показал проведенный Адамом Якобсом нашумевший эксперимент, суть которого состоит в обработке аналитического отчета к базе данных с большим количеством записей (их было без малого 7 млрд). Что самое интересное, выявленная в его ходе недозагрузка процессора не вызвала никаких вопросов в сообществе разработчиков использованной СУБД — хотя задавалось немало вопросов о корректности проведения этого эксперимента и выводов, которые были сделаны. В итоге, как показывают многие тесты, СУБД существенно проигрывают специализированным системам по производительности, особенно при не вполне стандартных запросах. Причем это как минимум десятикратный проигрыш.
К тому же объемы данных с того времени выросли на несколько порядков. То, что казалось 30 лет назад безразмерным, в настоящее время таковым уже не является. Даже в 1980‑е гг. комплексы хранения данных емкостью в 100 Гбайт по всему миру насчитывались единицами, а сейчас накопители такой емкости считаются небольшими даже для систем начального уровня. Базы данных такого размера также нельзя назвать чем‑то сверхъестественным. В результате современные СУБД не слишком хорошо подходят даже для обработки транзакционных данных. Так что необходимо создавать новые системы «с нуля» в расчете на перспективные потребности. Именно такой вывод сделан в статье группы авторов «Конец архитектурной эпохи, или Наступило время полностью переписывать системы управления данными», которая вышла еще в 2007 г. (перевод ее можно найти по адресу http://citforum.ru/database/articles/end_of_arch_era/).
Не только размер имеет значение
В последнее время многие эксперты обращают внимание на то, что объемы разных типов данных растут с различной скоростью. Ежегодное увеличение структурируемых данных составляет 32%, резервных копий на 49%, а неструктурируемых данных уже на 63%. В результате, по прогнозу IDC, в 2013 г. объем неструктурируемых данных будет в 5,5 раз превышать объем структурируемых и составит более 55 экзабайт. Для сравнения, в 2009 г. объем неструктурируемых данных был лишь вдвое выше объема структурируемых. А из вновь создаваемых данных, по оценке генерального директора компании EMC Джо Туччи, 90% приходится на неструктурируемые.
Причем происходит это и на корпоративном уровне. Так, исполнительный вице-президент и директор по технологиям группы общих сервисов корпорации Disney Б. Алберс замечает в этой связи: «Пожалуй, сегодня мы за год генерируем больше данных, чем вся Walt Disney за первые 80 лет существования. Проблемы начинаются, когда мы задумываемся, что со всем этим делать». И действительно, анализ и обработка больших массивов неструктурируемых данных с помощью традиционных средств сложны и требуют больших затрат. Можно привести несколько примеров. Так, распознавание одной страницы образа документа занимает в лучшем случае 10 секунд и может требовать вмешательства оператора. При этом система распознавания далеко не так просто внедряется и требует серьезных инвестиций в дополнительное оборудование. А автоматизированную обработку некоторых типов данных, например оцифрованного аудио и видео, на нынешнем уровне развития технологий вести просто практически невозможно. К тому же для таких данных слабо применимы такие технологии, как дедупликация или использование файловых систем со сжатием. В итоге, по данным IDC, до 70% информации приходится хранить и поддерживать, несмотря на то, что реально она не используется.
Важная проблема связана с оценкой качества данных. Ведь многое из того, что генерируется производственными системами, сохраняет свою полезность совсем недолго. Многие данные требуют проверки. Это информация из внешних источников, которая может быть если не явной дезинформацией, то искажена в силу определенных причин. Нельзя исключать и ошибок, как операторов, так и автоматизированных систем. Те же системы оптического распознавания ошибаются довольно часто. В результате возникает проблема, как отделить агнцев от козлищ. Так что приходится иметь дело с целым комплексом проблем, который существенно глубже, чем просто рост объемов данных, даже если речь идет о быстром и лавинообразном процессе.
Анализ больших данных. Как это делается
Суть работы с большими данными состоит в том, чтобы для получения наилучших статистических показателей задавать наилучшие вопросы и искать на них ответы. Помочь в этом могут аналитические движки, из которых особенно известны Apache Hadoop (его ядро с открытым исходным кодом используют также решения Cloudera, MapReduce, создаваемый при участии EMC и IBM InfoSphere BigInsighs), HPCC Systems и 1010data. Эти сервисы используют распределенную архитектуру и не требуют предварительной обработки данных для анализа. Все они работают по популярной сейчас облачной модели. При этом можно использовать данный инструментарий как по модели публичного облака, так и развернуть соответствующий кластер внутри компании. Возможно и сочетание обоих подходов, что активно продвигается, в частности, EMC. Причем, в отличие от многих серверов баз данных, все эти системы хорошо работают и в виртуальных средах.
Механизмы работы этих движков близки к тем, что используются в поисковых системах Интернета. Не случайно тот же Hadoop, например, изначально был создан сотрудниками Yahoo!. И, естественно, в них отсутствуют масса архаизмов и связанных с ними издержек, которые, как уже было сказано выше, часто сильно мешают при обработке больших объемов данных, особенно при нестандартных запросах.
Но главной проблемой оказалось преодоление стереотипов, сопровождающих привычные методы работы со структурируемыми данными. Вот как об этом было сказано в номере корпоративного журнала компании Pricewaterhouse Coopers, посвященном большим данных: «Организуемая в поисковом режиме работа с большими данными по образцу Google меняет образ мышления аналитика и влечет трансформацию системы информационно-аналитического обеспечения корпоративного управления. Ситуативный подход к большим данным требует от аналитиков творческой активности и особых навыков для составления запросов и интерпретации извлекаемых знаний. В результате каждое обращение к большим данным — это уникальный творческий акт, в отличие от стандартных систем анализа деловой информации в транзакционных и других системах управления реляционными базами данных с их фиксированными запросами и типовыми задачами».
Многих потенциальных потребителей сдерживает и то, что основную массу поставщиков составляют совсем молодые компании из числа стартапов. Хотя, как уже было сказано выше, многие крупные игроки также выходят на этот рынок. Причем только IBM и EMC их перечень не исчерпывается. Значительную активность ведут практически все заметные игроки рынка систем хранения и серверов, включая Dell, HP, NetApp. Так что процесс консолидации на этом рынке будет способствовать дальнейшему росту в этом сегменте.
Как можно использовать большие данные
Анализ неструктурируемых данных, хранимых как в корпоративных информационных системах, так и в общедоступных источниках, позволяет получать весьма ценную для бизнеса информацию. Причем не прибегая к дорогостоящим исследованиям, которые к тому же требуют значительных затрат времени на проведение и обработку результатов.
Классической задачей анализа больших данных можно считать мониторинг СМИ, как традиционных, так и новых медиа: блогов, социальных сетей, Web-форумов. Известна фраза французского президента де Голля: если после важного решения или назначения не появилось карикатур в газетах — значит, что‑то делается неправильно. Тем более что анализ информации из новых медиа может принести много ценной информации о поведении потенциальных потребителей той или иной продукции, обыграть потенциально выигрышные моменты в рекламной кампании нового товара или услуги, планировать всплески спроса, связанные с разными событиями и явлениями, а также оценивать отток или приток клиентов.
Особенно зрелищным результатом использования обработки больших данных стала победа суперкомпьютера Watson в телеигре Jeopardy! (его аналог на нашем телевидении — шоу «Своя игра»). Причем его соперниками стали два чемпиона в этом состязании эрудитов.
Есть примеры успешного использования таких средств и для решения бизнес-задач. Например, сеть Wal-Mart использовала такие методы для планирования спроса на определенные классы товаров, пользующиеся самым высоким спросом во время сезона штормов. При этом выводы исследования оказались неожиданными, поскольку самым востребованным после батареек товаром стал один из видов печенья, который может долго храниться без холодильника и не требует никакой кулинарной обработки.
Компания Disney, уже упомянутая выше, применяет средства анализа больших данных для планирования продаж своей продукции, а также для верстки сетки киносеансов. Аналогичным образом, насколько нам известно, действует и российская сеть кинотеатров «КАРО Фильм».
Использовались средства работы с большими данными и в проектах автоматизации госсектора. Так, в мае были озвучены результаты пилотного проекта в Испании, где департамент социальной службы хунты (администрации) области Кастилия и Леон констатировал снижение трудозатрат на оформление социальных льгот для инвалидов и пожилых людей на 25% за счет использования уже накопленной информации о гражданах.
Уйти от субъективизма
Дмитрий Лактионов,
руководитель направления ECM-решений, «IBM в России и СНГ»То, что компаниям приходится хранить неиспользуемые объемы информации, — лишь малая толика проблем, связанных с задачей эффективного управления и работой с неструктурированной информацией. За решение данной задачи отвечает целый класс систем ECM (Enterprise Content Management), использование которых существенно повышает доступность и востребованность нужной информации, при этом помогая избегать риска создания малоиспользуемых хранилищ данных. Даже творческий подход к решению задач по работе с «большими данными» должен предусматривать возможность формализации механизмов обращения к источникам и анализа данных, так как в противном случае начинает превалировать субъективный фактор и теряется единая точка отсчета, необходимая для объективной работы аналитика. Должны существовать инструменты, фиксирующие этот творческий акт и позволяющие воспроизвести его снова для решения аналогичных задач.
Серьезный шаг в работе с неструктурированной информацией был реализован в рамках проекта IBM Watson. Хотелось бы напомнить, что в качестве одного из основных источников информации для IBM Watson была база, являющаяся копией Wikipedia. Способность компьютера понимать вопросы на естественном языке, на основании этого понимания делать запросы к источникам неструктурированной информации, а потом производить аналитическую выборку возможных ответов, делая это с высокой степенью достоверности, — существенный прогресс в области решения задач по автоматической обработке больших массивов неструктурированной информации.
Потенциал современных систем не задействоваН в полной мере
Максим Андреев,
заместитель директора департамента ИТ компании КРОК, руководитель направления бизнес-приложенийПри анализе структурированной информации современные информационные системы уже давно помогают в поиске неявных закономерностей. Примеры, приведенные в статье, как раз демонстрируют использование инструментов data mining. Однако такие решения ограничены той совокупностью данных, которая дана алгоритму для анализа. Аналитик Wal-Mart решил проверить, а есть ли корреляция между погодой и продажами товаров, — и обнаружил ее. Но если бы он сам не включил в анализ фактор погоды, система лишь констатировала бы наличие «странного» отклонения в потребительских предпочтениях. Потенциал подобных решений еще не используется в полной мере. Наш опыт показывает, что мало кто использует в своей работе подобные системы, хотя интерес растет. Так, например, полицейский департамент одного из крупных американских городов планирует число и маршруты патрулей на основании статистики преступлений, что дает явный эффект.
Традиционно принято разделять задачу анализа и обработки «больших» объемов структурированных и неструктурированных данных. Их цели и задачи совершенно разные. Структурированные данные позволяют проводить статистический анализ, а работа с неструктурированными данными пока ограничивается поиском и идентификацией «событий». Но, на мой взгляд, постепенно эта граница сотрется.
Если рассмотреть перспективу и немного пофантазировать, то будущее технологий — за созданием инструментов, которые могли бы при проведении анализа вовлекать в него не только корпоративные данные (например, о продажах), но и «индексы» интернет-поисковиков, лент информационных агентств, прогнозов погоды, информацию из социальных сетей… Например, отследив корреляцию между сообщениями определенной «тональности» жителей региона и покупками товаров конкретной группы, ритейлер сможет точнее подготовиться к спросу со стороны покупателей. А какой прорыв в потребительских сервисах случится, когда появится реально работающая технология распознавания речи!