Большие данные позиционировались в 2011 г. как самый популярный тренд. Сегодня мы действительно видим большой интерес рынка к теме анализа данных. Под термином «большие данные» многие понимают самые разные явления и технологии. Самое распространенное заблуждение — это когда имеется в виду ограниченный набор источников и анализ данных, с которыми традиционно работают аналитические службы компаний.
В обобщенном виде, технология больших данных — направление аналитики, складывающееся из сбора, статистики, анализа данных, получения знаний (KDD) и прогнозирования событий. Столь обширный набор технологий, которые подпадают под трактовку больших данных, лишь усложняет понимание того, зачем нужна эта технология и откуда она появилась.
Что же такое большие данные на самом деле?
Из самого термина становится понятно, что все дело в информации. А точнее, в существенном увеличении ее объема за последнее десятилетие. Но чтобы отнести те или иные данные именно к большим данным, важно понимать, по какому признаку их отнести к понятию «большие». Разработчики решений по обработке и анализу больших данных вводят свои методы и критерии отнесения данных к «большим». Возьмем для примера задачу построения автоматического «движка», который бы мог давать рекомендации существующим покупателям о том, что дополнительно их может заинтересовать в онлайн-магазине. И это при том, что база данных среднестатистического интернет-магазина может хранить базу данных более чем о 2 млн ранее совершенных покупок. Каждая запись об этих покупках иногда больше 20 обязательных строк: товар, цена, скидка, реквизиты и другая дополнительная информация. И чтобы выдавать рекомендации о покупке новых товаров, система должна принимать решения за доли секунды прямо в момент авторизации пользователя на сайте. Целью внедрения такой системы станет повышение продаж за счет всплывающих окон с предложением, которое увидит пользователь, зайдя на страницу. По минимальным подсчетам, такой механизм анализа должен обрабатывать в реальном времени до 40 млн строк в секунду.
На практике не всегда требуется работа в реальном времени, но и количество данных может быть в разы больше. Компаниям самим необходимо оценить те данные, которые они хотят анализировать, и решить, с каким приоритетом времени получать необходимые выкладки по аналитике. Поэтому любой клиент такой системы сталкивается с «тремя китами» больших данных: данные нужно получить, их необходимо хранить, и нужен алгоритм для анализа. Рассмотрим подробнее проблематику каждой из этих задач.
«Чистые» источники
Прежде всего, важно точно понимать, какие данные нужны вам для анализа и из каких источников. Очевидно, что если ваш бизнес связан с транспортировкой грузов, то использовать в виде источников данные с сайтов по продаже спортивного инвентаря нецелесообразно. И если такой сайт попадет к вам в анализ, то он привнесет только паразитные данные.
Вторым важным фактором становится чистота и достоверность процесса генерации данных на источниках, которые выбираются для анализа. Не секрет, что в социальных сетях пользователи не всегда оставляют реальные данные о себе, и данные в отдельных полях могут изменяться очень часто. Для примера — 900 млн аккаунтов одного Facebook генерируют около терабайта данных в день только на изменении статусов пользователей. Вопрос доверия к источникам данных — самый критичный в анализе неструктурированных данных. Не стоит забывать и о том, что конкуренты или злоумышленники могут намеренно скомпрометировать данные.
Большие закрома
Быть готовым к анализу больших данных означает понимать, как их хранить и где. К примеру, в нефтегазовой отрасли для анализа сейсмической активности и прогнозирования землетрясений аналитическим системам приходится обрабатывать сотни терабайт данных. При этом отчеты с сейсмодатчиков хранятся и копятся в виде файлов весом до нескольких терабайт каждый. Другой большой проблемой может стать задача анализа огромного количества баз данных одновременно, что само по себе представляет серьезный вызов технологиям и мощностям компании. Подобные случаи нередки для медицинской отрасли, когда, например, необходимо искать взаимосвязи в генах или протеиновых цепях.
Возникает вопрос: а что делать с теми данными, которые уже были проанализированы? Многие компании, особенно ориентированные на постоянно изменяющуюся среду, готовы просто удалять эти «ненужные» данные. Тем самым они избавляют себя от ненужных хлопот по постоянному увеличению необходимых хранилищ. Но есть и такие задачи, где накопленная статистика играет первостепенную роль в получении качественных результатов анализа данных. Те данные, которые вы хотите обработать, зависят от специфики вашего бизнеса. Необходимо детально оценивать проект анализа больших данных, чтобы не только решать сейчас задачи хранения данных, но и предугадывать их расширение в будущем.
«Большие» люди
К массовой истерии по отношению к большим данным скептически отнеслись прежде всего сами профессионалы в этой отрасли, которые озвучили фундаментальную проблему больших данных: чтобы применять технологию в бизнесе, нужны талантливые аналитики. В результате выгоду от больших данных можно получить только при совместной работе опытных аналитиков и менеджеров, которые понимают, как полученные результаты применить на благо бизнеса. Многие компании столкнутся с такой проблемой, когда окажется, что аналитика у них существует лишь для аналитики, и больше ни для чего.
Очертив круг проблем, связанных с термином big data, стоит сказать, что сама технология анализа данных с конца 2011 г. предлагается компанией Google в виде сервиса. Это позволяет напрямую из облака компаниям собирать необходимые данные, которые зачастую уже есть в облаке, и анализировать их. Вместе с облачным сервисом существуют и программные решения, позволяющие построить систему аналитики в крупных компаниях. Таким образом, внедряя анализ больших данных собственными силами, бизнесу придется серьезно инвестировать в персонал, технологии и хранилища данных.
Безопасность ваших данных
Обратная сторона перспективности технологии анализа больших данных — это безопасность. Почти любая компания, желает она того или нет, неизбежно выступает в виде источника данных для кого-то. При этом можно выделить два основных канала распространения информации. Во-первых, это сотрудники. Во-вторых, существует необходимость ориентировать бизнес на интернет-пользователей. Таким образом, появляющиеся в разрозненном виде данные о компании вносят серьезные затруднения в обеспечение безопасности.
Серьезнейшую опасность для безопасности компаний представляют методы социальной инженерии. Простота доступа к информации дала преступникам серьезный стимул использовать именно этот вид атак на компании. В виде цели может выступать любой сотрудник компании, информация о котором попадает в руки преступников. Самим же компаниям приходится сталкиваться с необходимостью предугадывать самые различные варианты негативных воздействий. Так как при помощи социальной инженерии злоумышленники попадают напрямую внутрь сети компании, классические средства защиты оказываются малоэффективными в этом вопросе. Поэтому разработчики средств защиты все сильнее переориентируют свои решения, чтобы более гибко оценивать атаки и потенциальные угрозы. В этом процессе серьезную роль играет анализ поведения вирусов и вредоносного ПО. При помощи технологии больших данных, сопоставляя получаемые данные, разработчики в состоянии не только прогнозировать вирусные атаки, но и выдвигать гипотезы о точках их возникновения и причастности конкретных людей к созданию и распространению вирусов. Наряду с внешними угрозами компании нередко сталкиваются с внутренними мошенничествами. Именно в среде экономических преступлений анализ больших данных крайне важен. Анализ данных из совершенно разнородных источников помогает визуализировать картину связей сотрудников и контрагентов внутри компании и за ее пределами, а также выявить конфликты интересов, влияющие на бизнес компании. Так выявляются и контролируются связи, которые потенциально могут стать источником мошеннических действий. Серьезная проблема подобных расследований в том, что действия мошенников совершенно не заметны. Без специальных инструментов анализа невозможно тайное сделать явным, поскольку нечистые на руку сотрудники практически всегда используют легитимные способы для реализации своих интересов и для обмана работодателя, клиентов или партнерских организаций.
Задачи порождают возможности
Компании по всему миру неизбежно сталкиваются с теми или иными задачами, которые может решить обработка больших данных. В век интернет-технологий многие принимают решения о тех или иных действиях в сети, опираясь лишь на предположения. Но есть потребность принимать решения проактивно. С помощью каких инструментов получать информацию о предпочтениях пользователей, действиях клиентов, партнеров, конкурентов? С помощью больших данных.
Примеры Google, Amazon и Yahoo! доказывают, что умение анализировать большие данные дает компаниям серьезные конкурентные преимущества, поскольку ведет к лучшему пониманию потребностей клиентов. Нередко компании рынка B2C сталкиваются с необходимостью прогнозировать, а по факту — предсказывать, какая группа людей спонтанно приобретет конкретный продукт или услугу. Если пользоваться классическими методами анализа, то реально использовать для анализа ограниченное число источников. Анализ же всех доступных источников позволяет дать более глубокий срез важной информации, например, отследить мнение лидеров влияния, чья рекомендация может сыграть ключевую роль в принятие решения о покупке у целевой аудитории. Компании анализируют блоги, комментарии, совершенные в Сети покупки, взаимосвязи пользователей и другие источники информации. Это позволяет успешно выявлять спрос и оперативно воздействовать на покупателей.
Запрос на большие данные приходит не только от бизнеса. Сейчас трудно спрогнозировать, в каких конкретно отраслях произойдет всплеск интереса к большим данным (big data boom). Объем данных неизбежно растет, и причины — не только в естественных процессах развития индустрии. Серьезным источником данных являемся мы сами. Контент, создаваемый пользователями Интернета, растет неуклонно, открывая огромные перспективы для его анализа. Уже сейчас big data mining — это не только анализ текстовых данных, но и аудио- и видеоконтента. Совсем недавно поднимался вопрос о проблеме больших данных в Голливуде. Ведь киноиндустрия является мощнейшим производителем данных. Исходники фильмов не уничтожаются, а хранятся, причем в исходном формате, размер полуторачасового фильма может превышать несколько терабайт данных. В результате кинокомпании и сопутствующие им архивы столкнулись с проблемой не только того, как это все хранить, но и как впоследствии искать, например, нужные кадры для рекламы или телепередач.
Перспективы больших данных
Повсеместно аналитика больших данных может прийти к нам вместе с вступлением страны в ВТО. Для западных компаний это повод детально анализировать все факторы, волнующие российских покупателей. Уже сейчас многие европейские компании успешно изучают российский рынок и готовят продукты именно на основе big data-аналитики. Значит, и нашим производителям уже в ближайшее время неизбежно придется применять новые технологии анализа и прогнозирования в конкурентной борьбе за клиентов. Мировой рынок решений по анализу больших данных, по оценке IDC, в 2010 г. составлял около 3 млрд долл. Как предполагают в этой компании, к 2015 г. он может достигнуть 17 млрд долл.
Оно и понятно, мир вокруг нас постоянно меняется. Новые технологии, усиление конкуренции, быстрое изменение факторов внешней и внутренней среды компаний заставляют компании приспосабливаться к работе в режиме онлайн и применять для анализа конкурентной среды и выявления спроса новые инструменты, в том числе больших данных.
Концепция больших данных родилась не вчера
Идеологическую базу для анализа большого количества данных заложил в XVII в. Блез Паскаль — один из основателей математического анализа и теории вероятности. Целью его работ был ответ на вопрос, как принимать эффективные решения на основе анализа событий, количество которых стремится в бесконечность (броски игральных костей). Следующие серьезные шаги в анализе неструктурированных данных произошли только к середине XX в. в работах ученого Рональда Фишера, основоположника современной статистики. В своих трудах он заложил идеи корреляции данных на основе точечных и интервальных статистических оценок, а также разработал методику планирования экспериментов и внес существенный вклад в создание современной теории статистической проверки гипотез.