Девизом конференции Teradata Partners ‘2014 были слова «Data Driven». На русский язык это выражение переводят как «основанный на данных» (бизнес, основанный на данных; маркетинг, основанный на данных), что, конечно, правильно, но передает лишь рациональную составляющую смысла, без эмоционального компонента — того драйва, душевного подъема, который ощущался, по моему впечатлению, всеми участниками.
Это можно сравнить с атмосферой, царившей на первых компьютерных выставках и конференциях 1990х, когда работа с компьютером стремительно распространялась на все новые области деятельности и все, кто был к этому как-то причастен, ощущали, что находятся на переднем крае прогресса. Сравнение не будет ложным — со сферой обработки данных сейчас происходит примерно то же самое. Как говорилось в анонсе Partners ‘2014, адресатом конференций Partners всегда были профессионалы в сфере обработки данных, но состав профессионалов эволюционирует. Работа с данными перестает быть задачей какихто выделенных сотрудников или структурных единиц, необходимость в ней проявляется по всему предприятию, не оставляя незатронутым ни единого подразделения. Потребность в данных у каждого своя, но всем нужно получать к ним доступ, понимать их и использовать. Поэтому растет и сообщество профессионалов, и общий интерес к большим данным и всему, что с ними связано.
Конференция по праву называется партнерской — общение между участниками из самой Teradata, из других компаний-разработчиков и компаний-клиентов (а также потенциальных клиентов) здесь абсолютно симметрично. Программный комитет Teradata Partners уже несколько лет возглавляет представитель одного из заказчиков — Кэти Кунц, президент по работе с клиентскими данными страховой компании Nationwide Insurance. А на пленарных заседаниях на открытии и закрытии выступают знаменитости, известность которых не связана с обработкой данных. В 2014 году это были Питер Диамандис — основатель и глава XPrize, премиального фонда поддержки революционных инноваций, направленных на улучшение жизни всего человечества, — и Херман Эдвардс, спортивный аналитик канала ESPN, а в прошлом тренер Национальной футбольной лиги США. Эдвардс говорил о менеджменте, постановке цели и управлении проектами, а Диамандис — об экспоненциальном развитии технологий и цивилизации в целом, ломающем представление о прогрессе как о линейном процессе, и о необходимости перехода от «линейного» мышления к «экспоненциальному». Если говорить конкретно об анализе данных, то в этой области мы действительно наблюдаем рост запросов, очень похожий на экспоненциальный, а скорость разработки и запуска проектов тоже невольно ассоциируется с экспонентой. Расскажу о некоторых из них.
Некоторые проекты
Компания eBay (международный сервис онлайновых аукционов и интернет-гипермаркет) представил проект Customer DNA — «ДНК клиента». Задача заключалась в том, чтобы для каждого клиента свести воедино все данные о нем, известные компании, и получить его всесторонний портрет, который использовать затем для целей маркетинга, таких как сегментирование клиентской базы и формирование более адресных предложений. Портрет клиента (его «ДНК») складывается из четырех компонентов — поведения, демографических данных и интересов, ценности для компании и отношения к компании (выясняемого посредством опросов). В настоящий момент он содержит более 60 тыс. элементов данных. Что показывает анализ? Приведем несколько примеров. Мобильные пользователи в два-три раза лояльнее к eBay, чем немобильные; лояльность пользователей, участвующих в аукционах, выше лояльности тех, кто в них не участвует, причем продавцы покупают больше, чем «чистые» покупатели. Пол имеет значение — мужчинам и женщинам, естественно, нужно предлагать разные товары. Отмечено, что женщины чаще, чем мужчины, используют купоны.
Проект продолжается около года, и докладчики отметили важный организационный момент: поначалу аналитики сами занимались очисткой и подготовкой данных, но когда эта задача была передана специальной группе, работа пошла намного быстрее.
Если eBay собирает данные для «ДНК клиента», непосредственно наблюдая его поведение при выборе и приобретении товара, то у производителя такой возможности нет, и чтобы получить информацию о конечных потребителях своей продукции, он использует косвенные методы, прежде всего опросы по различным каналам. Компания Procter & Gamble (P&G) смогла объединить данные конечных потребителей, полученные с ее сайтов, из электронной почты, социальных сетей и мобильных приложений: для каждого, кто зарегистрировался, создана и поддерживается единая запись, в которой зафиксированы его отношения со всеми брендами P&G независимо от канала взаимодействия. Эффект понятен — чем лучше знать потребителя, тем более подходящие предложения можно формировать и тем выше получается отклик на них.
Международный перевозчик Delta Airlines поддерживает сложную сеть обслуживания, в которой участвуют и люди, и автоматизированные системы. Целью проекта, представленного на конференции, было повышение эффективности вспомогательных продаж. Аналитики компании провели сегментирование клиентской базы, причем ключом к успеху исследования была подготовка и консолидация данных. Результаты успешно используются в работе компании — именно на них основана персонализация услуг для каждого из миллионов клиентов.
Компания Siemens представила проект «Интернет поездов» — не маркетинговый, а телеметрический. В каждом вагоне поезда производства Siemens имеется большое количество аппаратуры, генерирующей данные. Журналы событий и показания приборов могут очень многое рассказать о состоянии оборудования, а интернет-канал позволяет передавать их на обработку в реальном времени. Анализ данных позволяет точнее рассчитать сроки обслуживания и планового ремонта, сократить простои подвижного состава, снизить затраты на запчасти.
Проект, реализованный в клинике Mayo, позволил медицинским специалистам анализировать записи в свободной форме из нескольких миллионов историй болезни. Для этого потребовалось создать систему, способную почти в реальном времени перерабатывать шесть типов сообщений медицинского стандарта HL7, индексировать их для поиска, направлять заметки на аннотирование и помещать их в хранилище для анализа и архивации. Платформа для выполнения всех этих задач, базирующаяся на Teradata Appliance for Hadoop, была развернута в течение первой половины 2014-го, а в середине года клиника осуществила на ней собственный проект, обеспечивший для конечных пользователей поддержку обработки текстов на естественном языке и полнотекстового поиска.
Перечислю несколько студенческих проектов, выполненных в рамках университетской сети Teradata (Teradata university network). Анализ и визуализация «социальной сети» научных публикаций: для публикаций построена метрика похожести, появилась возможность автоматически искать публикации по теме (а не стандартным поисковиком по ключевым словам). Сводная база финансовой и транзакционной информации для чикагской пиццерии — создание базы позволило проанализировать продажи и определить, какие виды пиццы более востребованы; пиццерии удалось снизить на 7% количество отходов. Анализ структуры расходов на неотложную медицинскую помощь по 100 диагнозам: как выяснилось, стоимость медицинских услуг зависит в первую очередь от штата, в котором находится больница. Анализ кампусной WiFiсети и поиск паттернов перемещения студентов в пределах кампуса; результаты могут быть использованы для оценки очередей, планирования мероприятий, расчета мощности систем климат-контроля и т. д. Нейронная сеть для исследования системы энергоснабжения smart grid — реализовано прогнозирование пиков потребления, определение расценок в реальном времени, измерение доли возобновляемых источников энергии. Аналитическая система для некоммерческой организации, работающей с детьми-аутистами, позволяющая сравнить эффективность разных способов привлечения финансирования.
Многие доклады, естественно, были посвящены и тонкостям применения аналитических инструментов и хранилищ данных, но в сообщениях о проектах инструменты отступали на второй план. Анализ данных стал самостоятельной дисциплиной — не технической, хотя и требующей технических знаний.
Применительно к российским условиям
Глава Teradata в России Андрей АлексеенкоВ России, как и во всем мире, наши решения востребованы во всех отраслях бизнеса. Наиболее продвинутыми с точки зрения использования аналитики являются банки, ритейл и телеком. Однако все чаще и другие зрелые отрасли — нефтегаз, инфраструктура, промышленность — начинают испытывать потребность в современных решениях по хранению и обработке данных. Мне кажется, все наши ключевые заказчики из различных отраслей — Сбербанк, ВТБ, «Магнит», Федеральное казначейство, Федеральная налоговая служба, МТС, «Мегафон» — инвестируют в ИТ с целью эффективного решения различных бизнес задач, а это полностью соответствует идее бизнеса, основанного на данных, — data-driven business.
На российском рынке мы предлагаем абсолютно тот же набор продуктов и сервисов, что и во всем мире, однако нельзя не заметить разницы в развитии рынка BI и больших данных в США и в России. В настоящее время классические решения по аналитическим платформам являются наиболее востребованными на нашем рынке, хотя мы видим интерес к наиболее продвинутым решениям нашей компании. Рынок быстро растет.
Если говорить о практике использования наших решений, то в любом проекте для любого заказчика наше ви́дение или, если угодно, идеология заключается в построении универсального инструмента, «логического хранилища данных», которое используется для всех возможных задач бизнеса. Поэтому в любом проекте наши специалисты создают целевую архитектуру для решения этой «универсальной задачи».