В большинстве организаций, принявших участие в опросе Economist Intelligence Unit по работе с большими данными, объем собираемых данных за последний год вырос, кое-где остался прежним, и нигде не уменьшился. Но недостаточно просто собрать данные — нужно уметь грамотно их использовать.
Способствует ли внедрение новых информационных технологий повышению производительности? Утвердительный ответ, казалось бы, очевиден, но его, как обнаружил еще в конце 1980-х гг. американский ученый-экономист Стивен Роуч, непросто подтвердить конкретными цифрами. При подсчете по обычным методикам получается, что выигрыш в производительности примерно равен вложениям в ИТ. Разрешить этот «парадокс производительности» попытались в конце 1990-х гг. Эрик Бриньолфссон и Лорин Хитт, предложившие рассмотреть рост продуктивности за длительные периоды времени, в течение которых становится заметен эффект от системных изменений в бизнесе. Им действительно удалось проследить связь между уровнем компьютеризации и увеличением производительности. А сравнительно недавно, в 2010 г., Бриньолфссон и Хитт в соавторстве с Кимом Хикьюнгом опубликовали результаты, показывающие, что можно говорить и о конкретном направлении организационно-технологического развития, «ответственном» за производительность. Этим направлением оказалась работа с данными: предприятия, сумевшие обеспечить у себя «принятие решений под управлением данных» (data-directed decision making), опережают по производительности те организации, где не уделяется достаточно внимания сбору и анализу данных, причем корреляция видна и по показателям за год.
Стоит подчеркнуть значение аналитической составляющей: чаще всего компании собирают и хранят больше данных, чем могут исследовать. Это давняя проблема — создатель теории ограничений Элияху Голдратт еще в 1990 г. посвятил ей книгу, озаглавленную «Синдром стога сена». Понятно, что с тех пор «стог», то есть объем массивов данных, многократно вырос. Найти в нем «иголку», то есть информацию, действительно полезную для принятия решений, стало еще труднее.
В июне прошлого года исследовательский отдел журнала Economist (Economist Intelligence Unit) при спонсорской поддержке компании SAS провел опрос с целью оценить современное состояние работы с большими данными: насколько хорошо она развита и как уровень ее развития соотносится с финансовой успешностью предприятия на рынке? В опросе приняли участие члены руководства и старшие менеджеры 586 предприятий разного размера, собирающих значительные объемы данных. По регионам предприятия распределились следующим образом: 31% — Северная Америка, 28% — Юго-Восточная Азия, 26% — Западная Европа, 6% — Латинская Америка, 5% — Ближний Восток и Африка, 5% — Восточная Европа (Россия — 2%). Выборка охватывала широкий спектр отраслей, включая финансы (13%), профессиональные услуги (11%), производство (11%), ИТ и высокие технологии (10%), а также здравоохранение (8%).
Отчет об исследовании, озаглавленный «Большие данные: как заставить работать ресурс, способный все изменить» (Big data: harnessing a game-changing asset) и опубликованный в сентябре, подтвердил основной вывод Бриньолфссона, Хитта и Кима: действительно, существует сильная корреляция между наличием эффективной стратегии управления данными и финансовыми показателями компаний. Однако для многих предприятий извлечение полезной информации из больших массивов данных остается недоступным. В большинстве случаев нужные данные наличествуют (или могут быть без труда получены), но плохо используются.
Основной результат
Чтобы проверить, есть ли корреляция между тем, насколько хорошо развито в компании управление данными, и ее производительностью, требовалось оценить оба параметра. Производительность оценивалась достаточно прямо — респондентам просто предлагали сравнить финансовые показатели своей компании с показателями конкурентов. Что же касается уровня управления данными, то эксперты определяли его по ответам на множество взаимосвязанных вопросов. Приведем в качестве примера статистику по двум из них (рис. 1, 2).
Всего было выделено четыре группы респондентов — по-русски мы будем условно называть их (в порядке повышения уровня) «расточители», «собиратели», «энтузиасты» и «стратеги». Более подробная характеристика групп дается в следующей секции, ответы на вопрос о финансовых показателях по группам приведены на рис. 3.
Итак, «стратеги» — компании, имеющие хорошо определенную стратегию управления данными и способные направлять ресурсы на сбор и анализ наиболее ценной информации, — значительно чаще превосходят конкурентов по финансовым показателям, чем «собиратели» и «расточители». Больше половины — 53% респондентов из этой группы сообщили, что в последнем финансовом году опередили конкурентов, в то время как из «расточителей» — компаний, не интересующихся работой с данными, — такой ответ дали меньше четверти (24%).
Конечно, замечает автор отчета Дэн Брайоди, статистика необъективна, так как основана на самооценке, а кроме того, сложно определить направление причинно-следственной связи между хорошим управлением и эффективной работой с данными. Тем не менее взаимосвязь между «принятием решений под управлением данных», о котором Писаль Бриньолфссон, и финансовыми результатами компаний бесспорна.
Вполне правдоподобным автору представляется также предположение о том, что отставание компаний, пренебрегающих работой с данными, обусловлено именно этим пренебрежением. Все это заставляет считать, что большие данные могут в скором времени превратиться в критически важный бизнес-ресурс. И если еще недавно за сбор и анализ данных отвечали главным образом ИТ-менеджеры среднего уровня, то сейчас эта задача все чаще возлагается на высших руководителей вплоть до CEO.
Ступени эволюции
На основе ответов о положении дел со сбором и анализом данных эксперты Economist разделили компании, участвовавшие в опросе, на четыре группы, каждая из которых обладает своими специфическими характеристиками.
Расточители (data wasters). Фактически это две группы: 30% «расточителей» вообще не рассматривают сбор данных как приоритетную задачу, а оставшиеся 70% хотя и собирают данные, но крайне слабо их используют. Такие компании есть во всех отраслях. Они, что неудивительно, страдают от плохо налаженного взаимодействия между ИТ и бизнесом, а ответственным за стратегию работы с данными там зачастую назначается менеджер среднего уровня. Другие характерные признаки «расточителей»:
- они заботятся прежде всего о совершенствовании внутренних операций, особенно внутренней отчетности;
- они испытывают трудности практически со всеми аспектами управления данными (за исключением, быть может, безопасности);
- у них очень скромные, по сравнению с другими группами, вложения в проекты по управлению данными;
- им катастрофически не хватает навыков управления данными.
Собиратели (data collectors). Эти компании признают важность данных, но в состоянии только собирать и сохранять их — ни на что другое имеющихся ресурсов не хватает. «Собиратели» — их много в таких отраслях, как здравоохранение и профессиональные услуги, — тонут в данных. Их другие характерные признаки:
- за стратегию работы с данными чаще всего отвечает руководитель ИТ;
- плохое взаимопонимание между ИТ и бизнесом, причем около четверти жаловались, что ИТ-отдел не понимает, насколько важны данные, и около четверти утверждали то же самое о бизнесе;
- наиболее серьезная проблема работы с данными — обеспечение их качества, достоверности и согласованности;
- в качестве основной цели проектов по управлению данными чаще всего выступает выполнение требований законодательства;
- они не инвестируют крупных сумм ни в одно из направлений управления данными, и меньше всего достается затратам на повышение квалификации сотрудников;
- обычно у них отсутствует формализованный процесс для управления данными.
Энтузиасты (aspiring data managers). Эта группа — самая большпя. «Энтузиасты» вполне осознают значение больших данных, готовы полагаться на них как на информационную базу для принятия решений, интенсивно вкладывают средства в это направление, но пока еще отстают от лидеров. Часто такие компании работают в сфере коммуникаций или розничной торговли. Их другие характерные признаки:
- за стратегию в области работы с данными отвечает один из высших руководителей, но CEO выступает в этой роли несколько реже, чем в компаниях-«стратегах»;
- данные уже используются для анализа деятельности компании на международном рынке, но их лишь предполагается использовать непосредственно в работе с клиентами;
- в отличие от ситуации у «стратегов», данные еще не полностью очищены и согласованы;
- эффективно используется около половины имеющихся данных (так указали 66% респондентов из этой группы);
- именно «энтузиасты» чаще всего жалуются на слишком большие объемы данных и недостаточность ресурсов для их обработки.
Стратеги (strategic data managers). Это наиболее продвинутые компании, в которых лучше всего развита работа с данными. По большей части это производственные предприятия, финансовые организации и компании, работающие в сфере ИТ и высоких технологий. «Стратеги» начинают с того, что определяют для данных специфические метрики и контрольные точки, отвечающие стратегическим целям компании. Друние их характерные признаки:
- они умеют выбирать наиболее подходящие данные для принятия решений и используют большую долю собираемых данных;
- за стратегию в области работы с данными отвечает один из высших руководителей, часто это CEO;
- значительные инвестиции направляются на развитие всех аспектов управления данными, в особенности на обеспечение достоверности, полноты и интеграции данных;
- исследуются новые источники данных для выяснения их потенциальной ценности.
Сергей Адмиральский, ИТ-директор ООО «Адамас»
На мой взгляд, российский бизнес в массе еще не осознал, как важна работа с данными. Большинство предприятий ограничивается типовой отчетностью. Что касается нашей компании, то мы, как большинство предприятий, используем данные в основном для повышения эффективности. Объем собираемых данных за год у нас несколько вырос. Если же говорить о коэффициенте полезного использования, то мы задействуем, пожалуй, половину данных, имеющихся в нашем распоряжении. У нас почти нет сотрудников, обладающих необходимыми навыками для эффективного анализа данных.
По-моему, эксперты сильно преувеличили «тесность» взаимосвязи между наличием эффективной стратегии управления данными и финансовыми показателями компании. «После этого» не означает «вследствие этого». По опыту «Адамаса» могу уверенно сказать: получать, чистить, хранить и представлять данные намного легче, чем убедить бизнес полноценно, с энтузиазмом и изобретательностью пользоваться этими данными. В итоге достигается базовый эффект — снижение затрат на получение отчетов (Excel если и используется, то на последней стадии, для построения графиков), а продвинуться дальше тяжело. Data mining остается искусством, в крайнем случае ремеслом, требующим очень высокой квалификации. Иными словами, для прямой конвертации данных в деньги нужны людские ресурсы, доступные пока только для достаточно узкого слоя нашего бизнеса.
Я считаю важным продолжать и дальше собирать, чистить и хранить данные. Аналитика розницы во многом построена на сравнении показателей по сезонам и годам; когда-нибудь у нас вырастут сильные аналитики ad hoc и скажут спасибо тем, кто подготовил им материал для изучения.
Юрий Зеленков, директор по информационным технологиям НПО «Сатурн»
Вывод о связи между хорошей стратегией работы с данными и финансовыми показателями компании не был для меня чем-то новым — я слежу за литературой и читал статью Бриньолфссона, на которую опирались эксперты Economist. Управление данными и превращение их в осмысленную информацию — очень существенный момент для нас, это фактор, помогающий нам совершенствовать разработку новой продукции и ускорять ее вывод на рынок.
Большие данные возникают у нас прежде всего при разработке нового газотурбинного двигателя. Это 3D-модели, данные расчетов, экспериментальных исследований. Объем «сырых» данных по каждому новому проекту превышает 1 петабайт. Естественно, при этом возникают задачи поиска, построения отчетов, визуализации, а также интеграции данных из различных источников. Для этого мы создали собственную «виртуальную среду проектирования», которая включает как коммерческое ПО, так и собственные разработки. Дополнительная проблема в том, что мы, в соответствии с требованиями авиационных властей, должны хранить все данные в течение всего срока эксплуатации двигателей. Польза от создания системы, интегрирующей мультидисциплинарные данные из различных источников, очевидна – сокращение затрат и сроков на проектирование нового продукта. Эта выгода понятна всем — и конструкторам, и ИТ, и руководству компании.
Безусловно, нам очень не хватает сотрудников, обладающих нужными навыками для эффективного управления данными, и мы не вполне доверяем самим данным, когда принимаем критически важные решения. Однако в последнее время мы все чаще используем большие данные (например, данные о выполнении производственных операций) при принятии управленческих решений. Правильно подобранные и обработанные данные отлично убеждают и скептиков, и оппонентов. Сейчас, обсуждая возможные сценарии модернизации производственной системы, мы используем кластерный анализ, моделирование на основе теории игр и другие подобные методы. Именно это позволяет выработать единую точку зрения всем заинтересованным специалистам. Не скажу, что применение таких методик стало общепринятой практикой, но первые результаты внушают серьезный оптимизм.