В конце февраля состоялось очередное заседание Дискуссионного ИТ-клуба под названием «Добро и зло больших данных», организованное совместно Школой ИТ-менеджмента при РАНХиГС и журналом Intelligent Enterprise. Материал, подготовленный по результатам прошедшего обсуждения, мы и предлагаем нашим читателям.

Самый первый вопрос, который традиционно возникает при разговоре о больших данных, касается определения этого термина. Правда, сейчас отечественные специалисты могут позволить себе уже не обсуждать классические трактовки Big Data, а сразу переходить к поиску общих черт, касающихся практики их обработки. Говоря об этом, мы традиционно пытаемся выяснить, насколько та или иная новая концепция действительно содержит принципиальную новизну, а в какой степени является симбиозом уже известных на рынке методов работы с информацией. Надо сказать, что гораздо чаще выбирается второй вариант ответа, и концепция Big Data не исключение. К этому же выводу практически единодушно пришли и участники дискуссионного клуба.

Больший интерес представляют, пожалуй, отдельные компоненты общей идеи, способные обеспечить такую преемственность. Среди них можно выделить следующие:

  • задачи, которые позволяет решать концепция больших данных;
  • зрелость рынка, требуемая для использования больших данных;
  • информационные инструменты, непосредственно ассоциируемые с большими данными.

По каждому из этих пунктов вполне можно поговорить отдельно.

Задачи

Если отвлечься от нашей дискуссии, можно сказать, что всю совокупность задач, имеющих отношение к Big Data, специалисты делят на три большие категории. Эту, пусть и весьма грубую, классификацию сегодня признает большинство из них.

В первую категорию попадают задачи, связанные с обработкой мощных потоков информации, поступающих, как правило, в реальном времени с разного рода датчиков. Такое явление в целом получило название Интернета вещей и в данный момент больше ассоциируется с консьюмерской техникой, хотя его вполне можно рассматривать и в контексте использования разного рода профессиональных устройств и промышленного оборудования. Эти данные очень часто требуют обработки в достаточно жестком режиме реального времени.

Вторая категория связана с первичными данными несколько более сложной структуры, сбор которых не автоматизирован. Тем не менее они тоже требуют оперативной обработки, но уже в более «мягком» режиме real time. В бизнес-терминах речь обычно идет о задачах клиентской, продуктовой или финансовой аналитики, востребованной соответственно маркетологами и финансистами.

И наконец, третья категория задач прочно ассоциируется с обработкой неструктурированной (как правило, текстовой) информации, а наиболее заметным потребителем связанных с их решением функций являются крупные государственные и (пока значительно реже) коммерческие организации. Алгоритмы обработки данных в этом случае, пожалуй, наиболее сложны, чувствительны к большому количеству факторов и еще до конца не отработаны. Но требования обработки в реальном времени здесь как раз наименее строгие.

Возвращаясь к обсуждению, отметим следующее.

Один из его участников, заместитель руководителя аналитического центра НИИАС РЖД Анатолий Орлюк сообщил, что в его организации с концепцией больших данных очень часто связывают хорошо известную ныне проблему ремонта и обслуживания по состоянию. Напомним, что речь в данном случае идет о планировании ремонтов исходя из фактического состояния того или иного оборудования, которое определяется по ряду параметров, снимаемых с различных датчиков. Таким образом, эта задача согласно приведенной классификации попадает в первую категорию. Об этой же категории задач бывший (до февраля 2014 года) главный ИТ-архитектор компании «ВымпелКом» Максим Смирнов говорит, что пока мощные потоки автоматически получаемой первичной информации значительно чаще используются для более или менее примитивного контроля процессов и куда реже — для интеллектуальной обработки совокупности событий и прогнозной аналитики. В такой ситуации обеспечивающая высокую производительность обработки инфраструктурная составляющая концепции больших данных будет востребована куда сильнее, чем та, что связана с созданием прикладных алгоритмов и, что немаловажно, с умением их использовать.

Задачи второй категории в ходе дискуссии также подробно обсуждались, в основном в контексте клиентской аналитики. Как отметил Владимир Маслик, начальник управления коммерческой лидогенерации Пробизнесбанка (финансовая группа «Лайф»), сегодня одной из важных задач является реализация дополнительного бизнес-эффекта со стороны клиентской аналитики, который может быть получен в результате использования ранее не задействованных, а чаще и вовсе отсутствовавших первичных данных. «Многие из нас в течение длительного времени применяли хорошо известные инструменты Data Mining для решения задач семантического и контекстного анализа, — утверждает Владимир. — Сейчас один из основных вопросов состоит в том, чтобы в ходе клиентского анализа создать дополнительную ценность для бизнеса, в то время как появляется масса дополнительных источников данных и даже новых информационных инструментов их анализа». В отношении новых данных бизнес-анализа высказался и еще один участник дискуссии, заведующий кафедрой «Системы управления бизнес процессами» Школы ИТ-менеджмента при РАНХ и ГС Александр Рыжов. В качестве примера из собственной практики работы с технологиями больших данных он привёл создание моделей скоринга с использованием данных из социальных сетей.

«По своему опыту могу сказать, что и в некоторых отечественных банках, и в телеком-­компаниях методы и инструменты Data Mining уже давно успешно применяются для кредитного скоринга, управления оттоком клиентов и повышения их прибыльности. Но сейчас клиентскую аналитику можно заметно улучшить, используя данные, которые раньше были недоступны, — комментирует со своей стороны эту тему Ольга Горчинская, руководитель направления Big Data компании ФОРС. — С расширением состава и увеличением объемов доступной для анализа информации появляется возможность сделать инструменты продвинутой аналитики куда более популярными и в сообществе ИТ-профессионалов, и среди бизнес-заказчиков». Максим Смирнов обращает внимание на то, что это направление в развитии Big Data в отечественной практике очень тесно связано с развитием так называемой мультиканальной клиентской аналитики, требующей глубокого оперативного анализа всей совокупности данных, получаемых из различных каналов взаимодействия с клиентами той или иной компании.

Собственно подобные акценты как раз и говорят о том, что задачи, ныне относимые к области Big Data, обладают явной преемственностью по сравнению с тем же классом задач, которые бизнес решал раньше, в условиях не столь богатого выбора исходных данных и более скромных технологических возможностей.

Не осталось без внимания участников дискуссии и третье направление использования больших данных, связанное с обработкой неструктурированной информации. Из всех трех оно выделяется, пожалуй, тем, что преемственность с выполнявшимися ранее задачами здесь ощущается в меньшей степени. Многие задачи обработки текста, поиска информации в разных источниках, равно как и определения оптимальных схем хранения неструктурированной информации сейчас нередко приходится формировать без серьезной опоры на предшествующие разработки. Более того, существенная зависимость решений от языковых особенностей текста затрудняет развитие таких решений на глобальном уровне.

Ольга Горчинская говорит о том, что руководимое ею небольшое подразделение внутри компании ФОРС сейчас в основном сосредоточено именно на решении задач данного типа, что в свою очередь определяется потребностями российского рынка в целом и задачами, стоящими перед государственными предприятиями, в частности. «Мы ясно видим существенный рост интереса к обработке текстовой информации, что по крайней мере сегодня заставляет нас делать акцент на этом направлении, — утверждает она. — Наступает время лингвистов и создания на основе их разработок коммерческих систем обработки текстовой информации. Такие продукты, прежде всего у отечественных разработчиков, действительно появляются, и их необходимо интегрировать в промышленные комплексы обработки больших данных высокой производительности, что также входит в перечень стоящих перед нами задач». Об актуальности обработки тестовой информации в контексте задач, решаемых РЖД, говорит и Анатолий Орлюк.

Надо отметить и еще один популярный подкласс задач Big Data в области обработки неструктурированной информации — видеоаналитику. О ней в ходе дискуссии речь не шла, хотя наше издание неоднократно писало о подобных проектах.

Отдельной и при этом по сути самостоятельной проблемой практического освоения Big Data является наличие кейсов. В принципе многие участники дискуссии сетовали на их явный дефицит в отечественной практике. Владимир Маслик, до работы в группе «Лайф» занимавшийся клиентской аналитикой еще в нескольких крупнейших российских компаниях, утверждает, что «… пока все проекты либо ведутся в пилотном режиме, либо не могут быть однозначно отнесены к тому, что сейчас называется проектами больших данных». Фактически ту же мысль высказывает и Максим Смирнов. «Пока мы не увидим внятных отраслевых кейсов по теме Big Data, ничего по существу происходить не будет. И это в лучшем случае. А в худшем под флагом Big Data заказчикам будут навязывать лишь инфраструктурную оболочку, что во времена повсеместных сокращений ИТ-бюджетов приведет к неоправданным и нецелевым расходам», — уверен Борос Федин, на данном мероприятии выступавший в качестве независимого ИТ-эксперта.

Александр Рыжов, напротив, говорит о том, что в его личном опыте имеются реальные российские проекты по крайней мере в трех областях — продажа мобильного контента, выявление подозрительных финансовых транзакций и энергетика. Ольга Горчинская также констатирует наличие у компании ФОРС хотя и не столь богатого, но уже вполне сложившегося опыта решения задач, связанных с обработкой и анализом больших объемов текстовых документов.

От себя добавим, что значимость реальных внедрений и их дефицит на сегодняшний день — проблема не только российского рынка. Однако на Западе предпочитают говорить скорее о шаблонах (patterns), обобщающих опыт использования концепции Big Data в контексте схожих по содержанию либо по отраслевым особенностям задач. Вместе с тем подобная классификация формируется совокупными усилиями заказчиков, поставщиков ИТ-решений и аналитических компаний. А к тому же может несколько различаться на разных локальных рынках.

Готовность рынка

Только что упомянутую проблему наличия кейсов и уж тем более отсутствия четкой их классификации, без­условно, можно связать в том числе с недостаточной зрелостью рынка. В целом же факторы, характеризующие готовность рынка к принятию концепции больших данных, участники дискуссии разделили на две категории. Одна из них связана с недостаточным пониманием важных понятий из области Big Data и в этом смысле относится скорее к тормозящим факторам. С другой стороны, на некоторые отраслевые рынки все­таки проникают заманчивые бизнес¬идеи, реализация которых, пускай и в среднесрочной перспективе, непременно потребует привлечения рассматриваемой нами кон­цепции.

Александр Рыжов, употребляя весьма точный в контексте проблем российского рынка термин «гигиена данных», говорит о том, что руководители отечественных компаний, вроде бы искренне стремясь решить некоторые задачи той же клиентской аналитики, зачастую не понимают важности упорядочивания и приведения к непротиворечивому состоянию хотя бы основных мастер-данных (например, тех, что описывают клиентов и предлагаемые ими продукты).

Кроме того, Big Data, как известно, сильно повышает значимость статистической обработки данных в бизнесе. И по словам Александра тот факт, что многие соответствующие этой дисциплине термины (скажем, «вероятность события») традиционно имеют как строго научную, так и расхожую бытовую интерпретацию, существенно осложняет консолидацию усилий по решению и без того весьма непростых прикладных задач автоматизации, связанных с Big Data.

И наконец, по его утверждению очень существенную негативную роль играет излишнее давление разного рода регулирующих актов, которые, как правило, напрямую не противоречат, но и не учитывают возможность применения алгоритмов, ассоциируемых с концепцией Big Data. Проблема приобретает особую остроту еще и потому, что именно крупные коммерческие компании и госструктуры располагают значительными объемами информации и в то же время именно они в наибольшей степени стеснены различными регуляторными ограничениями.

«Знакомясь, например, с тем, какие подходы используются при обработке информации об управлении городским хозяйством в Дании, где уже значительная часть жилых домов “напичкана” разнообразными датчиками и претендует на роль “умных”, я не сталкивался ни с какими ограничениями, равно как и с опасениями изменить существующий подход к информационной поддержке, хотя подобные изменения при столь радикальных переменах, безусловно, имеют место, — рассказал он. — А у нас те же самые ограничения и опасения очень часто, напротив, фактически выходят на первый план».

Ольга Горчинская, в принципе признавая объективно стоящую проблему недоверия к данным и недостаточного их качества, призывает не забывать о том, что мы в этом случае говорим об очень больших и зачастую логически избыточных массивах данных. «Любой из нас прекрасно знает, что если искать важную для принятия личных решений информацию в Интернете, то нельзя доверять первой же открытой по той или иной тематике странице. Необходимо просмотреть, скажем, до десяти (а иногда и гораздо больше) независимых друг от друга ресурсов, а потом еще и проанализировать весь объем информации, — утверждает она. — Точно такой же сценарий при использовании больших данных мы видим и в бизнесе. В подавляющем большинстве случаев количество информации может компенсировать дефицит ее качества, этим просто надо научиться пользоваться. Но чтобы реализовать такой переход количества в качество, необходимо решить ряд задач, и здесь как раз ИТ могут помочь бизнесу. Технологии больших данных предоставляют мощный инструмент для фильтрации и отбора нужных сведений из всего огромного массива информации».

Владимир Маслик со своей стороны говорит о неготовности поставщиков предоставить адекватные потребностям заказчика решения: «Многие поставщики, безусловно, готовы поставить необходимую инфраструктуру, однако стоит, например, объявить тендер на создание законченного ИТ-решения, и мы тут же видим, что участвовать в нем соглашаются, скажем, лишь две компании».

Что касается факторов, не тормозящих, а наоборот, толкающих бизнес к принятию концепции больших данных, то здесь Максим Смирнов называет уже получившую достаточное распространение концепцию Digital Disruption, или «Цифрового переворота», которая в известном смысле пытается поставить на научную, основанную на фактах и объективных выводах платформу идею, что вычисления в будущем заменят значительную часть работы современных клерков. В том числе ту, которая ныне считается интеллектуальной. В розничном телекоме, где многие решения по взаимодействию с абонентами сегодня принимаются без участия человека, мы уже наблюдаем реализацию некоторых ее элементов. Они, без сомнения, дают значительный экономический эффект и при этом позволяют повысить качество сервиса. Поэтому бизнес стремится двигаться в этом направлении дальше.

Вместе с тем по словам Максима существуют и более приземленные, но не менее заманчивые бизнес-идеи наподобие формирования контекстно-зависимых бизнес-процессов. Еще раз повторим, что реализация многих из них просто неотделима от практического воплощения концепции Big Data.

Инструменты

Элементарный анализ литературных данных однозначно показывает, что основными элементами программной инфраструктуры, которые в первую очередь ассоциируются с Big Data, являются платформа Hadoop (вместе с моделью параллельных вычислений MapReduce), а также ряд новых систем баз данных нереляционной архитектуры, ныне объединенных под общим брендом NoSQL.

Наиболее плотно связываемыми с Big Data компонентами аппаратного обеспечения ИТ-поддержки современного бизнеса, пожалуй, являются небезызвестные уже апплайенсы (Appliances).

И наконец, в пространстве прикладных решений с Big Data прежде всего соседствует целый ряд направлений Business Intelligence — прежде всего Data Mining (и соответственно Text Mining для текстовой информации), статистический анализ и видеоаналитика.

Разумеется, рядом с Big Data периодически пытаются ставить и иные инфраструктурные и прикладные решения, однако такие ассоциации все же не так прочны и общепризнанны, как вышеназванные.

Максим Смирнов представляет некую типичную цепочку эволюции инфраструктурных решений, которая с его точки зрения формировалась под воздействием потребности корпоративных пользователей в определенной отрасли: «Отрасль телекома, в которой я долго работал, традиционно испытывала, да и продолжает испытывать проблемы с маштабируемостью хранилищ данных. С этим боролись, меняя имеющиеся СУБД на более производительные. Затем, с появлением программно-аппаратных комплексов, проблему пытались решить с их помощью, но и тут все резервы рано или поздно оказывались исчерпанными. Теперь многие неожиданно открыли для себя NoSQL-базы. Выяснилось, что с их помощью проблему можно решить, даже не прибегая к построению кластера Hadoop. И единственный современный тренд, который, пожалуй, “перебивает” тенденцию формирования масштабируемых хранилищ, — это вычисления in memory».

Остальные участники дискуссии фактически высказали значительную осторожность в отношении перспектив применения Hadoop в российском бизнесе, считая, что мощь строящихся на нем кластеров нужна далеко не всем компаниям даже из категории интересующихся Big Data в принципе. «Мы не утверждаем, что инструменты вроде Hadoop или MapReduce являются обязательными при работе с большими данными. Многие алгоритмы работали, работают и, думаю, вполне успешно будут работать и в традиционных архитектурах с реляционными базами данных, — выражает по сути общее мнение Ольга Горчинская. — Другое дело, что в определенных случаях использование Hadoop дает настолько существенное повышение производительности, что появляется возможность решать задачу на качественно новом уровне. Дополнительного изучения требует такой важный вопрос, как определение рамок применимости этих новых технологий».

По поводу прикладных систем в целом столь же единодушно была отмечена очень тесная ассоциация прикладных алгоритмов, относящихся к классам Data Mining и Text Mining, с идеологией Big Data. Признание важности статистического анализа сопровождалось в то же время определенной критикой инструментария, развиваемого в рамках известного открытого проекта R-project. По словам участников дискуссии этот безусловно удобный инструмент очень многие пытаются использовать, решая задачи больших данных, но его недостаток как раз и состоит в том, что преимущества теряются при работе с большими информационными массивами. «Тем не менее, — отмечает Ольга Горчинская, — популярность языка R стремительно растет, и этому способствует появление таких его реализаций, в которых указанная выше проблема производительности уже решена. Так, например, инструмент Oracle R Enterprise можно успешно использовать для любых объемов данных».

Вообще же по поводу прикладных инструментов Big Data Александр Рыжов говорит следующее: «Сегодня алгоритмы Data Mining зачастую просто по умолчанию реализованы в очень многих популярных коммерческих продуктах. Уже существуют и без сомнения будут появляться потом свободно распространяемые инструменты. Иными словами, даже сейчас выбор инструмента стоит совсем не остро. Куда большей проблемой является массовая подготовка специалистов, которые научатся правильно их применять, и создание соответствующей культуры в бизнес-среде».