Роджер Дженнингс, известный специалист в области управления данными и среды .NET (на русский язык переводились его книги по Microsoft Access, работе с базами данных в Visual Basic и др.), опубликовал на ресурсе Techtarget заметку о современных тенденциях в сфере анализа «больших данных». Эти тенденции (что естественно) связаны с применением облачных технологий, а также системы для распределенных вычислений Hadoop и вычислительной парадигмы MapReduce, которые создаются в рамках открытого проекта Apache.
Мощные кластеры на базе Hadoop используются в ряде крупных сетевых сервисов, включая Yahoo, Facebook, LinkedIn, Twitter и eBay, а Amazon Web Services с 2009 г. предлагает основанную на Hadoop услугу Elastic MapReduce, которая адресована компаниям, исследователям и бизнес-аналитикам, нуждающимся в обработке больших объемов данных.
Компания Google ведет разработку инструментария MapReduce, обеспечивающего работу с Hadoop в рамках облачного сервиса Google App Engine. В середине 2010 г. была запущена экспериментальная версия программного интерфейса MapperAPI, а с мая 2011 г. функциональность MapReduce доступна в полном объеме, хотя существуют ограничения на объем выделяемых ресурсов и на выход в Web. Дженнингс, впрочем, довольно скептически оценивает перспективы этой разработки.
В том же направлении движется Oracle. На своей конференции Open World в октябре 2011 г. компания сделала одновременно два объявления. Первое касалось решения для работы с «большими данными», в перечне основных компонентов которого было названо открытое ПО Apache Hadoop, второе — запуска публичного облака Oracle Public Cloud. Стандарты разработки приложений, поддерживаемые в облаке, позволяют использование Hadoop, и хотя о включении Hadoop/MapReduce в стандартное облачное предложение Oracle не сообщалось, вполне возможно, что компания сделает это, чтобы не отстать от конкурентов.
В том же октябре 2011 г. на конференции PASS Microsoft сделала ряд объявлений относительно своих разработок на базе Hadoop. На конец нынешнего года намечен выпуск Hadoop-сервиса для Windows Azure, на 2012 год — предварительная версия (community technical preview, CTP) для Windows Server. Уже в ноябре должна появиться предварительная версия коннектора для обмена данными между SQL Server 2008 R2 и Hadoop. Еще один проект корпорации — Daytona — направлен на создание интерпретируемой среды MapReduce для Windows Azure с дружественным пользовательским интерфейсом Excel DataScope. Сегодня доступна его достаточно ранняя предварительная версия.
Корпорация IBM, включившаяся в движение последней, запустила в своей облачной среде SmartCloud Enterprise аналитическую программу на базе Hadoop, которая называется IBM InfoSphere BigInsights. Облачная версия BigInsights доступна в базовом и в корпоративном издании, с вариантами развертывания в публичном, частном и гибридном облаке. Дженнингс обращает особое внимание на ценовую политику корпорации: базовое издание предоставляется бесплатно, его назначение — помочь организациям научиться анализу «больших данных» с применением инструментария IBM, корпоративное тарифицируется в зависимости от объема используемых вычислительных ресурсов. Все остальные разработчики в том или ином виде берут плату за пробное использование.
На сегодня единственным реальным вариантом для предприятий, желающих развернуть облачный анализ «больших данных», Дженнингс считает сервис Amazon. Но к середине 2012 года, по мнению Дженнигса, IBM BigInsights уже сможет составить этому сервису конкуренцию.