Для обозначения анализа данных употребляют самые разные наименования. Не знаю, кто выдумал термин «поддержка принятия решений», но точно знаю, что история систем поддержки принятия решений (decision support, DS) на десятки лет опередила появление оперативного анализа данных (online analytic processing, OLAP), технологий информационных хранилищ и «просеивания» данных (data mining). Последние дисциплины способствуют превращению данных в информацию, пригодную для принятия решений, но понятие DS намного шире их всех вместе взятых. Средства бизнес-аналитики (business intelligence, BI), новое «дитя» в семье аналитических систем, — это, возможно, самое популярное понятие, призванное «охватить всю аналитику», но я считаю его всего лишь еще одним разделом DS — пусть даже таким, который охватывает много подобластей и роль которого быстро растет.
Возможно, с практической точки зрения разница между DS и BI может показаться незначительной, но терминология и инструментальные средства этих решений действительно отличаются. Средства бизнес-аналитики более привлекательны, поскольку с ними гораздо легче работать, а «неинтеллектуальные» средства поддержки принятия решений в общем случае технически более сложны и ориентированы на узкие предметные области. Понимание этих различий поможет выбрать наиболее подходящие методы и средства для решения конкретных аналитических вычислительных задач.
Признаки «интеллектуальности»
Хотя я вряд ли назвал бы «интеллектуальным» даже самое сверхконкурентоспособное предприятие, на наиболее продвинутых из них анализ данных, несомненно, играет главную роль.
Я полагаю, предприятие можно считать интеллектуальным, если оно выдерживает своего рода тест Тьюринга. Математик Алан Тьюринг, заложивший большую часть основ вычислительной теории, предложил тест, в котором система считается интеллектуальной, если человек, достаточно долго общаясь с ней и с другим человеком, не в состоянии определить, который из собеседников — машина. Когда клиенты, поставщики и деловые партнеры общаются с вашей организацией — посредством корпоративных систем управления отношениями с клиентами и процессов, регулирующих отношения с внешним миром, — кого они видят: человека с трезвым умом и ясной памятью или туповатого забывчивого индивидуума, страдающего раздвоением личности?
Классификация систем поддержки принятия решений,
Мне встречались разные варианты классификации DS-систем. Очень полезную вводную информацию о DS можно найти на сайте dssresouces.com, где Дэниел Дж. Пауэр (Daniel J. Power), профессор по информационным системам и управлению Университета Северной Айовы, собрал и систематизировал итоги более чем 30-летней практической и научной деятельности, руководствуясь собственным опытом в этой области. Пауэр разделяет DS-системы на следующие категории.
Ориентированные на данные. Название подчеркивает, что они обрабатывают большие объемы структурированных данных, чаще всего выполняя агрегацию и простые расчеты.
Ориентированные на модели. Такие системы хотя и основываются на данных, но для выработки бизнес-индикаторов, пригодных для принятия решений, в них используются системы параметрических уравнений и статистические методы.
Ориентированные на знания. Такие системы полагаются на бизнес-правила, базы знаний и механизмы логических умозаключений.
Ориентированные на документы. Применяются для сбора, классификации и интерпретации неструктурированных текстов.
Ориентированные на взаимодействие. Другое их название — групповые DS-системы. Обеспечивают совместное принятие решений.
(В данном списке обозначения категорий принадлежат Пауэру, а описания сделал я.) Конечно, реальные системы в той или иной степени относятся одновременно к нескольким категориям; кроме того, их характеристики могут определять новые категории, например «Web-ориентированные», которые менее важны для понимания их роли в анализе.
К какой категории относится бизнес-аналитика
BI-системы по своей сути ближе всего к категории систем, ориентированных на данные, так как бизнес-аналитика, объединяя такие средства, как базы данных, структурированные для аналитических запросов (информационные хранилища), OLAP-подобные методы анализа «сечение-разбиение» (slice-and-dice) и агрегация, а также «просеивание» данных, пытается идентифицировать структуры (patterns), которые соответствуют относительно небольшому набору моделей. Модели в бизнес-аналитике в большей степени описательные, а не объясняющие что-либо: они превосходно показывают, «что», а не «как».
Из распространенных BI-средств я не знаю ни одного, которое бы, к примеру, «понимало», что времена случайного поступления элементов в очередь чаще всего описываются законом Пуассона, однако в любой OLAP-системе можно выполнить агрегирование по оси времени, которое покажет итоговую статистику времен поступления в виде таблиц и графиков. Аналогично, графики курсов акций и объемов торговли, которые можно найти на многочисленных Web-сайтах, несмотря на логарифмическую шкалу, скользящие средние и сравнительное графическое представление, дают очень приблизительную картину для оценки ситуации. В качестве исходных данных для принятия решений о покупке или продаже в дополнение к ним следует использовать индикаторы финансовой прибыльности, основанные на моделях. В таблице проведено сравнение ряда характеристик систем DS и BI.
Сравнительный анализ возможностей систем DS и BI
Основные характеристики BI-систем | Дополнительные характеристики DS-систем |
Поддержка специальных (ad hoc) запросов и отчетов | Использование и разрешение моделей |
Основное внимание уделяется структурам данных | Поддерживают математические модели |
Требуют размерных моделей: кубов или звездообразных схем информационных хранилищ | Работают также с "плоскими" файлами и неструктурированными данными |
Дают эмпирические, описательные результаты | Дают результаты, пригодные для принятия решений |
Чаще всего используется методика агрегирования | Развитые средства статистического анализа |
Требуются наборы данных среднего и большого объемов | Поддерживаются любые объемы данных |
Возвращаются простые производные величины | Индикаторы могут быть основаны на сложных преобразованиях |
Несмотря на то, что бизнес-аналитика довольно медленно вбирает в себя наиболее сложные методы моделирования из DS-систем, тем не менее она успешно развивается в других направлениях поддержки принятия решений. Во-первых, методы и средства бизнес-аналитики применяются в новых областях, например, в анализе переходов между Web-страницами (clickstream). Во-вторых, BI-системы порталов «вытягивают» данные из распределенных источников, которые могут включать весь спектр существующих в Web форматов. Использование языка XML для обмена данными — неотъемлемая часть этого процесса. Эти BI-порталы обеспечивают сводное представление исходных данных; найти способ моделирования таких источников при помощи одной-единственной структуры — задача намного более сложная. Кроме того, наличие Интернета и недорогих коммерческих BI-систем (поставляемых в первую очередь компаниями Cognos и Microsoft), а также систем поддержки коллективной работы привели ориентированные на обеспечение взаимодействия DS-системы под «крышу» бизнес-аналитики. А появление решений «замкнутого цикла» (где полученное из бизнес-аналитики знание напрямую применяется в оперативных системах) еще более способствует размыванию границ между DS и BI.
Методики бизнес-аналитики захватили лидирующее положение в сфере анализа данных, оттеснив DS-системы на периферию, — классический случай хвоста, виляющего собакой. Методы и средства бизнес-аналитики удовлетворяют большую часть потребностей в анализе для многих пользователей, но все же в BI-системах нет многих специализированных методов моделирования и подходов к анализу, которые есть в DS-системах. По мере роста популярности этих ценных возможностей DS их несомненно будут добавлять в BI-системы. Так что DS-системы будут по-прежнему прокладывать путь, по которому пойдет развитие бизнес-аналитики.
Сет Граймс (Seth Grimes) — глава корпорации Alta Plana Corp., находящейся в Вашингтоне консалтинговой компании, специализирующейся в области аналитических вычислительных систем, демографической и экономической статистики. С ним можно связаться по e-mail: grimes@altaplana.com. |