Вряд ли кто станет спорить, что компания SAS Institute Inc., которая этой осенью отпраздновала свое 25-летие, — признанный гранд в мире поставщиков средств бизнес-аналитики (business intelligence, BI) и инструментов анализа данных. Ключевые статистические программные продукты компании — де-факто отраслевой стандарт, на который многие организации полагаются в процессе принятия решений и при выполнении критически важных задач. Поэтому превращение SAS в ведущего игрока еще и на рынке средств «просеивания», или добычи данных (data mining), было лишь вопросом времени.

На протяжении многих лет в ассортименте продуктов SAS не было основных «нестатистических» инструментов, которые считаются стандартом в сфере добычи данных. Кроме того, компании недоставало интегрированной среды разработки для поддержки процесса добычи данных. Теперь ситуация изменилась. В середине 1990-х SAS осознала свое упущение и уже в 1997 году провела бета-тестирование пакета Enterprise Miner, который был официально выпущен в 1998 году. В текущей версии 4.1 расширены базовые функции системы, а также добавлены новые модули, расширяющие область ее применения в сфере добычи данных.

Сведения о программном продукте

Enterprise Miner 4.1

Производитель: SAS Institute, http://www.sas.com

Требования к оборудованию: клиент — Microsoft Windows 98/NT/2000; сервер — Windows NT/2000, MVS ESA или более ранние версии, в том числе все версии OS/390; Intel Linux или 32- либо 64-разрядные версии Sun Solaris, IBM AIX, Compaq Tru64 или HP-UX; 95 Мбайт свободного пространства на жестком диске; оперативная память — 512 Мбайт (сервер) или 48 Мбайт (клиент).

Цена: приблизительно 100—400 тыс. долл. (за первый год) на каждый сервер, рассчитанный на пять клиентов, в зависимости от конфигурации. Поставляется также в вариантах «рабочая станция» и «клиент-сервер».

План рабочего пространства

Enterprise Miner представляет собой часть общего семейства предлагаемых SAS систем анализа данных. Он подключается к модулю верхнего уровня Display Manager и запускается в полностью интегрированном дочернем окне. Интерфейс Enterprise Miner состоит из трех основных компонентов: вверху расположена инструментальная панель Tool Bar, слева — Project Navigator с древовидным представлением проекта, а оставшуюся площадь окна занимает рабочая область Diagram Workspace.

Интерфейс Enterprise Miner состоит из трех основных компонентов.

Многочисленные функции добычи данных в Enterprise Miner объединены в узлы. На настраиваемой инструментальной панели Tool Bar расположены значки для наиболее популярных действий, предусмотренных технологией Data Mining. При выборе вкладки Tools, расположенной в нижней части окна Project Navigator, отображается полный список всех доступных действий. Для создания проекта добычи данных необходимо выбрать узлы из списка Tools List (или на панели Tool Bar), перетащить их в рабочую область и объединить в желаемую конструкцию. Параметры функционирования можно определить во всплывающих окнах свойств.

В списке Tool List сгруппировано большинство действий Enterprise Miner, предусмотренных фирменной методологией SEMMA (Sample, Explore, Modify, Model, and Assess -- выборка, исследование, изменение, моделирование и оценка). Остальные действия относятся к различным функциям в категориях количественной оценки (Scoring) и утилит (Utility). SEMMA представляет собой интуитивно понятное разбиение процесса обработки и анализа информации, которые обычно выполняются при добыче данных, на стандартные операции. Однако это не всесторонний шаблон управления проектом, подобный CRISP-DM.

Функции добычи данных

Функции Enterprise Miner настолько ориентированы на SEMMA, что было бы неверно рассматривать их в отдельности и обсуждать только реализуемые ими алгоритмы моделирования. К сожалению, иногда такая классификация выглядит немного искусственной и ее нельзя назвать интуитивно понятной. Поэтому, пока вы не освоите особенности принятой в SEMMA классификации, вам придется не раз обращаться к интерактивной справочной системе Enterprise Miner.

Функции выборки (Sample) собраны в узлах Input Data Source, Sampling и Data Partition (Источник входных данных, Выборка и Разбиение данных). В узле Sampling размещены функции простой случайной выборки, выборки всех n-ных элементов, расслоенной (стратифицированной) выборки, выборки первых n элементов и групповой выборки. Узел Data Partition позволяет разбить исследуемый набор данных на подмножества для обучения, тестирования и проверки — это стандартная операция, применяемая во многих методах моделирования. В сочетании с Input Data Source этот узел предоставляет удобный в работе набор функций доступа к данным.

Функции исследования (Explore) размещаются в узлах Distribution Explorer, SAS Insight, а также в новом (экспериментальном) узле Link Analysis. К категории Noninteractive Explore относятся Multiplot, Association и Variable Selection. Multiplot — это узел простых неинтерактивных графических операций, позволяющий создавать диаграммы и гистограммы. Узел Association позволяет определять традиционные правила ассоциаций и последовательных цепочек. Узел Variable Selection служит для автоматического или ручного выбора входных переменных. В нем можно выполнить оценки критерия хи-квадрат и R-квадрат для автоматического определения наиболее важных входных переменных при попытке создания моделей прогноза интервальных или двоичных значений.

Distribution Explorer позволяет создавать многомерные гистограммы. Он оптимизирован для эффективной обработки больших наборов данных и позволяет интерактивно вращать и перемещать объемные диаграммы. Узел Insight — это ссылка на систему SAS Insight, интерактивное средство исследования и анализа данных, к которому прилагается отдельное 577-страничное руководство! Два этих узла взаимно дополняют друг друга: Distribution Explorer применяется для исследования очень больших наборов данных с ограниченной графической поддержкой, а Insight — для тщательных изысканий в меньших, более тщательно отобранных подмножествах данных.

Функции модификации (Modify) позволяют управлять атрибутами наборов данных (Data Set Attributes), выполнять преобразования и замену переменных (Transform and Replace Variables) и фильтрацию выбросов (Filter Outliers), а также проводить кластеризацию данных (разбиение на кластеры) средствами узлов Cluster и SOM/Kohonen (самоорганизующиеся схемы Кохонена) или преобразовывать транзакционные данные во временные ряды с помощью нового (экспериментального) узла Time Series. Узел Data Set Attribute — это инструмент создания и использования набора данных для просеивания. Он поддерживает метаданные — связующее звено, используемое во всех модулях Enterprise Miner. В узле Transform вы можете создавать из существующих переменных новые, а Replace применяется для преобразования существующих или восстановления недостающих значений. Узел Filter Outliers служит для работы с интервальными переменными и переменными типа категория и предоставляет автоматические и ручные методы удаления выбросов.

В SEMMA кластеризация рассматривается как функция «модификации» данных, а не «моделирования». Возможно, это объясняется тем, что чаще всего кластеризация применяется для деления набора данных на группы для дальнейшего анализа. В Enterprise Miner есть два узла для выполнения кластеризации — Cluster (рекомендуемый) и SOM/Kohonen. Узел Cluster — это просто ссылка на процедуру SAS Fastclus, которая позволяет эффективно распределять очень большие наборы данных на взаимоисключающие кластеры. Узел SOM/Kohonen используется преимущественно для выделения признаков и сокращения размерности, особенно в случаях, когда переменные характеризуются высокой степенью нелинейных отношений.

К функциям моделирования (Model) относятся узлы Regression, Tree, Neural Network, Principal Components/DMNeural, Memory-Based Reasoning, Two-Stage, Ensemble и User Defined. Узел Regression позволяет выполнять стандартные линейную и логистическую регрессии, причем в нем доступны почти все функции основного модуля SAS/Stat. Задача узла Tree — создание деревьев решений с использованием составного алгоритма, в который SAS включила некоторые возможности алгоритмов CHAID и CART. Это позволяет выполнять как автоматическое, так и интерактивное обучение.

Имя узла Principal Components/DMNeural системы Enterprise Miner указывает на то, что речь здесь идет о комбинации анализа главных компонентов (principal component analysis, PCA) и нейронных сетей. PCA — популярная методика для выделения признаков. Поскольку алгоритмы нейронных сетей чувствительны к объемам наборов входных переменных и переменных со многими возможными значениями (большие области определения), в них обычно используется PCA или другие методы выделения признаков или сокращения размерности. Размещение указанных операций в этом узле оказывается весьма удобным для пользователя.

Two-Stage — это действительно составная модель, в ней объединены классовая и интервальная модели прогнозирования. Этот узел хорошо приспособлен для разработки моделей, предназначенных для решения задач типа: «Станет ли покупатель A приобретать товар X (да/нет), и если да, то сколько (количество/объем)?». В узле Ensemble результаты отдельных моделей (апостериорная вероятность или прогнозируемые величины) объединяются в единый составной результат. Объединения могут быть как гомогенными, так и гетерогенными.

Узел оценки (Assess) делится на два подузла — Assess и Reporter. Assess — это комплексный модуль для сравнения ожидаемых результатов моделей с реальной производительностью или моделей между собой. Узел Reporter автоматически генерирует HTML-отчеты о потоках завершенных проектов добычи данных. Интеллектуальность этого узла заключается в этом, что он «понимает» свое место в рамках конкретного проектного потока и создает отчеты с разной детализацией в зависимости от своего местоположения и входных данных.

Варианты архитектуры

Enterprise Miner находится в вершине иерархии большого взаимосвязанного набора статистических систем SAS. Предлагаются три конфигурации этого инструмента: автономная, для рабочих станций и клиент-серверная. В последнем случае анализ может выполняться одновременно на рабочей станции и на сервере. По поводу масштабируемости могу заметить, что я регулярно выполняю обработку данных объемом в несколько сотен миллионов строк. Нужно только предоставить Enterprise Miner достаточно свободного дискового пространства и оперативной памяти. В общем случае рабочая станция должна оснащаться 1 Гбайт оперативной памяти и 100 Гбайт дискового пространства.

Существуют два варианта встраивания процедур «просеивания» данных Enterprise Miner: Score и C*Score. Score генерирует код SAS, который может выполняться на любой другой инсталляции Enterprise Miner. Созданные процедуры позволяют применять любые методы обработки, преобразования и замены данных, создавать все необходимые модели и использовать их для оценки данных, предоставляя результат в выходном наборе данных. Узел C*Score выполняет те же операции, но создает компилируемые программы на C или интерпретируемый XML-текст.

Помимо прочего, в Enterprise Miner теперь включена база данных Data Mining Database (DMDB) для хранения уже добытых результатов. DMDB — это особый набор данных SAS, оптимизированный для операций по добыче данных. Например, некоторым алгоритмам требуется статистика ковариации и дисперсии. Хранение предварительно рассчитанных статистических данных в DMDB позволяет алгоритмам Enterprise Miner не выполнять эти операции и сэкономить на многих «проходах» по данным. Эта концепция сейчас становится фактическим стандартом — Oracle, IBM и Microsoft уже добавляют подобные функции в свои СУБД.

Крепкий орешек

Enterprise Miner предназначен для посвященных. Система полностью документирована, но эта документация очень «техническая». Начальное руководство позволит опытным пользователям SAS быстро освоить систему, но начинающие «добытчики» данных не смогут работать без дополнительного обучения.

После появления в Enterprise Miner новых алгоритмов «просеивания» данных в сочетании с возможностью доступа к основным процедурам SAS эта система стала пригодной для решения самого широкого круга задач. Совершенно очевидно, что SAS на этом не остановится, о чем свидетельствует множество новых и экспериментальных узлов в рассматриваемой версии.

Грег Джеймс (Greg James) — вице-президент компании National City и менеджер компании Retail Marketing Quantitative Methods. Читает университетские курсы по вычислительной технике и «просеиванию» данных. С ним можно связаться по e-mail: greg.james@nationalcity.com.

Комментарий

московского представительства SAS Institute http://www.sas.com/russia

Продукт SAS Enterprise Miner не требует знакомства с системой SAS, однако пользователю действительно понадобятся специальные знания — прежде всего знания современных методов анализа информации, таких как методы построения деревьев решений, алгоритмы нейронных сетей, регрессионный анализ, кластерный анализ, а также минимальное умение работать с описанием таблиц данных. Знание этих методов и понимание возможностей их применения для решения той или иной бизнес-задачи позволят получить очень хороший результат. Однако бизнес-пользователь, имеющий естественнонаучное или техническое образование, также может использовать данный продукт, изучая его шаг за шагом. Дело в том, что SAS/EM имеет действительно дружественный, интуитивно понятный интерфейс. Практически все можно делать методом drug-n-drop. Каждый из узлов, из которых строится проект анализа, имеет развитую систему установок “by default”, как раз рассчитанную на эксперта в конкретной сфере бизнеса, но не в программировании. По оценкам консультантов компании SAS, оптимально сочетание двух экспертов с пропорцией: 70% знаний предметной области и 30% аналитики у одного и 30:70 соответственно у второго.

Вместе с тем необходимо отметить, что компания SAS проводит обучение методам Data Mining в собственных обучающих центрах по всему миру. Московское представительство компании предлагает ряд курсов, например, «Основы Data Mining», «Решение бизнес-задач с помощью деревьев решений», «Нейросетевое моделирование», «Регрессионные модели в прогнозировании».

О сфере применения технологии data mining можно сказать следующее — это области деятельности человека, где сосредоточены огромные потоки информации. Классический пример — решения CRM (Client Relationship Management). В этой сфере с помощью SAS/EM успешно решаются задачи борьбы с мошенничеством, оттока клиентов в банковском секторе и секторе телекоммуникаций (особенно в сфере мобильной связи); исследования возможности совместной рекламы или продаж (так называемый cross-saling); проведения тестовых маркетинговых компаний, защиты от атак на электронные носители (intrusion detection) и многое другое. Вместе с тем данный продукт можно использовать для построения любых моделей прогнозирования, особенно там, где число различных возможных факторов влияния исчисляется десятками или сотнями.

Илья Соловьев, руководитель проектов московского представительства SAS Institute