Не так давно хранилища данных и вся ценнейшая информация, сосредоточенная в них, были доступны лишь руководителям компаний. Но сегодня хранилища данных выступают на первый план.
По данным исследования, проведенного компанией Meta Group (Стэмфорд, шт. Коннектикут), объем информации, аккумулируемой компаниями, удваивается каждые 18 месяцев, однако анализируется лишь 10% собранных данных. Но этот дисбаланс не будет существовать вечно. Meta Group сообщает, что в 1998 году около 400 тыс. специалистов пользовались системами анализа деловой информации. К концу 2000 года, по прогнозу Meta Group, это число подскочит до 10 млн.
«В прошлом хранилища данных были так дороги, а их возможности так ограниченны, что лишь крупнейшие компании могли позволить себе установить такую систему, причем лишь для узкого круга пользователей. Теперь, когда корпоративные центры данных связаны с огромным числом разнообразных приложений, а пользоваться ими стало гораздо проще, начинается реальное использование накопленных знаний в корпоративном масштабе», — говорит Дэн Грэхем, директор подразделения корпоративных информационных систем компании IBM (Сомерс, шт. Нью-Йорк).
Том Кэмпс, вице-президент по рыночной стратегии компании Cognos (Белингтон, шт. Массачусетс), считает, что за последние годы наметилась тенденция сбора информации по всем аспектам бизнеса. «Теперь, когда данные поступают отовсюду — из торгового отдела, из отдела кадров, со склада и, самое главное, от Web-приложений, компании получают прежде недоступный объем информации о своих клиентах и их покупательских привычках», — говорит Кэмпс.
Ставка в этой игре — «большой бизнес-приз» — возможность предсказывать спрос. Хотя лишь немногим удалось достичь этой «маркетинговой нирваны», ставки так высоки, что уже привели к массовому распространению новых приложений создания центров данных и колоссальному росту объемов имеющихся хранилищ. Meta Group предсказывает, что к концу 2001 года объем 30% хранилищ данных превысит терабайтный рубеж, 14% будут обслуживать более тысячи пользователей, а стратегию анализа бизнес-информации с применением центров данных будут разделять 92% компаний.
Все это свидетельствует о серьезных перспективах систем хранения данных. Как это ни удивительно, большинство компаний пока относятся к этому вопросу не слишком серьезно. «Пока что большинство компаний действуют импульсивно. Осознавая рост объема информации, они просто увеличивают число серверов и расширяют объем дискового пространства. Лишь немногие подходят к проблеме стратегически», — говорит Джефф Хайн, руководитель подразделения профессионального обслуживания компании Berkshire Computer Products (Хопкинтон, шт. Массачусетс).
Однако часть менеджеров корпоративных информационных систем уже начали рассматривать альтернативные системы хранения данных. «Они начали понимать, что истинная стоимость хранения данных несколько выше стоимости серверов и дисковых систем, и поэтому они стараются исключить избыточность систем хранения», — говорит Даг Уайт, руководитель направления корпоративной инфраструктуры компании KPMG
International (Нью-Йорк). По словам Уайта, в течение многих лет компании просто увеличивали число систем хранения и расширяли сеть центров данных, что приводило к большим проблемам при попытках интегрировать и системы хранения, и данные.
Хотя новые архитектуры распределенных систем хранения обещают решить множество проблем, эта технология, по словам многих интеграторов, развивается недостаточно быстро. Возможно, именно это стало причиной решения компании Critical Path пока отказаться от использования распределенных систем хранения.
Компания Critical Path (Сан-Франциско), поставщик решений в области электронной почты и систем сообщений на базе Интернет, поддерживает более 7 млн. почтовых ящиков для таких клиентов, как E*Trade Securities и America Online, общий объем хранимых данных — 20 Тбайт. Это и центры данных для хранения сообщений электронной почты, и профили использования Web-узлов многочисленными клиентами компании.
Critical Path предоставляет своим клиентам доступ к центру данных на платформе Oracle для создания отчетов об активности пользователей. Для этого необходимы сверхмощные системы хранения данных. Компания выбрала систему EMC Symmetrix 3930 в качестве стандарта. «Мы отдали предпочтение этому решению благодаря высокой степени избыточности. Кроме того, EMC предложила самую зрелую технологию и продемонстрировала значительный опыт в решении проблемы резкого расширения объема данных, с которой мы столкнулись, — сказал Джо Данкан, руководитель отдела информационных систем компании Critical Path. — Сейчас многие компании присматриваются к распределенным системам хранения. В перспективе мы тоже заинтересованы в таких системах, однако сейчас нам нужно решать текущие проблемы, и мы хотели найти надежного партнера».
По мнению Чака Рида, менеджера подразделения решений в области хранения данных компании-интегратора Stonebridge Technologies Southeast из Атланты, опыт компании Critical Path типичен для большинства компаний. «Компании, столкнувшиеся с резким ростом объема данных, не могут ждать, пока технология распределенных систем хранения предложит им решение их проблем. Они вынуждены сосредоточиться на существующих технологиях и отложить решение о реализации распределенных систем по крайней мере до следующего года».
Есть и еще одна проблема. При росте объема хранилища данных от 200 Гбайт до терабайта возникают трудности и с анализом информации. Центры данных меньшего объема работают отлично, однако, по мнению интеграторов и клиентов, с переходом терабайтного рубежа возникает необходимость пересмотра аналитических моделей.
Федеральное агентство финансирования программ здравоохранения (Health Care Financing Administration, HCFA) из Балтимора, ожидая роста объема своего хранилища данных на платформе IBM S/390 до 10-12 Тбайт, решило сначала провести тестирование решений. Для тестирования был создан 1,5-терабайтный набор данных в формате СУБД DB2, развернутый на платформе IBM S/390 Teraplex Center. Прежде чем на практике приступить к развертыванию центра данных, необходимо было выяснить возможность обновления многотерабайтного хранилища за выходные до начала новой рабочей недели. Эта цель была достигнута за счет оптимизации центра данных на платформе IBM Teraplex Center, что позволило агентству перейти к развертыванию онлайнового центра данных с уверенностью в том, что он справится с ростом объема информации.
«Когда объем базы данных доходит до терабайта, она перестает работать так надежно, как раньше. Это похоже на расширение здания, — говорит Грэхем. — Оно становится все больше, и наконец наступает момент, когда нужно укреплять фундамент. Большие базы данных ведут себя точно так же».