Хранилище данных является основой для их анализа. Поэтому систему хранения данных (СХД) можно считать одним из важнейших компонентов любой аналитической и операционной системы. Этот тезис, высказанный Алексеем Ананьевым, техническим менеджером компании DIS, можно считать ключевым в обсуждении тенденций развития систем хранения, изменения потребности в них.
Кроме того, Россию не стоит обособлять от остального мира. «Мы отстаем по масштабам и скорости внедрения крупных проектов, но сами идеи и технологии, хотя и исходят с Запада, воспринимаются нами своевременно», — считает Владимир Слизов, менеджер по продвижению систем хранения данных, «IBM в России и СНГ».
Наряду с общеизвестными причинами роста спроса на СХД Алексей Поляков, менеджер по коммерческим системам хранения данных, «НР Россия», выделяет постоянно ужесточающиеся требования к непрерывности бизнеса. Все больше компаний строят резервные дата-центры, что автоматически удваивает объемы хранимой информации, и если раньше они были только у крупных организаций, то теперь даже средний и малый бизнес старается обзавестись резервной серверной, подчеркивает Поляков. Также, считает он, растет значение резервного копирования: теперь для этих целей все больше применяются быстрые дисковые библиотеки с дедупликацией, а ленточные устройства используются для архивов долгосрочного хранения. Объемы неструктурированной информации растут еще быстрее.
Рост данных превышает нашу способность хранить и передавать их, констатирует Владимир Слизов. «Если в вашем ноутбуке переполняется жесткий диск, то вы просто покупаете новый, побольше, — говорит он. — Но рост емкости дисков замедляется. Так, если сейчас у вас 300 Гб, то вполне вероятно, что через год вы сможете купить 400 Гб. А вот 600 Гб вы скорее всего купите очень не скоро». На сегодняшний момент существуют технологические затруднения в наращивании емкости носителей. Возможно, в будущем что-то поменяется, но пока реальность такова, какова она есть, утверждает Слизов. «А если вы имеете пару петабайт и вам надо добавить еще пару, то вопрос уже не выглядит столь тривиально», — подчеркивает он: помимо собственно хранилища потребуется еще помещение для стоек, электропитание, охлаждение и каналы связи. Для подобных объемов все это более чем серьезно. Компрессия, дедупликация, активное архивирование — все это становится очень важным; кроме того, критичны хорошие каналы связи для эффективного перемещения данных, механизмы защиты как от потери, так и от несанкционированного доступа. В крупных и сложных системах критически возрастает роль мониторинга.
Алексей Ананьев считает, что средства защиты и утилиты дедупликации становятся все более и более востребованными ввиду развития сетевых взаимодействий с внешним для организации миром. Утилиты идентификации необходимы для обработки огромных объемов данных. Развитие этих средств будет продолжаться в течение еще долгого времени, будут разработаны новые, более эффективные алгоритмы и новые продукты как аппаратного, так и программного происхождения, прогнозирует он.
Виртуализация или новые аппаратные архитектуры
В целом надо понимать, что хранение данных — это еще один вопрос, где размер имеет значение. До сих пор от заказчиков нередко приходится слышать, что проще купить новые емкости хранения, чем навести порядок в накопленных данных. Возможно, эта распространенная точка зрения имеет смысл, говорит Слизов, но только до тех пор, пока данные не становятся «большими». При покупке новой СХД или при организации ЦОД надо обращать внимание не только на цену и функционал, но и на то, сколько лет этот массив можно развивать и куда дальше будут мигрировать данные, напоминает Алексей Поляков. Некоторые линейки НР позволяют не только из года в год развивать массив, но и перемещать приложения со старого массива на новый без остановки сервиса.
Стоит вспомнить, что еще лет пять назад абсолютно ту же риторику: «Да лучше покупать новые небольшие серверы на платформе Intel по мере надобности, чем учить инженеров администрировать системы виртуализации и тратить деньги на специальный софт» — можно было услышать на любой конференции по виртуализации. Но рост сложности инфраструктуры и требование бизнеса повышать эффективность, снижая затраты, привели к полному исчезновению такой аргументации. Алексей Ананьев справедливо замечает, что политика неразумного использования дискового пространства, к сожалению, не может быть скомпенсирована его увеличением. Новые физические принципы хранения данных, прежде всего SSD, новая архитектура аппаратной организации систем хранения и интерфейсов доступа к ним, дальнейшее развитие SAN, NAS и пр., использование новых принципов логической организации хранения данных и доступа к ним — во всех этих направлениях идет активное развитие.
В последнее время ни один серьезный проект по построению высокопроизводительного хранилища баз данных (или по решению других задач, требующих высокой скорости ввода-вывода с произвольным доступом) не обходится без SSD, считает Владимир Слизов. Технология прошла большой путь созревания, были проведены сотни тестов на различных приложениях; в результате в основном преодолена боязнь ненадежности этого типа носителя и доказана высокая эффективность на определенном круге задач, полагает он. В первую очередь изменения касаются интеллектуального хранения данных в рамках одного логического тома, отмечает Алексей Поляков. Он считает очевидным, что решать в лоб задачу обеспечения максимальной производительности приложения путем замены всех обычных дисков на диски SSD по крайней мере дорого, а то и вообще неразумно. Внутри каждого тома есть участки (блоки), к которым хост обращается чаще, чем к другим, — здесь можно назвать, например, ячейки таблицы базы данных, файловые папки или разные виртуальные машины, расположенные на одном томе. Задача СХД — найти такие участки и перенести их на разные диски. «Горячие» участки, обращения к которым наиболее часты, — на быстрые диски (SSD или SAS), а «холодные» — на SATA. Такой подход позволяет получить максимальную производительность при минимальных затратах. А самое главное, он позволяет СХД адаптироваться к переменной нагрузке виртуальных сред в реальном времени, подчеркивает Алексей Поляков. У НР эта технология реализована и работает в массивах HP 3PAR и HP P9500.
Приблизительно так же видят ситуацию и в IBM. Владимир Слизов приводит пример: «Опыт использования технологии IBM EasyTier показывает, что все работает так, как предсказывает теория: SSD берут на себя обработку “горячих” областей томов, а менее загруженные области располагаются на традиционных дисках». Как тенденцию он отмечает выпуск практически всеми игроками рынка унифицированных (то есть объединяющих в себе SAN и NAS) систем хранения. Хотя с точки зрения чистой технической мысли в этом нет ничего принципиально нового, подчеркивает Слизов, данный шаг следует рассматривать как стремление облегчить построение и обслуживание становящихся все более сложными ИТ-инфраструктур. Как логическое развитие появляются полностью интегрированные (то есть включающие в себя как хранилища, так и серверное оборудование) системы, пример — недавно анонсированная IBM PureSystem.
Появление новых типов носителей данных вроде SSD нельзя оставить незамеченным, но это решение важно для развития компьютеров, то есть самих рабочих мест, полагает Алексей Ананьев, — их размеры уменьшаются, снижается масса и потребляемая мощность. Он рекомендует обратить особое внимание на появление виртуальных хранилищ данных: «Достоинство этого способа логической организации хранилища — его мобильность. Пользователю такого хранилища не нужно менять реальную структуру базы данных, что требует длительного согласования». Подобный подход позволяет быстро подключать новые источники, оперативно готовить новые витрины данных и предоставлять их широкому кругу пользователей, подчеркивает Ананьев. При этом о роли виртуализации систем хранения мнение у него весьма скептическое: «Предполагалось, что она позволит снизить стоимость систем и затраты на их обслуживание, но, к сожалению, эти ожидания не оправдались, и данная технология не нашла широкого применения в решении бизнес-задач. Тем не менее она имеет право на жизнь и существует сейчас в качестве нишевого решения».
Резонность обсуждения виртуализации СХД прямо связана с тем, какое конкретно оборудование стоит у заказчика, отмечает Поляков: «Многие старые массивы уже не подлежат апгрейду, и если они полностью заполнены или перестали удовлетворять по функционалу, то заказчику приходится покупать новую СХД». У НР есть линейки, замечает он, которые позволяют обойти это ограничение, и приводит пример. В массивах P4000 LeftHand можно в одном кластере использовать узлы разных поколений — те, что уже давно сняты с производства, и продающиеся сейчас. При этом даже на самых старых узлах можно обновить ПО до последней версии и получить функционал нового массива.
Примечательно, что раньше HP предлагала отдельное решение SVSP, позволяющее объединять множество разных массивов, но его пришлось снять с производства, поскольку такое решение всегда является единой точкой отказа: при отказе виртуализатора пропадает доступ сразу ко всем массивам, что означает падение всех приложений.
Сейчас НР предлагает два основных подхода к виртуализации СХД, поясняет Поляков. Первый — использовать системы с масштабированием по производительности: P4000, 3Par, X9000, D2D B6200. У этих систем заказчик может наращивать количество контроллеров с двух до восьми и даже больше, что равнозначно покупке нескольких классических двухконтроллерных СХД. Второй подход предназначен для крупных организаций и заключается в использовании массива P9500 XP в качестве виртуализатора для остальных СХД. Это массив высшего уровня с многократным дублированием компонентов, и его полная остановка обычно связана с внешними факторами, от которых страдает и остальное оборудование.
Самое главное — виртуализация позволяет поднять общую утилизацию ресурсов, напоминает Слизов: «По статистике, средний объем утилизации невиртуализированных инфраструктур хранения не превышает 50%. Утилизация емкости в виртуализированных средах легко может достигать 90%». Кроме того, виртуализация позволяет очень точно оптимизировать емкость с точки зрения производительности.
ILM и вокруг
Еще несколько лет назад разговор о системах хранения так же тесно переплетался с обсуждением методик Information Lifecycle Management (ILM), как теперь он переплетается с рассуждениями о больших данных. Насколько устоявшимся направлением можно считать ILM, включая численные метрики, характеризующие эффективность хранения доступа (RPO, RTO и др.)?
ILM — это концепция. Она многолика и не требует догматического подхода, считает Владимир Слизов. Вопрос о том, применять или не применять различные ее компоненты, как то: иерархическое хранение или управление данными на основе правил, — всегда решается по принципу целесообразности. Характерным примером такого «тихого» прихода ILM в нашу жизнь является факт повсеместного отказа от простого файлового сервиса в пользу систем документооборота и других коллаборационных систем в стиле социальных сетей, полагает он: подобные системы, как правило, имеют развитые механизмы управления информацией на протяжении жизненного цикла.
Что касается количественных показателей, таких как RPO и RTO, то их применение при проектировании решения, считает Слизов, очень хорошо дисциплинирует как заказчика, так и подрядчика и позволяет добиться стабильного результата. «Как правило, ни один большой проект не обходится без оценок этих параметров, — говорит он. — К сожалению, приходится наблюдать подход, при котором параметры надежности закладываются “на глазок”. Зачастую за этим следуют разочарование в результатах и дополнительные расходы».
Наличие системы всегда является только плюсом, считает Алексей Ананьев. Другое дело, что надо правильно выбрать ту систему, которой нужно придерживаться. Следует понимать, подчеркивает он, что соблюдение требований, предъявляемых методологией, обусловливает некоторые затраты, как денежные, так и временные. Надо сопоставить ценность, получаемую от внедрения и соблюдения правил, с затратами на то, чтобы эти правила соблюдать. В любом случае, уверен Ананьев, для крупной организации соблюдение таких правил просто жизненно необходимо, иначе платой за халатность будут большие затраты на оборудование, недовольство пользователей и штрафы от регуляторов.
Алексей Поляков придерживается другого мнения: «Сама по себе эта концепция абсолютно правильна и имеет право на жизнь, но слишком академична и, как показывает практика, сложно применима в реальной жизни из-за многих факторов, в первую очередь из-за уже унаследованных в организации информационных систем, с которыми надо работать, но которые не обязательно соответствуют концепции ILM».
Управление с личного гаджета
На развитие систем хранения влияют многие общие тенденции ИТ-рынка. Владимир Слизов считает, что консьюмеризация оказывает серьезное влияние на архитектуру СХД. Большинство новых дисковых массивов строится на стандартной архитектуре x86 с минимальным применением заказных узлов и микросхем или вообще без таковых.
Мобильные устройства используются как элементы мониторинга и управления. «Самый интересный пример — это программа для iPhone, с помощью которой можно управлять массивом high-end-класса IBM XIV. Устанавливается прямо из Apple AppStore» — рассказал он.
Консьюмеризация, использование мобильных устройств, облачных технологий и наступление эры больших данных — вот основные двигатели развития систем хранения, считает Ананьев. Именно потребность в мощных и надежных, а главное, производительных системах для хранения данных и толкает разработчиков к поиску новых, более эффективных решений.