Последние годы мир информационных технологий стоит перед проблемой лавинообразного роста объемов хранимых данных, породившей столь же бурный рост числа и мощности файловых серверов. От надежности хранения данных может существенно зависеть бизнес компании, поэтому неудивительно, что задача хранения находится в центре внимания всей индустрии. По оценкам IDC, расходы на хранение данных составили в прошлом году около половины всех расходов на информационные системы. Это позволяет избежать еще более высоких расходов, связанных с потерями доступа к хранилищам информации и составляющих от десятков тысяч до миллионов долларов в час (в зависимости от используемых приложений).
Ожидается, что объем рынка систем хранения данных увеличится к 2005 году почти вдвое. Так, по прогнозам экспертов Aberdeen Group (http://www.aberdeen.com), общемировые затраты на системы хранения возрастут с нынешних 56 млрд долл. до 102 млрд долл. Почти четверть этого объема придется на ПО управления данными. Вообще говоря, стоимость хранения данных больше чем на две трети состоит из стоимости обслуживания и поддержания их целостности (создание резервных копий, восстановление данных после потери и несанкционированного доступа и т. п.). Аналитики полагают, что общий объем данных, хранимых компаниями на дисках (без учета архивов на магнитных лентах), составляет уже несколько тысяч петабайт (один петабайт = 1024 Тбайт, или 1 048 576 Гбайт).
Накапливая информацию, необходимо также позаботиться об эффективном доступе к ней, иначе польза от нее будет невелика. Корпоративные системы хранения в первую очередь должны обеспечивать высокую доступность и защищенность данных от сбоев и форс-мажорных обстоятельств. Иными словами, нужно, чтобы в случае возникновения критических ситуаций данные не утрачивались, а доступ к ним восстанавливался за приемлемое время. При этом длительность простоя должна определяться областью применения системы. Высокая доступность достигается обычно с помощью избыточного дискового пространства (RAID), создания копий в удаленных резервных центрах и средств переключения пользователей и серверов на удаленные системы хранения. Очень важно правильно организовать резервирование и архивирование корпоративных данных.
Большое количество устройств хранения данных, разбросанных по сети, по достижении ею определенного размера существенно затрудняет управление ресурсами хранения, выявление дефицита ресурсов и его устранение. Сложность администрирования зависит от разнообразия средств управления — при необходимости содержать значительный штат подготовленных сотрудников она повышается. При использовании прикладных систем от разных поставщиков, в том числе на разных аппаратных платформах, необходимо обеспечить доступ с гетерогенных серверов к единым ресурсам хранения.
Итак, налицо четыре проблемы: доступность данных (гарантия выполнения операций за требуемое время); резервирование; разделение доступа; унифицированное управление хранилищами независимо от платформ и конфигураций. В разной степени удовлетворить требования к системе поддержки корпоративных хранилищ сегодня могут следующие модели: прямое подключение к серверам (Direct Attached Storage, DAS); централизованное хранилище (Centralized Storage, CS); сетевые устройства хранения (Network Attached Storage, NAS) и выделенная сеть хранения (Storage Area Network, SAN).
Прямое подключение
Под DAS обычно понимают устройство внешней памяти, напрямую подсоединенное к основному компьютеру и используемое только им. Простейший пример DAS — встроенный жесткий диск. Для связи компьютера с внешней памятью в типовой конфигурации DAS используется интерфейс SCSI, команды которого позволяют выделить определенный блок данных на специфицированном диске или смонтировать определенный картридж в ленточной библиотеке. В качестве среды передачи сегодня используются самые современные версии SCSI или Fibre Channel.
Конфигурация DAS приемлема для применений, нетребовательных к объемам, производительности и надежности систем хранения. Дело в том, что DAS не обеспечивает совместного использования емкости хранения разными компьютерами и тем более разделения данных. Установка изолированных устройств хранения — более дешевый вариант по сравнению с сетевыми конфигурациями, однако применительно к большим организациям этот тип инфраструктуры хранения нельзя считать оптимальным. Многочисленные DAS-подключения представляют собой разрозненные и разбросанные по всей компании островки внешней памяти, избытки которой не могут использоваться другими компьютерами, что приводит к неэффективной трате емкости хранения в целом. Кроме того, при такой организации хранения нет никакой возможности создать единую точку управления внешней памятью, что неизбежно усложняет процессы резервирования и восстановления данных и создает серьезную проблему защиты информации. В итоге общая стоимость владения подобной системой хранения может оказаться значительно выше, чем более сложная на первый взгляд и изначально более дорогая сетевая конфигурация.
Итак, можно сделать вывод, что традиционная модель DAS не дает адекватного решения ключевых задач, кроме высокой доступности. Тем не менее, по данным ассоциации Fibre Channel Association, до недавнего времени свыше 90% данных хранилось на файловых серверах, непосредственно подключенных к ним дисковых массивах и других устройствах хранения.
Что касается централизованного хранилища, то оно обычно реализуется на базе дискового массива большой емкости и некоторого количества каналов для подключения серверов. Как правило, имеется аппаратно реализованный массив RAID, обеспечивающий высокий уровень доступности, развитые средства управления и т. п. К недостаткам данной модели следует отнести ограничения в масштабируемости и высокую стоимость устройств. Кроме того, для проведения процедуры резервного копирования и удаленного зеркалирования нужны специальные решения.
Сетевые устройства хранения
Технология сетевой присоединяемой памяти NAS (Network Attached Storage) предусматривает подключение накопителей информации непосредственно к компьютерной сети. Сеть может быть локальной или распределенной, важно только, чтобы в ней использовались технология Ethernet и протокол TCP/IP. Располагаться накопители должны именно там, где находятся потребители информации, это одновременно снижает нагрузку на сеть, характерную для систем централизованного хранения.
Не секрет, что развитие современных систем хранения данных ведет ко все большей централизации хранения данных. У централизованных хранилищ данных есть следующие преимущества:
- высокая надежность;
- практически неограниченная масштабируемость;
- высокая скорость доступа к данным;
- возможность быстрого архивирования/восстановления;
- возможность создания локальных и удаленных копий данных;
- централизованное управление.
В качестве примеров приложений, требующих централизованного хранилища, можно упомянуть корпоративные базы данных, системы планирования ресурсов предприятий (Enterprise Resource Planning, ERP), почтовые системы, системы поддержки принятия решений (Decision Support Systems, DSS), системы управления отношениями с клиентами (Customer Relationship Management, CRM).
Концепция подключаемых к сети устройств хранения не нова. В ее основе лежат такие разработки, как сетевая файловая система NFS (Network File System) компании Sun Microsystems (http://www.sun.com). Возможности NFS позволяют объединенным в сеть компьютерам более эффективно использовать системные ресурсы.
Архитектура NAS оптимизирована для достижения преимуществ над серверами общего назначения как по цене, так и по производительности. По сути, это файл-сервер, который выполняет только одну функцию — файловый сервис, но выполняет ее очень хорошо. Подобные “тонкие” файл-серверы иначе называются файлерами. NAS — высокопроизводительная технология хранения данных, не зависящая от конкретных платформ. Файлеры просты в администрировании и легко подсоединяются прямо к сети, обеспечивая клиентам непосредственный доступ к своим ресурсам. Они особенно подходят для сложной гетерогенной среды, в которой клиенты и серверы работают под управлением разных ОС.
Ключевая особенность файлеров — мультипротокольный механизм разделения файлов. Они используют стандартные коммуникационные протоколы и сетевые интерфейсы, которые позволяют передавать данные как в LAN-, так и в WAN-среде. Некоторые файлеры используют протокол Network Data Management Protocol (NDMP), который позволяет удаленно запускать резервное копирование с диска на магнитную ленту. Из сетевых технологий в основном применяются Fast/Gigabit Ethernet, FDDI и АТМ.
От серверов общего назначения файлеры отличаются двумя основными особенностями — упрощенной ОС и оптимизированной по скорости доступа файловой системой. ОС файлеров освобождена от всех функций, не связанных с обслуживанием файловой системы, таких, как графический интерфейс и выполнение прикладных вычислений. Она обычно располагается во флэш-памяти и предустанавливается фирмой-производителем. Простая архитектура обеспечивает быстрый отклик на запрос и очень высокую скорость передачи данных, не требуя для этого какой-либо сложной конфигурации аппаратных средств или ручной настройки производительности. Файлеры проектируются таким способом, что вся их вычислительная мощность фокусируется исключительно на операциях обслуживания и хранения файлов.
Для подсоединения NAS-устройств к сети не требуется ее модификации или какой-либо специальной аппаратуры. Благодаря этому легко расширять емкость массовой памяти в корпоративной сети, не останавливая ее работу. Как только NAS-устройство подключается к сети, его ресурсы становятся доступными для пользователей. Нет необходимости загружать дополнительное ПО или переконфигурировать рабочую станцию. Устройства интегрируются с сетью автоматически. У пользователя просто появляются дополнительные диски, к которым он получает прямой доступ, не создавая дополнительной нагрузки на серверы приложений.
Выделенная сеть хранения
Сеть SAN представляет собой выделенную сеть, предназначенную для высокоскоростного соединения серверов и устройств хранения данных, таких, как избыточные (RAID) и простые (Just a Bunch of Disks, JBOD) дисковые массивы, ленточные и оптические библиотеки и т. п. SAN позволяет любому серверу получить доступ к любому накопителю, не загружая при этом ни другие серверы, ни локальную сеть. Кроме того, возможен обмен данными между накопителями и без участия серверов. Для подключения к сети SAN используется протокол Fibre Channel.
Впервые концепция SAN была предложена в 1998 году. Разумеется, она возникла не на пустом месте: как и многие другие современные компьютерные технологии, она была заимствована из мира мэйнфреймов. Там подобная архитектура применялась, например, в центрах обработки данных для подключения компьютеров к системам хранения и распределенным сетям через интерфейс ESCON. Благодаря высокой производительности и надежности, а также способности протокола Fibre Channel покрывать большие расстояния, сети SAN открывают новые возможности для построения серверных кластеров, для совместного использования накопителей несколькими серверами и приложениями и для создания новых приложений защиты данных (резервное копирование). Вдобавок к этому в сетях SAN осуществляется централизованное управление накопителями.
Основное различие между SAN и NAS состоит в способе организации обмена данными между устройствами хранения и серверами. Каждый из серверов NAS взаимодействует с локальной сетью с помощью стандартных сетевых протоколов, например, TCP/IP, и полностью контролирует передачу данных между подключенными к нему устройствами хранения и другими узлами в сети. Доступ к данным осуществляется только через выделенный сервер NAS. Если другим узлам необходимо обратиться к серверу, данные должны передаваться по локальной сети, что существенно увеличивает трафик в ней. Между тем SAN допускает взаимодействие между любыми системами в сети, что позволяет уменьшить загруженность сети. В отличие от архитектуры NAS сеть хранения не использует существующую локальную сеть для передачи данных между серверами и устройствами хранения; данные перемещаются по самой сети хранения, не вызывая в локальной сети избыточного трафика.
Применение SAN позволяет рассматривать все дисковые массивы предприятия как единый управляемый ресурс, который может быть легко перераспределен между различными серверами и приложениями. SAN обеспечивает эффективное наращивание и масштабирование дисковой системы предприятия. Эти возможности распространяются не только на дисковые системы, но и на другие накопители, например, ленточные и магнитооптические библиотеки. Кроме того, SAN позволяет отказаться от применения большого числа накопителей малой емкости в пользу нескольких крупных дисковых массивов и ленточных библиотек, что зачастую оказывается дешевле. К тому же небольшое число накопителей проще администрировать.
Наиболее очевидное достоинство SAN — способность уменьшить нагрузку на основную локальную сеть. Как известно, резервное копирование обычно приводит к заметному замедлению работы других приложений. В случае же применения SAN оно практически никак не скажется на работе пользователей. Еще раз следует подчеркнуть другое важное для корпоративных сред преимущество — практически неограниченная масштабируемость. Это касается как увеличения пропускной способности самой SAN, так и общей емкости системы хранения. Устройства хранения можно добавлять в сеть по мере необходимости, причем они оказываются непосредственно доступны из любой точки сети. Другое немаловажное преимущество — централизация управления. SAN позволяет управлять системой хранения как единым целым, что особенно важно, когда система состоит из десятков или даже сотен устройств. Все устройства хранения можно разместить в одном месте отдельно от серверов, обеспечив им оптимальные условия окружающей среды, физическую защиту доступа и т. д. Это повышает и удобство обслуживания. Впрочем, SAN позволяет размещать устройства хранения не только в разных помещениях, но даже в разных городах. И в этом случае распределенная система будет оставаться для пользователя единым целым.
Сети SAN обычно включают те же компоненты, что используются в локальных сетях (LAN), — адаптеры, оптоволоконные или медные кабели, концентраторы, коммутаторы, мосты и удлинители, ПО управления сетями. Теоретически возможны следующие четыре типа подключения устройств SAN:
- точка — точка (подключение сервера к дисковому массиву);
- петля FC-AL (Fibre Channel Arbitrated Loop);
- коммутируемое подключение (подключение накопителей и серверов к FC-коммутатору);
- смешанное подключение (используются и коммутаторы, и концентраторы).
Простейшая сеть SAN представляет собой петлю FC-AL. Часто подключение устройств организуется при помощи концентратора. Это упрощает проводку и подключение устройств, а также позволяет автоматически изолировать отказавшие участки. Такая реализация наиболее экономична с точки зрения финансовых затрат. Помимо концентратора, обязательный компонент SAN — мост между Fibre Channel и SCSI, применение которого позволяет подключить к сети уже имеющиеся устройства.
Говоря о SAN, нельзя обойти стороной ОС, которые будут работать с ними. Согласно данным Gartner Group, SAN наиболее широко применяются в среде Windows NT, UNIX и OS/390.
Резюмируя, скажем, что к преимуществам SAN можно отнести:
- высокую готовность;
- централизованное управление;
- масштабируемость;
- устойчивость к сбоям;
- высокую производительность.