Последние несколько лет в индустрии резервного копирования идет явная тенденция к переходу от лент к дисковым массивам. Лента — не слишком надежный носитель.
Любой, кто пользовался магнитофоном, сталкивался с тем, что кассеты периодически не читались. Старые пленки могли осыпаться или рваться вследствие старения самого материала. А для кассет в ленточных библиотеках используются те же самые технологии и материалы, так что проблемы при их эксплуатации аналогичные. Плюс в организациях больше риска, связанного с тем, что ленты окажутся в условиях слишком высоких или низких температур, магнитных полей и прочих факторов, воздействие которых ведет к потерям информации. Кроме того, кассета может банально потеряться или по ошибке оказаться не в той коробке. При этом, по закону подлости, информация с лент бывает нужна как раз тогда, когда она перестает читаться или теряется. В итоге очень многие компании начали отказываться от лент и хранить резервные копии на СХД, благо на рынке появились относительно дешевые массивы большой емкости.
Однако этот процесс сдерживался тем, что объемы резервных копий многократно превышали тот, что занимали продуктивные данные. Тем более что многие регламенты требовали хранить данные в течение определенного срока, иногда довольно длительного. Появление технологий, которые позволяли радикально сократить физические объемы резервных копий, существенно ускорило процесс отказа от использования лент. Такой технологией является дедупликация, лежащая в основе EMC Data Domain.
Напомним, принцип дедупликации состоит в том, чтобы избежать многократного хранения одних и тех же данных. Система вычленяет уникальные сегменты и сохраняет только их. Все остальное заменяется ссылками на то, что уже хранится. При однократном сохранении информации это позволяет сэкономить до 30% дискового пространства за счет того, что похожие данные в организации обычно есть. Но максимальный эффект от использования дедупликации можно получить в системах резервного копирования, существующих практически во всех компаниях. Резервное копирование сводится к многократному, обычно ежедневному, сохранению данных, которые в обычной компании меняются довольно медленно. Как показывают наши наблюдения, за неделю они изменяются максимум на проценты, обычно же на доли процента. В результате после нескольких недель перехода на библиотеку с дедупликацией экономия дискового пространства составляет от 90%. Более скромных показателей в нашей практике реализации подобных проектов не было.
Дедупликация представляет собой некий программный алгоритм, имеющий несколько вариантов реализации. Эти задачи можно возложить на сам сервер, для чего используются программные агенты. В момент отправки очередной резервной копии идет процесс сверки блоков данных с центральным хранилищем, который требует определенного количества системных ресурсов. В результате по сети отправляется уже дедуплицированный трафик. Такой подход используется, когда нужно организовать резервное копирование по «узким» каналам, например, удаленных офисов. Также дедупликацию можно возложить непосредственно на СХД. Именно такой подход и использует EMC Data Domain. В итоге влияние на процессорное время серверов просто отсутствует, но объемы данных, передаваемых по сети, равны традиционному резервному копированию.
Data Domain работает на блочном уровне, не оперируя отдельными файлами. Поток данных «на лету», то есть в процессе записи информации на библиотеку, делится на небольшие сегменты размером в десятки килобайт. В результате тип данных не оказывает большого влияния на работу системы, и она одинаково хорошо справляется с разными типами данных. Ведь существует очень мало приложений, которые при добавлении информации в уже имеющийся файл кардинально меняли бы его структуру. Исключение могут составлять приложения, предназначенные для создания и редактирования мультимедийного контента: оцифрованной графики, звука, видео. Так что это решение не слишком хорошо подходит для медийного бизнеса. Также не стоит рассчитывать на значительный эффект, если активно применяется шифрование данных. Ведь шифрование одного и того же содержимого каждый раз даст абсолютно разный результат, так как цель этого процесса — изменение информации до неузнаваемости. Технически EMC Data Domain представляет собой модульную СХД, монтируемую в стандартные стойки. Емкость может составлять от нескольких терабайт до сотен терабайт. Основу его составляют SATA-диски высокой емкости. В итоге непосредственно диски занимают относительно мало места в стойке. Физическая емкость DD масштабируется от 0,8 Тбайт до 285 Тбайт (DD890), а логическая, которая показывает, сколько виртуальных резервных копий может храниться в системе с учетом дедупликации, растет от 9 Тбайт до 14,2 Петабайт.
Вряд ли кто-то будет спорить, что главное в резервном копировании — это возможность восстановиться из копии, когда основные данные потеряны. Data Domain гарантирует сохранность резервных копий благодаря защите RAID6 и непрерывному обнаружению и устранению ошибок. Журналируемая файловая система EMC Data Domain без возможности перезаписи гарантирует постоянную сохранность старых резервных копий даже в случае программных ошибок во время новых операций резервного копирования. Также Data Domain позволяет выполнять репликацию дедуплицированных данных по сети WAN на удаленную площадку для аварийного восстановления, что позволяет отказаться от распространенной практики вывоза резервных копий на ленте в специализированное хранилище.
Помимо сохранности данных EMC Data Domain обеспечивают впечатляющую скорость резервного копирования и восстановления. Даже младшая в линейке модель DD140 записывает резервные копии на скорости до 140 Мбайт в секунду, а старшая модель DD890 — до 4 Гбайт в секунду (при использовании протокола DD Boost).
ПО EMC Data Domain Boost серьезно повышает производительность путем частичного выполнения процесса дедупликации на сервере резервного копирования или на клиентах. На данный момент Data Domain Boost поддерживается ПО EMC Networker, Symantec Netbackup а также EMC Avamar. DataDomain обладает дополнительной программной возможностью — шифровать хранимые резервные копии.
При внедрении решения проявляется еще один большой плюс Data Domain — простота интеграции в существующую систему резервного копирования за счет использования технологии виртуальных ленточных библиотек. EMC Data Domain может эмулировать накопители на лентах. В итоге все регламенты работы с лентами можно оставить без изменения, и для используемых программ резервного копирования ровно ничего не изменится. И всю кухню, связанную с использованием лент, полностью берет на себя EMC Data Domain. Для больших организаций, где счет используемых серверов (не важно, физических или виртуальных) идет на сотни, полная замена устоявшихся механизмов резервного копирования представляет крайне сложную задачу, к тому же чреватую всяческими неприятностями, в том числе и потерями данных. А использование виртуальных ленточных библиотек позволяет минимизировать изменения в устоявшихся и отлаженных процессах, да и сама инсталляция системы занимает меньше времени.