Сначала были магнитные ленты, иного способа для создания резервных копий не существовало, потом появились недорогие, но емкие жесткие диски. Несколько лет назад к ним добавились дисковые системы, дополненные механизмами дедупликации данных, то есть способные исключить повторное сохранение совпадающих фрагментов; они заняли промежуточное место между лентами и дисками. У каждой из этих технологий есть свои преимущества и свои недостатки, к счастью, недостатки одних можно компенсировать достоинствами других, если собрать все вместе в иерархическую систему D2D2T (disk-to-disk-to-tape - "c диска на диск, затем на ленту") со все той же дедупликацией.
Существует множество интуитивно понятных подходов, которыми можно обеспечить дедупликацию. Она может выполняться в произвольных сочетаниях на файловом или блочном уровне, в режиме реального времени или в процессе последующей обработки сохраненных данных. Независимо от конкретного выбора суть почти не меняется: прежде, чем сохранить новый фрагмент данных, с него "снимаются отпечатки пальцев", для чего используется несколько алгоритмов. А далее, если встречается фрагмент с известным отпечатком, то сохраняется не он сам, а всего лишь путь к его двойнику. Надежность процесса – это тоже очевидно – определяется тем, насколько уникален отпечаток, а это зависит от выбранного алгоритма. Если сравнивать различные подходы по эффективности, то обычная компрессия известными алгоритмами архивации в среднем уменьшает объем вдвое, дедупликация на файловом уровне, применяемая в контентно-адресуемых системах хранения (Content Addressed Storage, CAS) позволяет сократить объем в три-четыре раза, а переход на блоки или еще более мелкие порции (их называют chunk - "ломоть"),увеличивает этот показатель до 20. Блочные технологии дедупликации в основном поставляют компании, специализирующиеся на виртуальных ленточных библиотеках, это Avamar (недавно куплена корпорацией EMC), Symantec Puredisk, Asigra, Data Domain, Diligent Technologies, Falconstor, Sepaton и Quantum. Недавно свои решения предложила и Network Appliance. А технологии файловой дедупликации имеют EMC в продуктовой линейке Centera, Hitachi Data Systems благодаря покупке Archivas и Caringo.
С решениями от Quantum можно было познакомиться 11 марта на организованной компанией CA конференции "Построение резервных центров обработки данных 2009". Здесь были представлены несколько представителей семейства устройств DXi-Series, построенных на общей технологической базе. Младшие модели, DXi3500 и Dxi5500, выпускаются в четырех вариантах с "грубой" емкостью 2-6 Тбайт и 6-18 Тбайт соответственно; старшая модель DXi7500 Enterprise, предназначенная для ЦОД, масштабируется до 240 Тбайт (эти цифры отражают физическую емкость дисков, используемая емкость, естественно, меньше - часть ее уходит на организацию RAID-массивов). Младшие модели допускают дедупликацию только в онлайновом режиме; Dxi7500, наряду с этим допускает дедупликацию в автономном режиме. Она отличается еще целым рядом дополнительных функций, в том числе, возможностью работать в режиме D2F2T в сочетании с ленточными библиотеками.
В России интересы Quantum представляет партнер CA – компания "Интерпроком ЛАН". Конференция была рассчитана на клиентов, а потому обсуждаемые темы ограничивались обзором продуктов для организации управления, репликацией, кластеризацией и аварийным восстановлением информационных ресурсов. По заверениям устроителей, более широко проблемы построения резервных ЦОД предполагается рассмотреть на специальном мероприятии, запланированном на недалекое будущее.