Бизнес-аналитика




Необходимость реализовать в системах управления базами данных новые аналитические механизмы стимулирует их виртуализацию

13:29 11.09.2008   |   1071 |  Джеймс Кобайлас |

Рубрика Технологии



Джеймс Кобайлас — ведущий аналитик компании Forrester Research, специализирующийся на вопросах управления информацией и знаниями Системы управления базами данных развиваются сегодня как никогда быстро, становясь все более гибкими, с тем чтобы отвечать потребностям современного онлайнового мира, на каждом уровне которого все активнее применяется виртуализация.

Так или иначе, но СУБД, какими мы их знаем, растворяются в механизмах виртуализации. В соответствии с формирующейся новой парадигмой данные не размещаются где-то конкретно. Вместо этого они прозрачным образом распределяются по абстрактной единой сети взаимосвязанных дисковых ресурсов и ресурсов хранения во все большем числе физических и логических форматов, а приложения, которым требуются эти данные, получают их с минимальной задержкой.

"Реальное время" как новое направление в бизнес-аналитике вызывает исключительный интерес. Виртуализация будет способствовать появлению бизнес-аналитики в реальном времени (real time business intelligence), более мощной, нежели традиционные подходы. Виртуализация баз данных будет поддерживать предоставление аналитических услуг в режиме реального времени за счет использования опирающейся на политики сети распределенных и поддерживающих кэширование средств хранения, которые пронизывают инфраструктуру ИТ на всех ее уровнях.

С распространением этой новой концепции будет создана конвергированная архитектура, которая объединит различные подходы к реализации средств бизнес-анализа в реальном времени, такие как ETL (Extract, Transform, Load - "извлечение, преобразование, загрузка"), захват меняющихся данных (Changed-Data Capture, CDC), обработка потоков событий и федерации данных. Эти подходы, традиционно реализуемые на основе плохо связанных между собой компонентов, превратятся в своего рода шаблоны, комбинируемые в общей виртуализованной "информационной решетке" (information fabric) для бизнес-аналитики в реальном времени.

Пройдут годы, прежде чем конвергенция подходов к бизнес-аналитике в реальном времени, направленная на создание унифицированной, размещаемой в памяти распределенной инфраструктуры с поддержкой кэширования, принесет свои плоды. Причина тому - незрелость технологий, отсутствие стандартов, поддерживаемых разными производителями и фрагментарная реализация необходимых для этого технологий производителями современных средств бизнес-аналитики и хранилищ данных. Однако все указывает на то, что это непременно произойдет.

Вот выразительный пример. Корпорация Microsoft, хотя это и не самый известный производитель подобных решений, недавно объявила о поддержке в своей СУБД SQL Server средств оперативной бизнес-аналитики. Еще важнее то, что корпорация начала обсуждать намерение сделать размещаемую в памяти распределенную систему кэширования (также называемую "информационной решеткой") краеугольным камнем своего подхода к развитию стратегии, касающейся бизнес-аналитики и хранилищ данных.

Microsoft выпустила давно ожидаемую версию SQL Server 2008. К числу многих улучшений новой версии относится новый модуль CDC и проактивное кэширование в механизме оперативной аналитической обработки. Для традиционной бизнес-аналитики в реальном времени CDC является наилучшим практическим решением, поскольку за счет непрерывной загрузки обновлений базы данных из журналов транзакций он минимизирует влияние на производительность при обработке транзакций. Проактивное кэширование – важная функция в киосках данных, интегрируемых в системы переднего края, поскольку оно ускоряет ответы на запросы пользователей, адресуемые к агрегированным данным.

Кроме того, недавно Microsoft сообщила о своих намерениях разработать следующее поколение размещаемого в памяти и поддерживающего распределенное кэширование программного инструментария промежуточного слоя, получившего кодовое название Project Velocity. Несмотря на то, что в корпорации пока не сообщили, когда и как эта новая технология будет реализована в выпускаемых программных продуктах, почти наверняка она будет интегрирована в будущие версии SQL Server. Начиная данный проект, Microsoft в каком-то смысле догоняет конкурентов, учитывая, что Oracle уже имеет хорошо проработанную технологию распределенного кэширования в памяти, получившую название Coherence, которую она приобрела более года назад с покупкой компании Tangosol. Специализированные компании, такие как GigaSpaces, Gemstone Systems и ScaleOut Software, имеют аналогичные решения по виртуализации данных.

Более того, Microsoft недавно сообщила о намерении приобрести компанию DATAllegro, специализирующуюся на серверных устройствах (server appliance) для хранилищ данных, и добавить это поддерживающее технологию grid решение к своему стеку продуктов, связанных с хранилищами данных, в состав которого входит SQL Server, средства оптимизации запросов и инструментарий промежуточного слоя для интеграции данных. Microsoft не сообщает подробностей, однако весьма вероятно, что корпорация будет эффективно использовать функции массивной параллельной обработки DATAllegro, динамического распределения запросов и федеративного развертывания в будущих версиях своих СУБД, в том числе в варианте SQL Server, адаптированного к использованию в виде сервисов. Кроме того, можно без труда представить важную роль распределенного кэширования в памяти в будущих планах Microsoft, связанных со специализированными серверными устройствами для бизнес-анализа и хранилищ данных. Если говорить о еще более отдаленной перспективе, нет ничего удивительного в том, что при присоединении SQL Server к платформе DATAllegro (и отказе от используемого в настоящее время свободной СУБД Ingres) корпорация Microsoft может изменить базовый механизм хранения для того, чтобы поддерживать больше логических и физических схем, оптимизированных для задач бизнес-аналитики.

Впрочем, пока Microsoft не сообщает подробности о своих планах по выпуску единой платформы для бизнес-аналитики. Если говорить честно, ни и у Oracle, ни у любого другого производителя средств бизнес-аналитики и хранилищ данных пока нет широких возможностей реального времени или даже планов по их реализации. Ни один производитель на этом рынке пока не представил своих планов, которые объединяли бы разнородные подходы, используемые в программном обеспечении промежуточного слоя, работающих в режиме реального времени.

Точно так же ни один производитель не сформулировал четко свой подход к поддержке полного спектра физических и логических моделей "сохранения данных" (data persistence) в своих информационных решетках реального времени. Тем не менее, достаточно ясно, что отрасль бизнес-аналитики и хранилищ данных движется к новой парадигме, согласно которой оптимальная модель сохранения данных будет предоставляться автоматически каждому узлу с учетом его роли при развертывании. В этом случае данные будут записываться в такую систему, объединяющую в себе виртуализованную память и диски, которая лучше соответствует требованиям данного приложения для работы в режиме реального времени.

Например, базы данных, ориентированные на столбцы, и параметрический подход оптимизированы для киосков данных переднего плана, где они поддерживают быструю обработку запросов к большим, агрегированным таблицам. С другой стороны, реляционные и опирающиеся на строки базы данных лучше подходят для промежуточного уровня корпоративных концентраторов хранилищ данных, где они могут поддерживать быстрое администрирование сложных иерархий источников данных во множестве предметных областей. Другие модели к сохранению данных (например, такие, как обратный индекс), могут подходить для базовых узлов, где они могут поддерживать эффективные средства ETL, профилирование и хранение сложных типов данных до их загрузки в корпоративные концентраторы хранилищ данных.

Скорее всего, вся эта виртуализованная инфраструктура данных будет существовать в "облаке", в среде управляемых сервисов и в имеющихся в организации специализированных средах бизнес-аналитики. Однако странно было бы рассчитывать на то, что эта эволюция произойдет в одночасье. Даже если бы производители вдруг объединились на общей платформе информационной структуры (что крайне сомнительно), предприятия инвестировали в имеющиеся у них средства работы с данными слишком большие средства, чтобы в один момент перенести их в виртуализованную архитектуру.

Старые платформы хранилищ данных существуют уже несколько поколений, и какими бы солидными и надежными они ни казались, становятся все менее гибкими и устаревают. Не стоит рассчитывать на то, что они скоро уступят место виртуализации. Старые базы данных начнут исчезать только тогда, когда кто-нибудь перенесет свои драгоценные данные в новую среду, а затем физически их отключит, положив конец этим мучениям.

Джеймс Кобайлас — ведущий аналитик компании Forrester Research, специализирующийся на вопросах управления информацией и знаниями.


Теги: