Data Hub охватит все источники данных

В SAP предлагают инструментарий, который позволит оставить данные там, где они находятся, обеспечив централизацию обработки, но не хранения.

Если исходить из классификации, что хранилища данных предназначены для аккуратистов (информация отсортирована, упорядочена и выдается в виде готовых выводов, а остальное отбрасывается), а озера данных – для скопидомов (сваливайте сюда все, ведь никогда не знаешь, что окажется полезным), то новая система SAP Data Hub ориентирована на тех, кто не относится ни к первой, ни ко второй категории.

Новый инструментарий управления данными призван обрабатывать лишь те данные, которые вам нужны. При этом поиск данных осуществляется там, где они созданы или хранятся, перемещения на новое место не требуется.

Исследователи данных смогут использовать новый инструмент для анализа данных из множества источников и различных систем.

«Data Hub – это слой, обеспечивающий интеграцию, обработку и управление данными, – пояснил глава подразделения продаж СУБД и средств управления данными SAP Ирфан Хан. – Вы имеете возможность просмотреть все данные, которые у вас есть, и получить доступ ко всей информации. При этом централизации всех данных в виде озера не требуется. Их поиск и обращение к ним осуществляются прямо там, где они находятся в настоящий момент».

Хотя концепция корпоративного хаба данных известна уже давно, SAP вкладывает в этот термин несколько иной смысл: тогда как MapR и Cloudera предлагают импортировать данные, перед тем как их обработать, в гигантский кластер Hadoop или другой центральный репозиторий, SAP оставляет данные там, где они находятся, пока в них не возникнет потребность.

Реализуется это путем создания конвейеров данных – потоков данных, состоящих из повторно используемых, настраиваемых операций по обработке данных из разных источников, в том числе файлов CSV, API веб-сервисов, коммерческих облачных сервисов и собственных хранилищ данных SAP. Операционная роль отводится коннекторам различных файловых систем, средствам анализа или библиотекам машинного обучения, таким как TensorFlow, а также задачам, запрограммированным пользователем.

SAP предоставляет визуальный инструмент для моделирования потоков работ и конвейеров, а также уровень настройки для вызова заданий и задач, перезапускаемых или откатываемых в случае ошибки. Все это можно разместить в системах планирования потоков работ, например в Apache Oozie.

Допускается перенос исполняемого конвейера на другие платформы, к примеру на SAP Vora.

Для функционирования Data Hub не требуется, чтобы работа велась на платформе SAP. Кроме того, инструмент этот может быть интегрирован с другими продуктами. «Обработка SAP ETL в данном случае не обязательна, – пояснил Хан. – Вы вполне можете использовать и средства Informatica или, скажем, слой сообщений с открытым кодом Kafka».

SAP Data Hub можно получить уже сейчас, но стоимость будет зависеть от конкретной конфигурации.

Как уточняют в SAP, цены будут определяться исходя из числа систем и вычислительных узлов, управляемых SAP Data Hub. Кроме того, понадобится лицензия на технологию управления базами данных в оперативной памяти SAP HANA. Уже имеющиеся лицензии HANA тоже идут в зачет. Клиентам, у которых нет лицензий HANA, придется приобрести их минимальный набор, обеспечивающий удовлетворение потребностей Data Hub.