Инструменты Oracle для Больших Данных

Сегодня практически все крупные вендоры предлагают свои продуктовые комплекты для решения проблемы Больших Данных. Отличительными их признаками являются не столько объемы данных, на которые они рассчитаны, хотя и это важно, сколько готовность к работе с неструктурированными и потоковыми данными, а также к поддержке различного рода аналитики. Подобный набор из арсенала корпорации Oracle был представлен на конференции Big Data & BI Forum, состоявшейся в Москве 27 февраля. Набор, хотя и не имеет специального названия, тем не менее представляет собой целостное интегрированное решение, включающее все инструменты, необходимые для реализации четырех элементов технологической цепочки: сбора данных, организации данных, анализа и принятия решений.

Системы, ориентированные на Большие Данные, преимущественно строятся на основе кластерных конфигураций в сочетании с Hadoop. В своем нынешнем состоянии программное обеспечение Apache Hadoop, помимо модели распределенных вычислений MapReduce, содержит всеобъемлющую конструкцию для хранения и обработки больших массивов данных на базе недорогих, имеющихся на рынке кластеров. Apache Hadoop включает в свой состав библиотеки и утилиты Hadoop Common, распределенную файловую систему Hadoop Distributed File System, средства для управления кластером, модель Hadoop MapReduce, платформу программирования Apache Pig, хранилище данных Apache Hive, нереляционную распределенную СУБД Apache HBase и ряд других компонентов.

Пользователям, заинтересованным в создании сред обработки Больших Данных, приходится решать — строить их самим, оснащая их свободным ПО, или покупать готовое решение? Используя свободное ПО и серверы массовой архитектуры, ничто не мешает собирать конфигурации, необходимые для работы с Большими Данных, силами самих пользователей — так получается дешевле. ТЭтот путь вполне приемлем для «университетских» проектов, однако в корпоративных приложениях, где выше требования к надежности и есть необходимость согласовывать новые приложения с уже существующими, оказывается разумнее отдать предпочтение системам, собранным и укомплектованным профессионально. Такой, в частности, является специализированная система Oracle Big Data Appliance X4-2 в сочетании с комплектующим ее ПО (частично это свободное ПО, а частично — разработанное в Oracle). Она собирается из следующих частей: дистрибутив Apache Hadoop от компании Cloudera; менеджер Oracle Big Data Appliance Plug-In for Enterprise Manager; менеджер Cloudera CDH; дистрибутив статистического пакета на языке R; СУБД Oracle NoSQL Database; операционная система Oracle Enterprise Linux и виртуальная машина Oracle Java VM.

В максимальном комплекте Oracle Big Data Appliance X4-2 занимает стандартную стойку, в такой комплект входят 18 серверов Oracle Sun Fire X4270 M2 с суммарным объемом памяти 64 Тбайт. Коммуникации поддерживают два коммутатора Sun Network QDR InfiniBand Gateway Switch, коммутаторы Sun Datacenter InfiniBand Switch и Catalyst 4948 Ethernet Switch. Каждый процессор — восьмиядерный, а общее число ядер равно 288. Есть более скромный стартовый комплект Oracle Big Data Appliance X4-2 Starter Rack, он ограничен шестью серверами и может расширяться с помощью модулей Oracle Big Data Appliance X4-2 In-Rack Expansion до 12 или 18 узлов. Oracle Big Data Appliance могут совместно использовать машина баз данных Oracle Exadata Database Machine и аналитическая машина Oracle Exalytics Business Intelligence Machine.

Цепочка работы с Большими Данными поддерживается соответствующими программными компонентами.

Сбор. Hadoop Distributed File System служит для работы с неструктурированными данными, Oracle NoSQL Database — для частично структурированных данных, а обычная СУБД Oracle — для структурированных данных.
Организация. Для этого служат Hadoop Software Framework, Oracle Data Integrator и коннекторы. Всего разработано четыре типа коннекторов, заметно отличающих покупное решение от свободного: Oracle Direct Connector for HDFS (обеспечивает параллельную загрузку данных и доступ к таблицам в Hive и HDFS); Oracle Data Integrator Application Adapter for Hadoop (уменьшает сложность описания преобразований в Hadoop за счет графического интерфейса); Oracle R Hadoop Connector (обеспечивает линейное масштабирование алгоритмов на R, распараллеливает вычисления и выполняет MapReduce на R); Oracle Loader for Hadoop (передает часть нагрузки в Hadoop, разгружает базу Oracle и балансирует нагрузку).
Анализ. Распределен между Hadoop и СУБД Oracle; на Hadoop в основном возложена предварительная обработка данных, а собственно задачи по анализу данных решает СУБД Oracle, используемая в качестве хранилища подготовленных данных. Доступен следующий набор инструментов анализа: Oracle R Enterprise; In-Database Data Mining; In-Database Text Mining; In-Database Semantic Analysis; In-Database Spatial

Кроме того, инструментарий для работы с Большими Данными от Oracle включает еще две важные составные части. После приобретения компании Endeca, специализирующейся на поиске в неструктурированных информационных средах, в Oracle подготовили несколько аналитических приложений для работы с потоковыми данными: Oracle Endeca Commerce для извлечения информации из разного рода коммерческих данных и Oracle Endeca Information Discovery для поиска скрытой информации. Обработка сложных событий (Complex Event Processing, CEP) в Oracle стала возможной после приобретения компании BEA с ее WebLogic Event Server, переименованным позже в Oracle CEP; сейчас он входит в состав Oracle Event-Driven Architecture Suite.

Инструменты Oracle для Больших Данных

Oracle предлагает интегрированное решение на базе Hadoop