Cloudera выпустила анализатор данных для Hadoop, работающий в памяти

Разработчик дистрибутива Hadoop компания Cloudera, выпустила коммерческую редакцию системы Apache Spark, позволяющей анализировать данные в средах Hadoop в реальном времени.

Как объясняют в Cloudera, Spark отлично справляется с задачами машинного обучения, когда нужно обрабатывать один и тот же срез данных в много проходов. До появления Spark для этого пользовались системой MapReduce, которая в подобных случаях работает медленно из-за большого объема дисковых операций чтения/записи. Spark же всю обработку выполняет в памяти, за счет чего, по оценкам создателей системы, функционирует на два порядка быстрее, чем Hadoop.

Spark также прекрасно подходит для поточной обработки — мониторинга непрерывного потока данных и вызова определенных функций при выполнении заданных условий. В числе возможных применений такого механизма — средства распознавания финансовых мошенничеств и управления событиями безопасности.

Spark работает на серверном кластере, не накладывая ограничений на количество узлов и емкость памяти. Система сопровождается интерфейсами программирования для Java, Scala и Python.