В Apache Spark появился механизм обработки потоков данных в памяти

08:44 18.07.2017

|   872 прочтения



MLib, встроенный набор библиотек машинного обучения Spark, пополнился функциями для обработки срезов данных с помощью алгоритмов Google PageRank.

 

В Apache Foundation объявили о выходе версии 2.2 фреймворка распределенной обработки данных Apache Spark. Одной из главных особенностей обновления стал механизм Structured Streaming, позволяющий обрабатывать потоки данных с использованием стандартных средств Spark. До этого Structured Streaming находился в статусе экспериментального релиза.

Среди его особенностей — возможность обмена данными с распределенной шиной передачи сообщений Apache Kafka, которую раньше обычно использовали с другим фреймворком обработки потоков, Apache Storm, имеющим более сложный API, чем у Spark.

MLib, встроенный набор библиотек машинного обучения Spark, пополнился функциями для обработки срезов данных с помощью алгоритмов Google PageRank и мультиномиальной логистической регрессии (последний позволяет, например, строить предположения о том, какой из популярных в данное время фильмов скорее всего понравится представителю той или иной демографической категории). В Spark также существенно расширена поддержка R, языка программирования для статистической обработки данных.


Теги: Open Source Обработка в памяти Машинное обучение Apache Spark
На ту же тему: