Hadoop исчезает с конференций по большим данным

Имя Hadoop уже около полугода как исключили из названий крупных отраслевых мероприятий, пишет сайт Datanami. Например, конференция, организуемая компаниями Cloudera и O'Reilly Media, теперь носит название Strata Data Conference, а раньше — Strata + Hadoop World.

Говоря о причинах, аналитики Gartner в недавнем докладе «Цикл зрелости технологий управления данными» пишут, что дистрибутивы Hadoop выходят из моды ввиду «сомнительной пользы» от наличия на предприятии соответствующего полного стека, в который помимо стандартных компонентов — распределенной файловой системы HDFS, платформы управления ресурсами кластеров YARN и системы обработки данных MapReduce может входить еще целый ряд модулей, таких как Apache Pig, Hive, HBase и др.

К трем ведущим дистрибутивами Hadoop обычно относят MapR, Cloudera и Hortonworks. Глава компании MapR Мэтт Миллс на недавней конференции Strata признал, что сегодня дистрибутивы Hadoop — это «бизнес проигравших, поэтому мы убрали слоника из нашего дома». В MapR предпочитают называть компанию поставщиком конвергентной платформы данных.

В Cloudera, в свою очередь, сообщают, что в компании сознательно стали избегать использования имени Hadoop при маркетинге, поскольку «оно неоднозначно толкуется и путает заказчиков». Взамен в Cloudera предпочитают объяснять, как можно решать задачи бизнеса — распознавание мошенничеств, прогнозирование текучки клиентов и т. п. — с помощью пакетных предложений компании, включая платформу Data Science, комплект аналитических СУБД и пакет транзакционных баз данных.

Однако хотя Hadoop больше не в центре внимания, фреймворк по-прежнему пользуется спросом: продажи растут и у Cloudera, и у Hortonworks, и у MapR. О том же говорят и представители компаний, разрабатывающих вспомогательное ПО для Hadoop. Например, в Trifacta, предлагающей платформу подготовки данных для аналитики, отмечают рост продаж Hadoop, в частности, для облачных развертываний. А в Pepperdata, поставляющей ПО для мониторинга и оптимизации рабочих задач Hadoop и Spark, за прошлый год удвоили объем продаж, в основном благодаря клиентам, расширяющим кластеры Hadoop. Но в дальнейшем, уверены в Pepperdata, основная часть спроса будет приходиться на тех, чьи рабочие задачи выполняются в облаке, преимущественно на базе новых архитектур наподобие системы управления контейнеризованными приложениями Kubernetes. Pepperdata вместе с Google, Red Hat и другими участвует в проектах, в рамках которых обеспечивается взаимодействие Kubernetes, HDFS и Spark.

Взлет и падение Hadoop произошли примерно за десять лет. Сегодня корпоративных заказчиков больше волнует вопрос не какую технологию анализа выбрать, а где разместить данные, — локально или в облаке, полагает Эш Манши, глава Pepperdata, бывший директор по технологиям Yahoo, где зародился Hadoop. Во многих случаях это зависит от законов о репатриации данных, действующих в различных странах, добавляет он.

Многие участники Strata высказали наблюдение, что сегодня Hadoop вытесняется Spark, фреймворком распределенных вычислений в кластерах, лишенным некоторых ограничений MapReduce.

Например, в Cloudera называют MapReduce «безусловно мертвым», утверждая, что в 2016 году дистрибутив Hadoop компании покупали преимущественно ради Apache Spark. При этом, хотя основные компоненты Hadoop заменяют на другие, в Cloudera убеждены в верности основной архитектурной идеи Hadoop: данные должны быть централизованы, и средства их обработки необходимо размещать там же, где находятся сами данные.

Между тем в компании AtScale, которая предлагает работающую поверх Hadoop систему бизнес-анализа, не согласны с тем, что Hadoop утрачивает ценность. Глава компании Дейв Мариани говорит, что настоящей революцией стало не появление Hadoop, а замена хранилищ данных на озера данных, а у Hadoop, ставшего «самой первой реализацией озера данных», сегодня просто есть много альтернатив. В AtScale также не согласны с Gartner в том, что предприятия массово отказываются от Hadoop — есть данные, показывающие, что дистрибутивы по-прежнему покупают, а прежние пользователи расширяют имеющиеся инфраструктуры.

По словам Мариани, в компании не считают, что Hadoop мертв: на конференциях нет прежнего энтузиазма по поводу фреймворка просто потому что ему уже десять лет, и аудитория мероприятий изменилась; сам же он за это время лишь стал более зрелым.