Big Data: заговорят ли данные?

Анджей Аршавский: «Большие Данные начинаются тогда, когда к внутренним данным компании добавляются внешние источники»


В конце марта состоялся Четвертый Российский форум Big Data 2015, организованный издательством «Открытые системы»

10:59 31.03.2015   |   5948 |  Николай Смирнов |  «Директор информационной службы»



За три года, прошедшие со времени проведения первого форума Big Data, традиционно организуемого в конце марта издательством «Открытые системы», успело произойти многое – как с Большими Данными, так и в ИТ-индустрии в целом.

Эксперты определились с терминологией, затем пришло время обсуждения применимости тех или иных технологий для решения бизнес-задач. Взгляды компаний становятся все более взвешенными, и тема направлений развития технологий Больших Данных приобретает все большую актуальность.

«Сейчас данные в большинстве случаев молчат, но хотелось бы, чтобы они сами говорили», — заявил Алексей Благирев, директор по развитию систем аналитики и отчетности банка «Открытие», в рамках форума Big Data 2015. Нынешние подходы к работе с данными по-прежнему подразумевают «озарение» аналитика, позволяющее перейти к конкретным действиям.

Сейчас основными пользователями Больших Данных являются представители профессии data scientist, которая еще не успела обзавестись устойчивым русскоязычным названием, однако смысл ее определился. Главное качество таких специалистов – умение задавать правильные вопросы к данным. Они должны обладать сбалансированными знаниями сразу в трех областях – математике, программировании и отраслевой бизнес-проблематике, а также иметь развитое воображение и способности к визуализации получаемых результатов. Очевидно, что дефицит таких людей и их дороговизна являются вполне естественными. По выражению Григория Каневского, архитектора решений Teradata Aster, компаниям нужна «аналитика с человеческим лицом» — решения, направленные на широкий круг пользователей, позволяющие максимально интегрировать аналитические системы в бизнес-процессы.

Павел Миронов, директор департамента по работе с предприятиями энергетического сектора компании «Эр-Стайл», уверен: громадный объем информации можно переработать, только обладая способностью к ассоциативному мышлению, проведению аналогий. Именно благодаря технологиям Больших Данных есть возможность двигаться к автоматическому управлению производственными процессами. При этом можно обходиться без участия человека, особенно если речь идет о тяжелых и вредных условиях. Главное – достичь необходимого качества данных.

Желоб разочарований

По мнению Сергея Карелова, председателя совета Лиги независимых экспертов, на рынке Больших Данных произошла кардинальная смена повестки: наблюдается определенный скепсис относительно технологий, возникший из-за несовпадения ожиданий и реальности. На кривой зрелости технологий, предложенной Gartner, Большие Данные уже прошли «пик завышенных ожиданий» и сейчас постепенно скатываются по «желобу разочарований».

«Только поняв и осознав причины наших заблуждений, мы сможем остановить скатывание по этому желобу, которое будет продолжаться еще пару лет», — подчеркнул Карелов, согласно прогнозам которого 60% проектов Больших Данных не пойдут дальше пилотной стадии.

По словам Рината Гимранова, начальника управления ИТ «Сургутнефтегаза», вопрос не в том, как не попасть в 60% проектов-неудачников, а как вообще в ближайшее время «избежать» Больших Данных. Он уверен, что сейчас для предприятий гораздо важнее — добиться актуальности используемой информации и «свертывания», то есть максимального упрощения ИТ-архитектур. В решении этих двух задач помогут технологии обработки данных в оперативной памяти (in-memory).

«У нас функционируют 29 систем, и мы хотим, чтобы они работали на базе максимум двух СУБД. Например, хранилище данных и ERP будут являться частью единой системы», — заявил Гимранов.

Сергей Золотарев, глава Pivotal в России и СНГ, согласился, что технологии, работающие в памяти, становятся новой парадигмой построения информационных систем – от реализации отдельных баз данных до полного использования in-memory в качестве платформы для всех приложений. Их применение поможет сократить разрыв между ожиданиями бизнеса и возможностями ИТ.

«Детсткие болезни» Больших Данных

Как отметил Святослав Сухов, директор дивизиона EMC Isilon в России и СНГ, ажиотаж, возникший вокруг Больших Данных, постепенно спадает. Так или иначе, по данным Gartner, лишь 13% компаний заявляют о реализации связанных с ними проектов. Треть компаний находятся на этапе разработки стратегии и сбора информации и еще примерно столько же проводят пилотные проекты.

Для сферы Больших Данных характерны «детские болезни», обусловленные незрелостью технологий. «Существует достаточно много инструментов, но проверенных на практике, стандартизованных методик пока не хватает», — признал Евгений Степанов, менеджер по продажам решений HP Big Data в России. Чтобы понять, какому именно подходу следовать, надо уяснить, какими данными компания обладает, сколько денег тратит на поддержку существующих систем, насколько эффективно решает поставленные задачи.

Илья Гершанов, руководитель направления Больших Данных компании Informatica, подчеркнул, что многие заказчики уже нащупали круг задач, которые можно решать с помощью Больших Данных, определился и спектр доступных технологий. По его мнению, сократить достаточно высокие риски и сроки проектов поможет использование поставщиками заготовок – «типовых» проектов Больших Данных для поддержки бизнес-инициатив.

Самым наглядным примером использования Больших Данных становится клиентская аналитика. Люди — один из самых ценных источников Больших Данных. Как признал Николай Кацан, руководитель направления IBM по решениям в области управления информацией, анонимность в Сети иллюзорна, и всесторонний анализ данных о клиентах позволяет узнать о них многое – возможно, даже больше, чем те хотели бы.

«Большие Данные начинаются тогда, когда к внутренним данным компании добавляются внешние источники. Так данные превращаются в стратегический актив», — заявил Анджей Аршавский, директор Центра компетенции супермассивов данных «Сбертеха». От применения технологий Больших Данных напрямую зависит прибыль банков, поэтому необходимость их использования уже не обсуждается. При этом, по словам Аршавского, 70% работ в аналитических проектах связано с приведением данных в порядок — их очисткой и интеграцией. Кроме того, для удобства анализа данные зачастую требуют реинжиниринга и переформатирования. Все это отнимает много времени и является одной из причин разочарования в Больших Данных.

«За хранилищем данных нужно следить, иначе оно превратится в помойку», — согласился Егор Осипов, эксперт направления «Хранилища данных, аналитика и Big Data» компании «Крок». Миграция отлично помогает санации данных. Хорошим поводом для этого становится начало проектов Больших Данных.

Не теряет актуальности и проблема масштабирования. Как отметил Дмитрий Толпеко, руководитель направления «Хранилища данных и Big Data» компании EPAM Systems, зачастую в хранилища поступает так много данных, что обрабатывать их в разумные сроки не представляется возможным. В этом случае кластеры Hadoop становятся не заменой традиционных хранилищ, а скорее их дополнением, в отдельных ситуациях – даже спасением.

«Hadoop – не панацея, классические аналитические задачи следует решать другими способами. Hadoop силен в анализе неструктурированных данных, тогда как обычные задачи лучше доверить традиционным хранилищам», — предупреждает вместе с тем Сергей Сотниченко, руководитель управления хранилищ данных и отчетности банка «Тинькофф Кредитные Системы».

Облака для Интернета вещей

«Уже в недалеком будущем основной поток информации будет поступать не от людей, а от устройств, встроенных в бытовые приборы», — высказал мнение Николай Местер, директор по развитию корпоративных проектов Intel. По его словам, это и будут «настоящие» Большие Данные. Организациям придется понимать, как из них извлекать пользу, создавая принципиально новые сервисы: по прогнозам Gartner, к 2020 году около 80% своей прибыли компании будут получать от услуг на основе анализа данных. Однако, если информацию не получится обрабатывать в режиме реального времени, ее ценность, равно как и построенных на ней сервисов, будет резко падать, ломая экономику бизнеса. Таким образом, жизнеспособность многих будущих бизнес-моделей окажется в зависимости от производительности построенных ИТ-решений.

На рынке побеждают продукты, которые дешевле и проще. В случае с Большими Данными это облачные системы.

«Компании будут вынуждены учиться анализировать собираемую информацию, и облако сильно упрощает этот путь», — уверен Дмитрий Марченко, директор департамента Microsoft Cloud Enterprise. Операторы облачных решений быстро наращивают свои вычислительные мощности, а их ЦОД покрывают все большую площадь, становясь все ближе к заказчикам. Как считает Дмитрий Шемякин, старший системный инженер Infinera, для дальнейшего развития возможностей облачных систем очень важно обеспечить необходимую емкость каналов между площадками – транспортной сети для связи между ЦОД.


Теги: Читайте больше Статьи Microsoft HP Intel Большие данные IBM EMC Teradata Крок Informatica in_bigdata Big Data 2015 Сургутнефтегаз
На ту же тему: