«Технологии больших данных»: фокус на машинное обучение

Как показала практическая конференция, проведенная издательством «Открытые системы», главной точкой роста рынка больших данных становится машинное обучение.

Показателем взросления рынка инструментов больших данных можно считать то, что среди них постепенно прекращается «перетягивание одеяла», они находят ту нишу, в которой наиболее эффективны. Наблюдается смещение фокуса от конкуренции между различными платформами к интеграции между ними. Например, все разработчики решений ищут способы интеграции с платформой Hadoop, включающей в себя большую часть инструментов работы с большими данными. Это тем более актуально, что нынешние области применения Hadoop ограничены: чаще всего это архивное хранение (а иногда и «помойка» данных), а также машинное обучение. Для решения остальных задач рядом с ним в большинстве случаев создается традиционное хранилище данных.

Тем не менее, как показали выступления в ходе конференции «Технологии больших данных 2017», поведенной издательством «Открытые системы», будущим рынка эксперты видят консолидацию инструментов – конвергенцию различных решений в рамках универсальных платформ, а главными точками его роста станут нейросети. При этом будет происходить резкий рост числа пользователей, главным образом за счет непрофессиональных аналитиков, которые начинают играть в работе с данными все более важную роль. Текущие же тенденции технологий под зонтиком больших данных заключаются в преобладании открытых платформ, возникновении экосистемы вокруг платформы Hadoop, а также переходе от пакетной обработки данных к обработке в реальном времени.

Не все данные одинаково полезны

«Не всегда ‘больше данных’ означает ‘больше денег’, существуют и обратные примеры. Часто данные обходятся компаниям слишком дорого, причем речь идет не только об их сборе и хранении», — заявил Максим Савченко, руководитель группы разработки моделей «Сбербанк-Технологии». Сама разработка моделей также требует средств, а полученные результаты далеко не всегда получается встроить в операционный контур бизнеса. Наконец, могут возникать регуляторные ограничения, и тогда все потраченные на работу средства окажутся пущенными на ветер, да и клиентам не всегда нравится, что компания хочет знать о них «слишком многое».

Любопытно, что многие виды личной информации, к использованию которой клиенты относятся особенно нервно, по словам Савченко, на самом деле не несут практической пользы. «Мы не лезем в подробности, которые бизнесу не нужны», — подчеркнул он. Например, «показуха» в виде предоставления компаниями в банк анкет о своих показателях работы не слишком эффективна для принятия решений о кредитовании. Гораздо полезнее последить за их транзакционной активностью. Ярким примером такого подхода может служить переход при работе с мелким бизнесом от оценок рисков по традиционным источникам к анализу транзакционных данных. В результате отказа от анкетирования просрочка по задолженностям не выросла, при этом портфель за полгода вырос на 10%, что в масштабах Сбербанка и при текущей экономической ситуации можно признать очень неплохим результатом.

«Перед тем, как пытаться построить какую-либо модель, надо не только собрать данные, но и понять, имеет ли смысл проводить эту работу, будет ли она экономически эффективной», — отметил Александр Сидоров, руководитель службы анализа данных HeadHunter. Выяснилось, что в рекрутинге машинное обучение дает хороший результат. В компании реализовано несколько таких проектов. Первый из них был связан с премодерацией резюме, второй – с подбором лучших вакансий по резюме, третий – с ранжированием откликов на вакансии. Как показала практика, пользователям ресурса очень нравится, когда экономят их время, а в случае HeadHunter речь идет про экономию в несколько человеко-месяцев в день. В долгосрочной перспективе, по мнению Сидорова, речь может идти не только об эффективности подбора и скорости поиска кандидатов, но и о том, что машина сможет взять на себя массу рутинной работы рекрутера.

«Алгоритмы машинного обучения неэффективны для работы с 'сырыми' данными. Данные требуется готовить: отбрасывать лишние из них, группировать факты, относя их к интерпретируемым категориям», — рекомендовал Дмитрий Бабаев, специалист по работе с данными компании МТС. Например, телеком-оператор обладает четырьмя типами фактов: посещенные локации, звонки, SMS и визиты в страны. Напрямую с ними работать очень тяжело. Однако группировка локаций по типам зданий дает возможность вычислить тип и режим работы абонентов, а работа с телефонными номерами – вычислить круги их общения.

«Несколько лет назад нами было принято решение о переходе от продукто-ориентированной к клиенто-ориентированной стратегии. Это означает совсем другие требования к прогнозной аналитике», — рассказал Руслан Хохлов, менеджер проектов ВТБ24. Как следствие, началась деградация производительности корпоративного хранилища, построенного на технологиях Teradata и SAS. Кроме того, решение стало неповоротливым, внесение изменений в него происходило в несколько раз дольше, чем требовалось. Решением стал перенос части функционала хранилища на платформу Cloudera Hadoop. В результате удалось не только взять под контроль производительность хранилища, но и сократить стоимость его расширения. Кроме того, была повышена доступность данных для анализа за счет устранения конкуренции за ресурсы системы действий пользователей и регламентных процессов.

Алексей Натекин: «Личные связи всегда были лучшим инструментом для поиска нужных людей, а в случае с аналитиками это верно вдвойне»

Не мешать работать

Как признал Валерий Артемьев, советник директора центра ИТ Банка России, уже длительное время перед инструментами больших данных сохраняются одни и те же барьеры. Наиболее очевидным из них является сложность комплексного использования инструментов в режиме «сделай сам». Кроме того, усложняется процесс работы с данными: с ростом их объема растет число ложных корреляций. Стоит упомянуть и чисто психологический барьер восприятия менеджментом результатов анализа из «черного ящика».

Наконец, специалист по данным – «редкий и дорогой зверь». Именно поэтому важным направлением развития средств аналитики является их консьюмеризация – упрощение, переход к самообслуживанию, развитие средств визуализации.

«Личные связи всегда были лучшим инструментом для поиска нужных людей, а в случае с аналитиками это верно вдвойне», — подчеркнул Алексей Натекин, директор Data Mining Labs. Как показывает практика, среднее время жизни специалистов по данным в компаниях очень невелико. Это связано как с частыми провалами начатых проектов (и, как следствие, расформированием команд), так и с тонкой душевной организацией таких сотрудников. Надо понимать, зачем и для чего компании нужны такие специалисты – по словам Натекина, многие проблемы связаны именно с непониманием этого. Важно давать им право на ошибку, но при этом фокусироваться на быстрых проектах, так как риск неудачи действительно очень велик.

Легко навсегда испортить свою репутацию работодателя некорректной постановкой задач и навязыванием неподходящих методов работы. Не надо объяснять, как следует работать специалисту по данным, особенно если сам далек от этой области.