BIG DATA 2019: В основе цифровой экономики

Главной темой традиционного форума издательства «Открытые системы» в этом году стало практическое использование больших данных в самых разных сферах деятельности.

27 марта прошел очередной, уже восьмой, форум BIG DATA, ежегодно организуемый издательством «Открытые системы». В пленарных и секционных докладах обсуждались новые технологии и практические примеры их применения, в дискуссиях рассматривались насущные вопросы: кому принадлежат данные, как определить, где кончаются «обезличенные» и начинаются «личные»; каков круг обязанностей директора по данным (Chief Data Officer) – должен ли он быть двигателем цифровой трансформации или ее рабочей лошадкой. Завершилась конференция церемонией награждения лауреатов первой премии CDO Award.

Государство — это данные

Отечественные госструктуры часто ругают за неповоротливость, однако в деле цифровизации они, по оценкам многих аналитиков, идут впереди планеты всей. На BIG DATA 2019 «государство» представляли Федеральная налоговая служба России, Департамент информационных технологий города Москвы, «Почта России» и даже МВД.

«Мир больших данных» ФНС действительно велик — в него «входят» 166 млн граждан, 4 млн юридических лиц, производимые ими за год 76 млн деклараций, 15 млрд счетов-фактур... Главным результатом цифровизации, по словам Татьяны Матвеевой, начальника управления информационных технологий службы, стал резкий рост объема собираемых налогов, который увеличился по сравнению с 2013 годом на 88%. Также она упомянула, что в рамках проекта, реализованного ФНС, создан Единый государственный реестр записей актов гражданского состояния (ЕГР ЗАГС). И теперь гражданам не удастся жениться по многу раз, пользуясь разобщенностью данных загсов разных регионов.

Через ИТ-системы столичного Департамента информационных технологий в сутки проходит 14,3 Тбайт данных, однако, как отметила Мария Анисимова, заместитель директора департамента по работе с данными ДИТ, лишь около четверти из них полезны. Отбор этих данных — отдельная задача, зато их анализ помогает отслеживать предпочтения пользователей городской сети Wi-Fi и их миграцию по территории мегаполиса, контролировать процесс уборки снега, формировать оптимальные планы развития служб города, решать многие задачи.

«Почта России», как отметил Сергей Черкасов, руководитель департамента директ-маркетинга, за год обслуживает около 72 млн домохозяйств, получающих более 7 млн денежных переводов, свыше миллиарда газет и журналов, 350 млн посылок. Ведомство накапливает огромное количество информации о гражданах и юридических лицах, в том числе из городов с населением менее 100 тыс. человек, что особенно ценно, поскольку о них, по словам Черкасова, толком ничего не знают «традиционные» геоинформационные системы.

Использует большие данные и полиция. Владимир Агеев, первый заместитель начальника ГИАЦ МВД России, по понятным причинам в детали и цифры углубляться не стал, но заверил, что ведомство все необходимые данные имеет, анализирует и принимает на их основе соответствующие решения.

В основании цифровой трансформации

Традиционно важное место в программе форума заняли средства работы с большими данными и аналитикой, о нынешнем состоянии которых, перспективах развития и применения рассказали представители российских и зарубежных компаний.

Самым громким анонсом BIG DATA 2019 стало объявление нидерландской компании Leaseweb, провайдера облачных сервисов, об активизации работы в России. Инна Гомберт, отвечающая в компании за бизнес в нашей стране, объяснила это тем, что большие данные, лежащие в основе цифровой трансформации, нуждаются в надежных и производительных средствах обработки и хранения. Все необходимое для этого — от «голого железа» до помощи в построении гибридных облачных систем, а также сети ЦОДов на всех континентах — Leaseweb готова предоставить тем, кто хочет продвигать свои продукты и услуги за рубежом.

Евгений Степанов, руководитель направления больших данных компании Micro Focus в России, обрисовав нынешние возможности СУБД Vertica, заявил, что в будущем нас ждет «расширенный интеллект» (Augmented Intelligence), в частности — встроенные алгоритмы машинного обучения для управления хранилищами и автоматизированное исследование данных. А пока будущее не наступило, предложил бесплатное тестирование полнофункционального продукта — с ограничением в три узла и 1 Тбайт данных.

Сергей Золотарев, управляющий партнер Arenadata, на примере разработки своей компании показал трансформацию платформы данных в экосистему цифровых сервисов, в создание которой вносят свой вклад сотни коллективов, разрабатывающих проекты с открытым кодом. Разумеется, каждый компонент, претендующий на то, чтобы стать частью экосистемы, формирующейся вокруг платформы, надо доработать, проверить на безопасность и т. д. Однако время монолитных решений от одного вендора в этой области ушло, полагает он.

На форуме была представленная и еще одна российская разработка — аналитическая геоинформационная система ОКО компании «ЕС-лизинг». Она позволяет «охватывать взором» целую отрасль или регион, детализируя происходящее в них до уровня цеха и отдельного человека. Виталий Чугунов, руководитель центра прикладных исследований компании, пояснил, что систему можно использовать для отслеживания сомнительных финансовых практик, выявления источников информационных вбросов, мониторинга экологической ситуации.

Компания Naumen при помощи больших данных обучает роботов, понемногу заменяющих классические системы голосовых сообщений типа «если..., то нажмите один..». В сервисе, созданном для «Почты России», они с точностью 85% классифицируют 500 тыс. звонков в месяц. Голосовыми и текстовыми роботами Naumen в 2018 году было проведено более 10 млн диалогов с клиентами.

Всеволод Грабельников («Яндекс») рассказал об отечественном продукте «Яндекс.Облако». Его основу составляет инфраструктура «Яндекса», предоставляющая большое количество облачных сервисов категория IaaS, PaaS и SaaS, а также собственная массово-параллельная колоночная аналитическая СУБД ClickHouse. Среди ее пользователей не только собственные сервисы «Яндекса», но и такие известные компании, как «Авито», Spotify, Cloudflare.

DIS Group предоставляет сервисы в области больших данных, в том числе, на базе продуктов компании Informatica. Петр Борисов, бизнес-консультант компании, обрисовал процесс построения «сервисов самообслуживания» в корпоративном озере данных, дающих возможность самостоятельной работы даже тем, кто не имеет соответствующих технических навыков.

Ким Несс, главный архитектор данных, и Анна Румянцева, исследователь данных, представлявшие компанию Hitachi Vantara, рассказали о возможности анализа больших данных с помощью средств машинного обучения в теории и на практике с использованием инструмента Plugin Machine Intelligence платформы Pentaho.

Как никогда широко на форуме были представлены компании, занимающиеся производством оборудования для хранения данных. Среди них уже упомянутая Hitachi Vantara, Western Digital, Pure Storage и российская компания GS Nanotech. (Подробнее об их участии в BIG DATA 2019 см. «BIG DATA 2019: В фундаменте проектов больших данных», Computerworld Россия, 03 апреля 2019.)

Клиентский опыт

Примеров использования российскими компаниями больших данных уже много. Для одних это просто средство поднять эффективность работы, для других — условие выживания.

Так, для оператора связи, по словам Леонида Ткаченко, главы департамента big data компании МТС, работа с ними критически важна — классический операторский бизнес по всему миру стагнирует, а значит, необходимо искать новые источники дохода. Анализ данных, создание обезличенных «цифровых двойников» помогает компании дополнительно зарабатывать на клиентской базе, а анализ собственной работы — правильнее распределять усилия сотрудников как для снижения затрат, так и для сокращения очередей в офисах.

В НПО «Энергомаш» за годы работы накоплен огромный объем информации, однако она неструктурирована, расположена в разных источниках, а частично и вовсе не оцифрована, так что поиск нужной бумаги целиком зависит от опыта эксперта, который знает где что искать. Поэтому компания взялась за проект создания «корпоративного Google», в ходе которого «бумага» будет оцифрована, а хранение цифровых документов упорядочено.

На актуальную тему использования искусственного интеллекта в онкоскрининге выступили представители Научно-практического клинического центра диагностики и телемедицинских технологий Департамента здравоохранения города Москвы. В этом направлении, несмотря на скептицизм значительной доли врачей, есть существенные подвижки. Помимо прочего, компьютерный анализ онкологических снимков часто показывает наличие сопутствующих заболеваний, пропущенных врачом, который сосредоточен на поиске признаков рака.

Завершая секцию, посвященную клиентскому опыту, Таня Милек («Русагро») очень доходчиво обрисовала для переполненной впечатлениями аудитории процесс использования больших данных и машинного обучения в свиноводческом хозяйстве, рассказала о неожиданных проблемах, с которыми пришлось встретиться, и о не менее неожиданных дополнительных выгодах от комплексного использования этих технологий вкупе со средствами видеонаблюдения.