«Технологии управления данными 2018»: На базе данных

По мнению Валерия Артемьева, термин «управление данными» целесообразно интерпретировать как корпоративное управление данными, рассматривающее их как ключевые активы организации


14:25 06.12.2018   |   4238 |  Михаил Зырянов |  Computerworld Россия



Организованная издательством «Открытые системы» конференция высветила основные направления в области технологий управления данными, без которых не возможна ни одна инициатива в области цифровизации экономики.

Прошедшая в Москве конференция «Технологии управления данными 2018. Стратегии, платформы, инструменты и опыт реальных проектов», организованная издательством «Открытые системы», оказалась не только насыщенной и информативной, но и на удивление эмоциональной: около 200 участников встречи с нескрываемым интересом слушали выступавших и живо включались в обсуждения.

Как отметил Валерий Артемьев, консультант управления методологического и организационного обеспечения департамента статистики и управления данными Банка России, термин «управление данными» чаще всего трактуется в узком смысле — как управление базами данных и файлами. В широком смысле его следует интерпретировать как корпоративное управление данными (Data Governance), рассматривающее данные как активы организации. Такой взгляд предполагает необходимость учета данных, анализа их ценности для бизнеса, а также обеспечения качества и ясного понимания того, как именно данными можно управлять. В качестве ключевого информационного источника Артемьев рекомендовал Data Management Body of Knowledge — свод знаний, подготовленный глобальным сообществом экспертов по управлению данными DAMA International.

Не все спокойно в королевстве данных

Сегодняшнее состояние дел в области управления данными, похоже, едва ли можно считать блестящим. В частности, Артемьев отметил полтора десятка организационно-методических проблем и около десятка технологических. Наиболее критичные из организационно-методологических — слабо развитая культура принятия решений на основе данных, недостаточное понимание предметной области специалистами, занимающимися данными, отсутствие стратегии, архитектуры, методологии управления данных и плана реализации возможных мер в этой области, а также слабая вовлеченность бизнес-подразделений в эти процессы. Из технологических особо следует отметить неосведомленность специалистов о возможностях новых продуктов, нехватку знаний о технологиях, избыточное количество приобретаемых продуктов (и, как следствие, слабую востребованность, по крайней мере, части из них), большие объемы ручного труда и недостаточные компетенции работы с концептуальными моделями предметных областей. Нередко случается так, что данными занимаются те, кто смутно понимает, как работает бизнес, а бизнесом — те, кто слабо представляет себе, как работать с данными.

Вероятнее всего, одной из ключевых тенденций станет демократизация данных и аналитики. Подспорьем для бизнес-специалистов станут инструменты так называемой дополненной аналитики со встроенными в них средствами искусственного интеллекта. В частности, они смогут распознавать и интерпретировать запросы, сформулированные на естественном языке — как текстовые, так и голосовые. Также интеллектуальные системы возьмут на себя большую часть рутины, предваряющей продуктивную работу с данными.

В области интеграции данных нас, по-видимому, ожидает переход от озер данных к логическим хранилищам данных: корпоративную информацию совсем не обязательно хранить в одном большом архиве, данные могут оставаться в прежних местах хранения, однако важно, чтобы их поиск и анализ можно было бы производить так, как будто они собраны в одно большое хранилище. Кроме того, предприятиям следует осваивать гибридную обработку данных (Hybrid Transaction/Analytical Processing, HTAP), которая подразумевает, что оперативные и аналитические данные не разделяются по разным хранилищам.

Впрочем, как отметил Сергей Кузнецов, главный научный сотрудник ИСП РАН, профессор МГУ, МФТИ и НИУ ВШЭ, далеко не всякая здравая и полезная идея находит поддержку в ИТ-сообществе. Основными причинами этого он считает инерцию сообщества, подверженность конъюнктуре, а также маркетинговое давление вендоров. Иначе как объяснить, например, продолжающееся несколько десятилетий господство SQL и реляционных СУБД одновременно с так и не состоявшимся взлетом объектно-ориентированных и объектно-реляционных СУБД? Кузнецов убежден, что инерция мешает движению сообщества к новым технологиям, препятствуя как разработке новых систем, так и их применению.

Конъюнктура также сдерживает развитие, поскольку ограничивает кругозор и мешает правильному выбору технологий. Не следует использовать «модные» в данный момент технологии везде, где это только возможно, применять их нужно там, где они будут уместны и полезны.

С маркетинговым давлением вендоров связан еще один некомфортный момент: их маркетинговые материалы слабо помогают заказчикам справляться со стоящими перед ними задачами. В основном эти материалы ориентированы на активную продажу технологий, и, к сожалению, в информационных источниках ИТ-компаний порой бывает очень непросто найти то, что реально интересует ИТ-специалистов.

Помочь преодолеть этот барьер и навести мосты между поставщиками и заказчиками технологий как раз и призваны конференции, подобные нынешней.

Технологии развиваются, чтобы решать задачи

Проблема, которая стара, как ИТ-мир: в очень многих организациях данные хранятся разрозненно, во множестве различных хранилищ, архивов, репозиториев и папок. Позволить эффективно работать с такими данными призваны технологии логических витрин, о которых рассказал Сергей Горшков, директор компании «ТриниДата». Идея, которую он представил, заключается в том, чтобы не просто извлекать данные из множества источников, но пытаться описывать их в терминах концептуальной модели предметной области (проще говоря, на языке бизнеса), выстраивать их категоризацию, выявлять знания и закономерности, находить структурные элементы в неструктурированных данных и таким образом выстраивать эффективный поиск и анализ имеющейся информации. Как отметил Горшков, использование онтологий при построении витрин данных дает возможность строить поисковые запросы в привычных сотрудникам бизнес-терминах, получать точные результаты, как при обычном запросе к СУБД, и принимать более взвешенные решения.

Тему построения онтологий для описания концептуальных моделей предметной области продолжил Сергей Исаев, генеральный директор компании DataFabric. Для этих целей в компании предлагают применять семантические технологии — основываясь на них, система распознает смысл (точнее, контекст) данных, с которыми работает. При этом она оперирует не только с самими данными, но и со знаниями о предметной области, описанными посредством семантических сетей, представляющих собой графы знаний, собранные из множества триплетов среды описания ресурсов (RDF), имеющих вид «субъект — предикат — объект». Так, граф знаний ФНС состоит из примерно 6 млрд триплетов, включающих в том числе исторические взаимосвязи. Основываясь на семантических технологиях, можно производить сбор, преобразование, хранение и управление данными. Также значительно упрощается интеграция данных из различных источников и для разных потребителей. Семантические технологии открывают широкие возможности для поиска скрытых, неочевидных взаимосвязей между людьми, компаниями, различными объектами и действиями: можно, например, создавать системы, анализирующие большое количество данных из разных источников с целью выявления экономического и финансового мошенничества.

В Oracle пытаются облегчить жизнь заказчиков, активно развивая так называемые автономные сервисы СУБД: встроенные в них механизмы машинного обучения помогают автоматизировать многие рутинные операции по администрированию баз данных и обеспечению их информационной безопасности. Марк Ривкин, директор по технологическому консалтингу компании Oracle в странах СНГ, подробно остановился на различных направлениях автоматической адаптации работы СУБД к текущей нагрузке и ее оптимизации «на лету» с учетом имеющихся возможностей масштабирования, распараллеливания выполнения задач и управления сразу несколькими базами данных как единым целым.

Свой взгляд на развитие автономных баз данных изложили представители компании Postgres Professional: без разговора о СУБД Postgres не обходится сегодня ни одна встреча профессионалов в области управления данными.

Василий Флока, главный инженер TmaxSoft Rus, представил основные улучшения, внесенные в СУБД Tibero «по многочисленным просьбам» российских заказчиков.

Представители компании IBS и ее проекта Arenadata рассказали о возможностях универсальной платформы хранения и обработки данных Arenadata Unified Data Platform, разработанной на основе проектов с открытым кодом. Идея этой платформы в том, что ни одна из ныне существующих СУБД не способна одинаково эффективно решать весь круг задач по работе с данными, поэтому разумно использовать пакет интегрированных между собой систем, каждая из которых хорошо справляется с определенным кругом задач. В состав платформы включены три базовых СУБД: Arenadata Grid — созданная на базе Apache Ignite база данных с обработкой данных в оперативной памяти, рассчитанная для работы в режиме реального времени; Arenadata DB — основанная на Greenplum распределенная СУБД, использующая массивно-параллельные вычисления (MPP) для работы хранилищ данных и аналитических систем; Arenadata Hadoop — дистрибутив распределенной платформы хранения на базе Apache Hadoop, адаптированный для корпоративного использования. Также платформа включает продукты для потоковой обработки данных на базе Apache Kafka и Nifi, ETL-инструментарий, пользовательский интерфейс аналитика Analytic Workspace и другие компоненты.

Предназначенную для создания объектных хранилищ в корпоративных вычислительных средах и частных облаках платформу Cloud Object Platform представил Егор Литвинов, консультант-эксперт компании Hitachi Vantara. Она обеспечивает хранение с быстрым и удобным доступом к данным разных типов (в том числе изображениям, записям аудио и видео, а также резервным копиям данных) посредством популярных протоколов обмена: AWS S3 — как в облачных сервисах сетей предоставления контента (CDN), а также SMTP, Swift и др.

О важности платформ хранения для современного бизнеса напомнил Максим Зубарев, глава представительства компании Pure Storage в России, СНГ и станах Балтии. В эпоху цифровых преобразований предприятия предъявляют особые требования к производительности и надежности систем хранения как фундамента для работы с данными — их характеристики и особенности не должны становиться препятствием для внедрения и использования цифровых инновационных решений.

Олег Финошин, заместитель генерального директора компании Vizex, предложил достаточно простой, относительно недорогой и весьма эффективный способ использования аналитики для анализа деятельности организаций. Его суть в том, чтобы сконцентрироваться на измерении в отслеживаемых бизнес-процессах только самых важных показателей, от которых в конечном итоге зависит общий успех. «Не нужно замысловатых графиков. Контролируем время и качество», — пояснил Финошин. Например, в отдельно взятом бизнес-процессе или цепочке операций достаточно оценивать сроки исполнения, количество ошибок, время ожидания в очереди на исполнение, время, которое требуется на коммуникацию с другими бизнес-процессами и некоторые другие показатели — их замер организовать нетрудно. Обеспечив таким образом непрерывный мониторинг деятельности и визуализировав картину деятельности организации, становится несложно выявлять слабые места, погружаться в их детали и анализировать причины замедлений или снижения качества на отдельных участках.

Проверка практикой

И все же главный критерий оценки возможностей технологий — реальный опыт. Ольга Налгранян, специалист отдела автоматизации и анализа данных компании Mars, рассказала об организации в компании системы мониторинга и анализа различных систем и связанных с ней бизнес-процессов. Основываясь на данных из системных журналов, специалисты компании научились не только выявлять аномалии и предотвращать инциденты, но и сократили среднее время восстановления работоспособности систем (MTTR), уменьшили общую трудоемкость мониторинга и пр. В компании «Мегафон» удалось подробно изучить процессы приема платежей, и, изменив их, улучшить доступность платежных сервисов и, как результат, повысить удовлетворенность ими абонентов.

О поддержке проектов ученых, ведущихся в Европейском центре ядерных исследований (ЦЕРН), рассказал Владислав Патенко, инженер Google Cloud. В частности, Google оказывает помощь в реализации двух проектов — Rucio и PanDA. Первый из них обеспечивает управление данными, полученными в ходе экспериментов на Большом адронном коллайдере. Объемы данных при этом таковы, что на их передачу в центры обработки данных для их последующего хранения и обработки требуется около месяца. Кроме того, необходимо позаботиться о том, чтобы бронировать необходимый объем ресурсов. Проблема осложняется тем, что в ближайшие годы ЦЕРН планирует заменить прежние установки для сбора данных на новые, и тогда объем получаемых данных вырастет на порядок.

Другой проект, которому Google оказывает не только технологическую, но и финансовую поддержку, — PanDA — нацелен на управление потоками (workflow) задач, требующими вычислительных ресурсов. Одна их проблем состоит в том, что эти потоки задач сильно отличаются от workflow, который встречается в бизнесе, а потому требуется специально прорабатывать и продумывать реализацию этого управления. Вторая проблема связана с менталитетом ученых: европейские исследователи и университеты зачастую не хотят иметь дело с коммерческими организациями. К счастью, постепенно проблема преодолевается: ученые, сотрудничающие с ЦЕРНом, берут на вооружение предоставляемые Google средства автоматизации и облачные возможности.


Теги: показывать на главной Самое интересное СУБД Большие данные Управление данными
На ту же тему: