Качество данных: как перестать его повышать и начать им управлять?
Качество данных: как перестать его повышать и начать им управлять?

Алексей Незнанов: «Обычно политика и управление качеством данных появляются сразу, как только проваливается первый проект по внедрению сквозной аналитики»


17:41 25.12.2019   |  Ирина Шеян |  «Директор информационной службы»

Рубрика Предприятие |   2157 прочтений



На конференции «Качество данных 2020» Алексей Незнанов рассмотрит типичные ошибки в области управления качеством данных.

«Грязные» данные грозят похоронить любой проект, основанный на аналитике. Но в подавляющем большинстве проектов управлению качеством данных сегодня уделяется катастрофически мало внимания. На конференции «Качество данных 2020», которую издательство «Открытые системы» проведет 5 февраля, недостаток знаний в этой области восполнит, в частности, Алексей Незнанов, доцент департамента анализа данных и искусственного интеллекта НИУ ВШЭ.

- Что такое качество данных?

Это комплексная характеристика, которую присваивают наборам и источникам данных, чтобы более-менее адекватно их сравнивать и использовать для конкретных целей. Это область серьезных исследований, где наработан глоссарий, тезаурусы и, главное, для типичных применений в бизнесе есть готовые метрики и популярные инструменты. Качество всегда контекстно зависимо и целезависимо. Характеристики качества для наборов данных и источников, откуда можно черпать новые данные, сильно разнятся.

- Какие существуют градации качества?

Существует только градация отдельных показателей, так как различные показатели могут быть противоречивыми. В большинстве моделей качества данных основными аспектами являются полнота, непротиворечивость (целостность) и актуальность. В каждом аспекте выделяют до 20 параметров. Например, для полноты примером параметра является объем данных, для актуальности — дата последнего обновления, для непротиворечивости — процент доказанных ошибок оператора.

- При каких условиях возможна очистка данных?

Условия зависят от уровня агрегирования и этапа анализа. На уровне первичных данных достаточно нормальных систем ввода (с проверкой и контролем ошибок) и аудита первичного ввода. Но аудит желателен двухэтапный — сначала выборочная проверка отдельных записей, а потом «аудит аудита».

Дальше начинаются проблемы. Нужен доступ ко всем элементам данных, значит, возникает вопрос о правах доступа к персональным данным, ноу-хау и другим «секретам». Особенно печальна ситуация с персональными данными, потому что повсеместное применение защищенных хранилищ персональных данных, к которым несколько организаций имеют доступ и возможность автоматически восстанавливать привязку данных, в России пока остается только мечтой.

На следующем уровне проблема связана с правильностью вычисления агрегирующих функций — среднего, медианы, экстремумов, перцентилей, квантилей. В ходе каждой из попыток что-то вычислить нужно контролировать, что происходит с характеристиками качества, особенно с точки зрения учета выбросов. Отсюда растущая популярность робастной статистики, методы которой менее чувствительны к выбросам и ошибкам. И это при том, что мы еще не касаемся временных рядов, цензурирования данных и т.п.

Наконец, при гармонизации нескольких наборов данных возможность очистка зависит от наличия и качества справочников, достаточности метаданных, качества схем.

- Каковы основные методы повышения качества данных?

Самый главный способ повышения качества — постоянный контроль за данными. Нужно, чтобы отслеживание мельчайших характеристик качества данных происходило через маленькие промежутки времени между проверками. Но это сложно и дорого, поэтому обычно чем-то пренебрегают и начинают по отдельности оценивать достаточность, непротиворечивость и корректность, причем только в ключевых точках. При этом обычно предпочитают аудит данных и выборочные проверки.

В юридических документах, особенно в судебных решениях, где цена ошибки очень высока, приходится проводить специальный аудит и кросс-проверку по результатам. Некоторые компании следят за качеством своих юридических документов, пытаются связывать их с мастер-данными и оценивать качество этих связей. А другие просто их накапливают, и непонятно, насколько они корректны.

Сотрудникам нужна мотивация для того чтобы обеспечивать повышение качества данных. У нас же во многих областях мотивация со знаком минус: выгодно делать данные плохого качества. Например, в медицинских записях о манипуляциях с пациентами около 30% ошибок — это ошибки намеренные, поэтому качество большинства наших клинических данных, по мнению экспертного сообщества, никуда не годится.

- Можно ли сказать, что какой-то из методов эффективнее других?

Нет. Иногда нужен контроль ввода, иногда многоступенчатый аудит, поскольку аудиторы первого уровня сами готовы внести неправильные данные. В некоторых случаях очень хорошо работают методы автоматического аудита, потому что есть метаданные, онтологии, глоссарии. А иногда ничего этого нет. Поэтому надо обязательно смотреть сначала на то, какова цель, а потом на контекст.

Люди, принимающие решения о разработке аналитической системы, должны сформулировать требования к качеству данных. Затем качество реальных данных проверяют на соответствие корпоративной политике качества данных и определяют, что необходимо сделать, чтобы достичь удовлетворительного качества.

- А насколько в российских компаниях распространена политика качества данных?

Обычно такая политика, а также управление качеством данных появляются сразу после того, как проваливается первый проект по внедрению сквозной аналитики. Поняв, что аналитика не работает из-за плохих данных, начинают в авральном порядке работать с их качеством. Через пару лет в хороших организациях организуются соответствующие службы и начинают управлять качеством — в первую очередь мастер-данных. Ну а в плохих организациях добиваются решения частной задачи и снова «проваливаются» с качеством в целом.

- На какие «грабли» в этой области наступают регулярно?

Список «граблей» начинается с нежелания изучать первоисточники. В ГОСТах (начиная с ГОСТ 56214 и 56215) есть вменяемая терминология и вполне рабочая методология, и именно ее применяют основные поставщики решений для работы с качеством данных. Разное понимание терминов, используемых в работе с данными, приводит к тому, что на верхнем уровне принятия решений начинается сумбур.

Следующая стандартная ошибка — несоответствие уровня качества данных конкретным задачам. Очень часто либо задают слишком высокий уровень и не достигают его, либо, наоборот, устанавливают чересчур низкий уровень, и тогда не работают системы аналитики.

Яркий пример — сочетание друг с другом наборов данных с разными характеристиками качества, так что после гармонизации вообще невозможно ничего сказать о качестве полученного набора данных. Причем в этот момент ему очень часто присваивают характеристики качества наобум. Чтобы оценить изменение качества при слиянии данных и выстраивании иерархических связей, следует использовать специальные методы и привлекать экспертов.

- Эксперт по качеству данных — кто это?

Есть три вида экспертов. Первый — специалисты по статистике, второй — эксперты в конкретной предметной области, работающие с данными в этой области. И третий — специалисты по методологии анализа и обработки данных, таких экспертов приходится привлекать, если нужна проверка своих действий, либо если штатный специалист не справляется со сложными проблемами. Для крупной организации грех не иметь своего специалиста по настройке системы управления качеством данных.

Адекватный директор по данным в первую очередь добьется принятия политик: сначала по управлению данными, а потом по управлению качеством данных — как ее части.

- На что следует опираться при разработке политики управления качеством данных?

На цели бизнеса, текущие задачи и контекст существования организации. В основе методологии лежат стандарты, где указано, как вычисляют характеристики, какие есть метрики. Но этого мало, необходимо определиться, зачем сейчас нужны данные в организации. Может, и не нужны.

- То есть политику нельзя просто «списать» у тех, кто этот путь уже прошёл?

Списать — плохой вариант. Разве что, у кого-то работающего в той же области и с такими же бизнес-целями. Такое возможно: уже есть достаточно хорошие платные каталоги политик управления качеством.

Например, при организации сети Open Knowledge Foundation сделали руководства по управлению качеством, по оценке качества и отраслевой стандарт оценки качества источников открытых данных. Даже делаются каталоги, в которых обозначены уровни качества источников данных.

- Какие проблемы управления качеством данных еще не решены?

Главный вопрос — анализ качества больших данных. Когда из-за недостатка времени и вычислительной мощности использовать сложные методы нереально, встает вопрос, как это сделать приближенно и насколько пострадает при этом качество. Здесь много чего предложено, но стандартных решений пока нет.

Перманентно актуальная область — работа с неструктурированными данными и с текстами на естественном языке. Генерировать тексты на абсолютно любые темы стало так просто и дешево, что скоро мы будем завалены фейками — погуглите веселый сайт TalkToTransformer.

- О чем вы расскажете участникам конференции?

Моя задача показать, что качество данных — не просто серьезная область, но в ней уже многое наработано и имеются готовые решения: инструменты, которые оценивают качество данных по куче метрик, помогают аудиторам, оценивают возможные последствия гармонизации данных. Эти инструменты надо использовать, чтобы не попасть впросак с управлением данными и знаниями.


Теги: Качество данных Директор по данным