BIG DATA 19: рынок есть, а правил нет

Участники традиционного ежегодного форума «Открытых систем» обсудили нерешенные вопросы регулирования оборота данных и возможности достижения баланса интересов бизнеса и граждан в этой области.

Российский рынок данных только формируется, и многие правовые вопросы, включая базовые, еще не урегулированы. Непонятно, какие данные могут оборачиваться на рынке относительно свободно, неясно кто является правомочным владельцем данных. В отсутствие четких нормативных требований компании-агрегаторы считают себя вправе распоряжаться собранными «пользовательскими» данными, которые не относятся к категории персональных. Государство стремится формализовать все по максимуму, тем самым загоняя рынок в «серую» зону. Граждане между тем полагают, что их данные разворованы: по данным ВЦИОМ, так считают 70%.

Хотя работа над нормативной базой в этой сфере только началась, позиции участников рынка важно формировать уже сегодня. Нерешенные правовые вопросы в области регулирования оборота данных, отношения государства и бизнеса, а также возможности достижения баланса интересов бизнеса и граждан эксперты обсудили на традиционном форуме BIG DATA 2019, организуемом издательством «Открытые системы».

«Ни в России, ни в Европе в данный момент нет понятной юридической конструкции, позволяющей компаниям обрабатывать большие пользовательские данные легально», — констатировала Екатерина Калугина, главный юрист IT Legal Consulting.

Но поскольку потребность работать с данными очевидна, рынок становится «серым». Примечательно, что главной задачей, для решения которой компании приобретают данные, является не маркетинг и реклама. Примерно половина сделок с данными осуществляется в целях борьбы с мошенничеством, сообщила Светлана Белова, генеральный директор компании «Системы управления идентификацией». И когда, например, каршеринговым компаниям удается добыть нужные данные, уровень мошенничества снижается на 25-30%.

Право на профиль

Поправки в законы об информации и защите персональных данных обсуждаются в нашей стране уже два года. При этом преобладают два основных подхода. В одном интересы граждан традиционно представляет главным образом государство, и основное внимание уделяется доступу к данным в государственных информационных системах. В другом акцент делается на возможности граждан самостоятельно принимать решения в отношении использования своих данных.

В конце марта Минкомсвязь вынесла на общественное обсуждение законопроект о цифровом профиле граждан и юридических лиц. «Сейчас государство выступает большим аналоговым посредником между нами и нашими данными в информационных системах или бумажных картотеках», — говорит Мария Шклярук, генеральный директор «Центра перспективных управленческих решений». По ее мнению, единый алгоритм доступа к записям в государственных реестрах, единый идентификатор и цифровой профиль, отражающий то, как видит нас государство, устранят такое посредничество.

Мария Шклярук: «Государство выступает большим аналоговым посредником между нами и нашими данными в информационных системах или бумажных картотеках»

«Единственное, что мешает бизнесу торговать данными легально, — отсутствие согласия конечных пользователей (субъектов данных)», — полагает Белова. По ее мнению, все противоречия в интересах исчезнут, когда человек, а не только частные компании и государство, получит информацию о собираемых данных, возможность распоряжаться их использованием и извлекать из них доход. То есть человек станет полноправным участником рынка данных, заинтересованным в качестве и полноте своего цифрового профиля.

В Европе вступление в силу регламента по защите данных (GDPR) вынудило даже американские компании Facebook и Google сделать API, чтобы пользователь мог скачать из сети свои данные — «цифровую тень». Затем то же самое сделали Whatsapp и Telegram. По словам Беловой, сегодня у пользователя уже есть возможности сформировать свой цифровой профиль, отрегулировать, какие данные и кому он хочет предоставлять, а какие — нет, и монетизировать свои данные.

Но пока это касается только части интернет-сервисов. Во ФРИИ сейчас разрабатываются поправки в ФЗ-152, предусматривающие создание механизма, который позволит гражданину видеть, какие его данные у кого находятся и что с ними делают. При этом предполагается, что гражданин будет иметь возможность отозвать данные как полностью, так и частично.

Искусственный интеллект на голодной диете

Текущая неопределенность в правовых вопросах мешает развивать столь необходимые в цифровую эпоху технологии машинного обучения. К примеру, медицинскими данными сегодня фактически владеют не пациенты, а медицинские организации, что серьезно затрудняет не только получение медкарты в поликлинике, но и обучение нейросетей для систем поддержки принятия врачебных решений. «Поскольку нет понятного нормативного поля, медицинские организации ведут себя как собака на сене, сидя на огромных массивах данных, которые можно было бы использовать», — отметил Борис Зингерман, директор Ассоциации разработчиков и пользователей искусственного интеллекта «Национальная база медицинских знаний». В этих условиях непонятно, как объединять имеющиеся в клиниках данные в пулы Больших Данных для исследований и как обеспечивать обогащение этих данных из других источников. Но если обмен медицинскими документами через личный кабинет «Мое здоровье» на портале госуслуг заработает так, как это предусмотрено в концепции развития ЕГИСЗ, то фактическим владельцем медицинских данных станет пациент. И тогда можно будет говорить о появлении рынка медицинских данных, полагает Зингерман.

В настоящее время некоторые принципы законодательства о защите данных, (как ФЗ-152, так и GDPR) несовместимы с технологиями машинного обучения, использующими большие пользовательские данные, напомнила Калугина. К примеру, обработка персональных данных по закону ограничивается заранее определенными конкретными целями, в то время как при использовании данных в системах ИИ необходимо их повторное использование в целях, которые могут отличаться от первоначальных. В биотехнологиях важна возможность комбинировать различные категории данных для поиска закономерностей и подтверждения гипотез. Между тем по закону объединять базы, содержащие персональные данные, обработка которых осуществляется в разных целях, недопустимо. Стандартные методики обезличивания, анонимизации данных сегодня становятся малоэффективными, поскольку существующие технологии способны идентифицировать личность посредством установления связей между несколькими фрагментами данных.

Коварные данные

Самый острый из нерешенных вопросов в сфере Больших Данных — общественная позиция по защите «цифровых прав», поскольку в мире уже известны прецеденты по использованию цифровых решений для прогнозирования совершения преступлений и ограничения людей в правах на базе «социальных рейтингов».

«Вопрос, можно ли доверять системе принятие решений, уже не стоит, — считает Иван Бегтин, руководитель Ассоциации участников рынка данных. — Нет никаких технологических ограничений для использования искусственного интеллекта, например, правоохранительными органами для профилактики правонарушений. Вопрос, что мы будем делать, когда принятие решений искусственного интеллекта окажется неизбежным».

Критерии алгоритмов, заложенных в систему искусственного интеллекта, не должны противоречить ключевым общественным интересам и должны быть справедливыми по отношению к пользователям. Кроме того, необходим контроль корректности принимаемых искусственным интеллектом решений, проверка, не повлекут ли эти решения дискриминацию в отношении каких-либо групп пользователей. Но как этого добиться?

Опрос центра социологических исследований РАНГХиС «Евробарометр в России» показывает, что мы относимся к технооптимистам, то есть значительная часть граждан готова доверить решение юридических вопросов судье-роботу. «Это говорит об уровне репутации нашей судебной системы и степени доверия к людям, все думают, что алгоритм будет честнее, — поясняет Шклярук. — С другой стороны, робота-юриста нельзя обучить на тех решениях, которые есть сейчас, потому что они воспринимаются как несправедливые».

«Данные, на которых мы обучаем систему, напрямую влияют на результат, поэтому просто давать системе возможность принимать решения очень опасно», — уверена Дженифер Трелевич, исполнительный директор TGPO Consult. С этим легко согласиться, вспомнив истории с чат-ботом Microsoft, который начал демонстрировать асоциальное поведение всего через сутки общения в Twitter, а также с чат-ботами Facebook, которые быстро перешли к общению между собой на языке, непонятном их создателям.

По мнению Калугиной, следует внести в законодательство изменения, предусматривающие, с одной стороны, специальный режим больших пользовательских данных и специальные основания обработки таких данных, а с другой — эффективные механизмы контроля использования данных алгоритмами машинного обучения и требования к безопасности. При этом в сами системы искусственного интеллекта необходимо закладывать алгоритмы самоконтроля и защиты данных.

Список нерешенных вопросов может сократиться, если все упомянутые законотворческие инициативы будут реализованы. Но, учитывая масштаб и сложность трансформации, которая предстоит рынку данных, к теме нормативного регулирования предстоит возвращаться еще не один раз.

Национальный дирижер

Обнаружив отставание от темпов цифровизации, которые диктует жизнь, государство активно перестраивается, коренным образом меняя философию госуправления. При этом во главу угла ставится работа с данными, для чего создается Национальная система управления данными, сообщил Иван Фост, руководитель направления в Аналитическом центре при Правительстве РФ. По его словам, НСУД играет роль дирижера, понимающего, где какие данные лежат, как функционируют и «какими должны быть единые правила, чтобы они принесли всем пользу».

В настоящий момент утверждена только концепция системы, но в этом году планируется разработка целого ряда документов, включая закон о НСУД. Предполагается, что в результате появятся не только единые требования к государственным информационным источникам, единые правила информационного обмена и гибкий доступ к данным, но и возможности создавать новые востребованные сервисы для конечного потребителя, в том числе аналитику для принятия управленческих решений. Пока же одним из ключевых вопросов для разработчиков системы является разграничение доступа к персональным данным и сведениям, составляющим гостайну. Так, доступ бизнеса к первичным персональным данным невозможен, но агрегированные отчеты могут быть доступны без ограничений.