Dataplan: большие данные в безопасности и не только

Айк Татевосян, руководитель отдела аналитических систем «Энджиар Софтлаб», — о том, как инструменты машинного обучения помогают в решении задач безопасности и могут расширяться на любую сферу деятельности.

Одной из болевых точек сферы информационной безопасности является разрозненность специализированных инструментов. Им не хватает связности, позволяющей объединить получаемую информацию и обеспечить ее эффективное использование. В компании «Энджиар Софтлаб» — стартапе, занимающемся разработкой программных продуктов, создали решение Dataplan, способное значительно усилить базовый функционал решений по информационной безопасности и других информационных систем. С его помощью получается выявлять аномалии в данных и предоставлять доказательную базу при проведении расследований. Айк Татевосян, руководитель отдела аналитических систем «Энджиар Софтлаб» и претендент на премию CDO Award 2020, рассказывает о предпосылках и истории создания этого решения.

- Что наблюдается на рынке систем информационной безопасности, почему пришли к желанию разработать решение?

В любой крупной компании используется огромное количество разрозненных ИБ-решений: сетевые экраны, антивирусы, решения для предотвращения утечек (DLP), системы управления событиями информационной безопасности (SIEM) – каждая со своими результатами работы. В комплексе этих данных сложно найти какую-то закономерность и понять, что из них является инцидентом, где именно произошло нарушение.

Часто единым центром компетенций и обработки информации выступали SIEM. Но у них есть свои недостатки – например, они работают в рамках одного оперативного дня, и из-за этого для них характерно отсутствие причинно-следственной связи между событиями и возможности ретроспективного анализа. Решение инцидентов напоминает латание дыр без устранения причин их появления.

Мы считаем, что правильным и полезным является объединение нескольких источников данных: ИБ-решений и других компонентов ИТ-инфраструктуры: операционных систем, систем хранения данных, баз данных и т.д. Для решения этой задачи мы попытались собрать необходимый технологический стек, чтобы выявлять аномалии в данных, которые невозможно описать условными правилами. Когда мы подбирались к решению этой задачи, то поняли, что любая аналитика должна основываться на каких-то сущностях. Для нас такой сущностью стал пользователь, совершающий действия, поэтому целью стало построение профилей поведения пользователей.

- Что в самых общих чертах представляет собой продукт?

Dataplan – это аналитическая платформа для работы с большими данными и с возможностью применения машинного обучения. Ее первой практической областью применения стала сфера безопасности, где она позволяет сократить время работы аналитиков на принятие решений. Время реакции в ИБ – самый дорогой ресурс, а сокращение времени реакции на инциденты – это сохранение репутации и денег.

- Таких решений нет на рынке? Неужели никто до этого не додумался?

На зарубежном рынке есть решения класса User Behavior Analytics (UBA), позволяющие проводить поведенческий анализ деятельности пользователей. UBA-решения иностранных вендоров, представленные в России, имеют довольно высокую ценовую планку. Поскольку российский рынок ИБ невелик, то вложить несколько миллионов долларов в решения, эффект от которых не всегда ощутим, мало кто готов – такие инвестиции очень трудно обосновать.

Среди отечественных решений аналогов практически нет, но есть довольно много стартапов, пытающихся работать в этом направлении, и мало компаний, которые уже что-то разработали. Кроме того, часто у заказчиков работают собственные команды data science, но речь идет о разовых проектах, и цель по созданию законченных решений им не ставится.

Есть DLP-системы, в которых заявлено машинное обучение, но оно замкнуто в рамках конкретного решения. Мы пытаемся строить универсальный продукт, который можно подключать к неограниченному числу систем и не замыкаться в рамках одной платформы. Наша цель состоит в том, чтобы анализ был основан на действиях пользователя и на дополнительных факторах: его должности, подразделении, рабочей станции, приложениях, в которых он работает. После комплексной интегральной оценки можно более уверенно выявить пользователей, чье поведения является аномальным и, возможно, требующим проведения расследований.

- Что стало отправной точкой для создания системы?

История началась с того, что у одного из крупных заказчиков приобретенная зарубежная платформа «не взлетела». Ее долго настраивали, обновляли, потратили на это массу средств, но ситуация была далека от идеала.

Интегратор хотел закрыть работы и предоставить заказчику обещанный результат и доверил нам доработку решения. Тогда у нас и получился свой расширенный UBA, позволивший «приземлить» платформу и удовлетворить потребности заказчика. Клиент остался доволен, но надо понимать, что это были «костыли» — полученное решение не выглядело как конечный продукт, хотя и решало проблемы.

После решения этой задачи у нас сформировался определенный технологический стек, а также понимание сценариев, которые возможно реализовать с помощью полученной платформы. Мы увидели в созданном продукте самостоятельную ценность. Сейчас мы его завертываем в красивую обертку и делаем тиражируемым.

- Что представляет собой созданное решение с технической точки зрения?

На текущий момент архитектура решения достаточно сложная, в связи с чем мы разделяем ее на четыре основных компонента.

Первый (Dataplan Processing) является компонентом, отвечающим за сбор, фильтрацию, агрегацию и нормализацию событий. С его помощью данные приводятся к единому формату для создания витрин данных, с которыми можно вести аналитическую работу.

Второй (Dataplan Storage) отвечает за высокоэффективное распределенное хранение данных, предназначенное для онлайн обработки аналитических запросов (OLAP). Речь идет о больших данных, порядок которых при пиковой нагрузке достигает 100 тыс. событий в секунду, поступающих в среднем на боевые инсталляции системы. Вопрос архитектуры обсуждается с заказчиком и отчасти зависит от его потребностей.

Третий компонент – аналитика (Dataplan Analytics). Машинное обучение реализовано на скриптах языка Python.

Наконец, созданные модели отображаются с помощью компонента Dataplan Visualization, представляющего собой BI-инструментарий. Это рабочее место специалиста, которое является инструментом поддержки принятия решений и реализует визуализацию ключевых метрик и показателей результатов аналитики.

- На каких компонентах построена система?

Практически все инструменты, которые брались за основу, являются open source. Во-первых, в ходе создания решения решалась вполне конкретная задача, требовалось сделать «дешево и сердито». Во-вторых, в область открытых решений сейчас смещается политика очень многих компаний.

- Какую роль вы выполняете в компании?

В рамках компании выступаю в роли владельца продукта Dataplan. Являюсь евангелистом использования больших данных в общении с заказчиками, выявляю кейсы и продумываю их решение.

Мой типичный рабочий день – выезд к заказчику, проведение пресейлов и презентаций, выявление потребностей, попытка интерпретации бизнес-задач в технические задачи, оценка сроков, а также координация работы моей команды, донесение до неё новых планов по развитию продукта и отзывов о результатах командной работы.

Главный KPI, за который мне приходится отвечать перед руководством – удовлетворенность заказчика решением.

- Потребность в подобных решениях высока?

Конечно же, мы оценивали потребности рынка, собирали пожелания других заказчиков. Одна из них – автоматизация работы аналитиков, работающих с системами безопасности. Им важно понимать причинно-следственные связи, выявлять сложные сценарии атак. Например, вирусное заражение, которое антивирус может обнаруживать изо дня в день, каждый раз успешно его зачищая. Но сама проблема находится в автозагрузке, которая его порождает. Классические системы работают в реальном времени, им катастрофически не хватает ретроспективной аналитики, в том числе встроенных алгоритмов машинного обучения.

Изучив потребности потенциальных заказчиков, мы поняли, что задачи в области ИБ принципиально ничем не отличаются от бизнес-задач, часто стоящих перед компаниями. Случалось, и так, что мы предлагали решение офицерам информационной безопасности, а те приглашали руководителей проектов и бизнес-аналитиков и демонстрировали им возможности платформы. Поэтому мы уже перепозиционировали решение с первоначального UBA на xBA, где x – классическая неизвестная из математики, поскольку нам не важно, какая именно сущность будет подаваться на вход системы.

- Готовы ли компании тратить деньги на это?

Компании понимают, что в центре всего стоит человек, и именно поэтому тема поведенческой аналитики в ИБ начала так хорошо «заходить». Именно действия сотрудников – преднамеренные или нет – наносят наибольший ущерб, и это факт.

Так, например, наш продут помог сети московских кафе выявить сотрудников, причастных к махинациям с картами лояльности, когда при оплате счета наличными часть суммы оплачивалась баллами с карты лояльности сотрудника, а экономия уходила в карман недобросовестных сотрудников кафе.

Компаниям нужны системы поддержки принятия решений. Дефицит квалифицированных кадров – проблема, но еще хуже, что у имеющихся специалистов нет инструментов для анализа данных, упрощения и ускорения своей работы и обоснования своих действий. У компаний накопились данные за длительное время, и они хотят извлекать из них пользу.

- С какими проблемами пришлось столкнуться? Обычно это данные…

Да, качественные и хорошо подготовленные данные – мечта любого дата-сайентиста, позволяющая избавиться от рутины и заняться творчеством. Общая проблема заключается в том, что когда компания занимается сбором данных, то далеко не всегда понимает, зачем. Как следствие, данные хранятся обрывочно, они далеко не полные, и их нормализация может занимать много времени. Даже если мы видим, как задачу можно решить, часто оказывается, что нужных данных просто нет. Мы предлагаем включить сбор данных из необходимых источников хотя бы на пару месяцев и возвращаемся, когда нам есть с чем работать.

Кроме того, в сфере ИБ так повелось, что люди изначально не слишком доверяют и друг другу, и новым решениям. Часто заказчики предлагают нам пробные задания, не описывая конкретной задачи. Например, речь может идти о поиске в предоставленных данных каких-либо аномалий. Если наши выводы подтверждают имеющиеся факты, компания идет на диалог.

- То есть речь идет об обучении без учителя?

Нынешняя ситуация в нашей сфере – любые алгоритмы машинного обучения изначально должны обучаться без учителя и показать какой-то результат. Когда к заказчикам приходят с терминами big data, machine learning и обещают показать новые знания, естественным желанием является их проверить. К математическим «фокусам» привыкли относиться с недоверием.

Но дело не только в недоверии, но и в том, что компании сами понимают, что могут не обо всем знать. Парадигма остается прежней: специалист должен быть экспертом в области безопасности, глубоко понимать процессы, чтобы уметь интерпретировать имеющиеся данные. Однако от этой парадигмы мы отходим и пытаемся показать, что алгоритмы машинного обучения сами могут «подсветить» любые аномалии, а задача человека – дать заключение по ним. Чем больше человек будет работать в системе и принимать решения в ней, тем «умнее» будут становиться модели, обучаясь на действиях пользователя.

- Каких результатов позволяет добиться решение?

По внешним угрозам – выявление компрометации учетных записей и активов, утечек критичных данных и эксплуатации уязвимостей. По внутренним угрозам – злоупотребление выданными правами, инсайдерская деятельность, несоответствие используемых учетных записей. Однако эти эффекты могут видоизменяться в зависимости от специфики заказчика и его процессов. В одном из госучреждений в ходе пилотного проекта удалось выявить пользователей с аномальными правами доступа в результате их перемещений между подразделениями и рекурсивные вирусные заражения, когда из-за одного компьютера заражался весь сегмент сети.

Что касается ускорения работы аналитиков, то тут эффекты слишком индивидуальны. Зачастую речь идет о том, что некоторые из действий становятся принципиально возможными. В одном из крупных ретейлеров в день создавалось по 10 тыс. инцидентов безопасности по каждому из сценариев, и таких сценариев были сотни. Фактически речь шла о ручной обработке этих событий, что невозможно. Мы автоматизировали процесс проверки этих инцидентов.

Пробиваясь к заказчикам со своими пилотами, мы показали коммерческую ценность своих решений. У нас есть 20 клиентов, довольных проведенными пилотными проектами, пятеро из них уже готовы начать полноценное внедрение. В 2020 году начнется активное масштабирование наших решений. Про какие-либо конкретные цифры можно будет говорить позже.

- А в реальном времени какие-то задачи решаются?

У нас были пилоты, в которых это требовалось. Но мы совершенно точно не считаем это своей главной задачей. Ретроспективный анализ приносит больше пользы и имеет гораздо больший «вау-эффект» для заказчиков. И что немаловажно, эта ниша на рынке сейчас гораздо свободнее.

- В каком направлении будет развиваться платформа Dataplan?

Направлений для развития возможностей платформы очень много, на текущий момент мы активно прорабатываем функциональный модуль, основанный на прогнозном мониторинге (predictive monitoring).

Также есть исследовательские работы и попытки выход за пределы ИБ. Одна из ближайших перспектив – HR как наиболее понятная и близкая нам тема, в разрезе задачи по оценке персонала. Если подойти к своим специалистам с популярной оценкой «360 градусов», которую применяют к клиентам, можно получить массу полезных результатов. Например, оцифровывая входящих кандидатов и понимая, что собой представляет коллектив, получится подбирать более сплоченную команду.