Тендю Йогуртчу: «Организовывать данные, чтобы мир работал»

09:45 09.07.2018  (обновлено: 13:03 09.07.2018)   |  Наталья Дубова |  «Открытые системы»

Рубрика Индустрия |   3966 прочтений



Технический директор Syncsort — о том, что такое «продвижение» данных, как не превратить озеро данных в «болото» и о планах компании в России.

 

В середине мая в Москве прошел саммит по устойчивости бизнеса, одним из основных организаторов которого выступила компания Syncsort. Имя, пока практически не известное российскому рынку, хотя ему хорошо знакома недавно приобретенная Syncsort компания Vision Solutions.

Syncsort – поставщик решений для широкого спектра задач работы с данными, включая оптимизацию инфраструктуры данных, интеграцию, обеспечение качества и доступности, восстановление, миграцию и защиту данных. Как объясняют в компании, Syncsort видит свою цель в «продвижении» данных – сделать так, чтобы большие данные были доступны для аналитической обработки нового поколения.

Тендю Йогуртчу
Тендю Йогуртчу: «Syncsort видит свою цель в 'продвижении' данных – сделать так, чтобы большие данные были доступны для аналитической обработки нового поколения»

На саммите мы побеседовали с техническим директором Syncsort Тендю Йогуртчу, которая рассказала о продуктовом портфеле компании, ее глобальной стратегии и о том, как планируется завоевывать российский рынок.

- Прежде всего, давайте познакомим читателей с Syncsort.

Портфель Syncsort включает в себя три группы продуктов. Во-первых, программное обеспечение для управления данными, позволяющее оптимизировать существующую инфраструктуру, сократить ТСО и повысить гибкость предприятия. Эту группу решений мы относим к категории оптимизации.

Следующая группа обеспечивает защиту данных и их доступность в режиме 24х7 (эту группу в компании называют «assure» — прим. ред.). И третья группа – семейство продуктов для интеграции. Сюда входит все что касается доступа к данным и их интеграции из самых разных источников – с мейнфреймов, платформ IBM i, систем больших данных, из облаков. Продукты этой категории работают с данными приложений, систем безопасности, журналов ИТ-операций. Кроме того, мы предлагаем решения по обнаружению данных и обеспечению их качества, гарантируя предоставление данных, заслуживающих доверия. В целом, продукты категории интеграции предназначены для того, чтобы объединить существующую инфраструктуру с аналитическими платформами нового поколения.

- Такие категории решений давно существуют в сфере работы с данными. А в повестке форума, где мы с вами беседуем, заявлена тема больших данных. Какова стратегия компании в этой области?

Syncsort – седьмая среди компаний-контрибуторов кода Hadoop версии 2, наш вклад – ряд API и несколько новых сценариев использования стека открытого кода, и мы обеспечиваем нативную работу с Hadoop наших решений по интеграции и обеспечению качества данных.

Однако важнее всего то, что благодаря продуктам Syncsort компании интегрируют среды больших данных со своей инфраструктурой, не прикладывая к этому специальных усилий. Инженеры по данным реализуют процессы работы с данными (data workflows), не задумываясь о том, какие платформы эти процессы затрагивают – автономный сервер, Hadoop MapReduсe, Apache Spark или другую распределенную среду, локальную или облачную. Это наша забота – понять, откуда приходят данные, и выполнить соответствующую оптимизацию. Кроме того, нативная интеграция с средами больших данных обеспечивает очень высокую производительность и масштабируемость. В этих областях Syncsort всегда была сильна, поскольку компания работает с крупнейшими корпорациями мира, которые имеют дело с данными больших объемов и большого разнообразия.

Главное преимущество нашего подхода – в том, что независимо от источников, мы обеспечиваем подключение критически важных для бизнеса данных к современным платформам аналитики, локальным или облачным. Мы называем такой подход продвижением данных (advancing data).

- Как правило, в обсуждении больших данных основное внимание уделяется аналитике – как извлечь ценность из данных. А то, чем занимается ваша компания – это подготовка данных к аналитике...

Совершенно верно. Обеспечение доступа, интеграция, очистка, сопоставление данных и предоставление данных, заслуживающих доверия, для аналитики.

— Как мне кажется, сейчас компании только приходят к пониманию того, насколько важна серьезная работа по такой подготовке, управлению данными (data governance). Если вы работаете на этом поле, какие рекомендации вы бы дали – с чего начать, чтобы правильно выстроить управление данными, и с организационной, и с технологической точки зрения?

Когда компании начинают работать с большими данными, их больше всего волнует, как создать озеро данных и собирать в нем все данные, чтобы можно было создавать продукты, основанные на них. Однако в прошлом году мы заметили, что все чаще встает проблема появления «болота» данных вместо озера. Поэтому первая рекомендация – определить бизнес-задачу для больших данных, то есть сначала понять, зачем они нужны бизнесу, и уже только потом озаботиться тем, как их собирать и обрабатывать.

Рекомендация номер два: не зацикливайтесь на «модных», самых современных источниках данных. Чтобы получить преимущества от машинного обучения, недостаточно собирать потоковые данные с мобильных устройств, необходимо продолжать работать с наиболее важными традиционными ресурсами данных, например, с нормативно-справочными данными о клиентах (customer reference data). Поэтому мы советуем тщательно продумать включение таких ресурсов в архитектуру нового поколения.

Третий совет – не теряйте из виду вопросы качества данных, включайте эти задачи в рассмотрение с самого начала. То, что всегда было неотъемлемым компонентом традиционного стека data governance, теперь должно стать частью системы больших данных.

К управлению большими данными предъявляются более обширные и сложные требования, поскольку такие системы задействуют множество платформ, используют облачные и локальные решения. Поэтому четвертая рекомендация – выбирайте инструменты так, чтобы не усложнять жизнь их пользователям. Нет одного инструмента, который реализует все требования data governance. Ищите продукты и решения, которые могут интегрироваться с различными компонентами стека.

Часто на ранних этапах проектов больших данных каждое бизнес-подразделение пытается делать что-то самостоятельно. Поэтому в качестве пятой рекомендации надо посоветовать определить единую политику данных в масштабе всей организации. Должен быть директор по данным (CDO), необходимо выполнить определенную централизацию доступа к данным, чтобы держать под контролем предоставление критически важных данных тем пользователям, которые имеют на это соответствующие права.

- И если для реализации этих рекомендаций обращаться за соответствующим инструментарием к Syncsort, то что вы предложите?

Наши продукты для интеграции данных и обеспечения их качества. Они работают с различными платформами, с облаком, сертифицированы для поддержки компонентов Hadoop в решении задач безопасности, обеспечения единого процесса обработки данных от источника до потребителя (data lineage) и процессов управления данными, а также интегрируются с другими инструментами data governance.

В результате слияния с компанией Vision Solutions мы получили средства устойчивой репликации данных в реальном времени, которые очень важны для сохранения «свежести» данных в озере данных, локальном или облачном. Говоря об управлении данными (data governance), нельзя забывать и об управлении ИТ в целом (IT governance). В этой области приобретает значение наше решение по управлению ресурсами в масштабах всей организации.

- Вы отвечаете за инновационную стратегию Syncsort. Какие основные инновации в своем портфеле планирует компания в ближайшем будущем?

Есть четыре главные тенденции, в русле которых мы работаем. Это облако, потоковые данные, data science – создание и подготовка данных к вводу в системы машинного обучения и искусственного интеллекта и data governance – обеспечение безопасности данных, единого процесса их обработки на разных платформах и качества данных.

Все эти направления найдут отражение в новых продуктах.

- Компания выходит на российский рынок. Какие аспекты стратегии здесь для вас наиболее важны?

У Syncsort в России сильная клиентская база по решениям обеспечения высокой доступности и для платформы IBM i. Эту базу мы рассматриваем как основу для продвижения продуктов по безопасности и для предложения новых опций для IBM i. Еще одно важное направление – кроссплатформенное управление ресурсами как часть управления ИТ-операциями. И, наконец, стратегическое значение в России для нас имеет вывод на рынок портфеля решений по интеграции и обеспечению качества данных.

- Благодаря Vision Solutions основу вашей клиентской базы в России составляют финансовые институты. Но тенденция сейчас такова, что число банков в стране сокращается. В связи с этим, планируете ли вы экспансию в другие сферы российской экономики, например, в госсектор, промышленность?

Финансовый сектор не теряет для нас своего значения. Действительно, банков в России становится меньше, но при этом они становятся больше, а значит растут и проблемы с данными. С другой стороны, работать с этими клиентами проще, поскольку они хорошо знают решения компании и доверяют нам.

В ближайших планах продвижение продуктов Syncsort страховым компаниям, в телекоммуникационную индустрию, в онлайн-ретейл. Что касается госорганизаций, то завоевать таких клиентов потребует значительных усилий и времени, и эту задачу мы рассматриваем как перспективную.


Теги: Большие данные Озеро данных Syncsort
На ту же тему: