Пять вещей, которые ИТ-директору следует знать об озерах данных
Пять вещей, которые ИТ-директору следует знать об озерах данных

Для создания озера данных можно использовать различные технологии; по сути, озеро – это стратегия хранения.

Источник: EMC


09:26 24.08.2015   |  Боб Вайолино |  CIO Magazine, США

Рубрика Предприятие |   1692 прочтения



Аналитики предупреждают: для проектов Больших Данных озеро данных не панацея.

 

1. Концепция совершенно новая. Термин «озеро данных», предложенный техническим директором компании Pentaho Джеймсом Диксоном, обсуждается уже несколько лет. Но, по словам аналитика IDC Ашиша Надкарни, идея использования озер данных в качестве ресурсов корпоративного уровня все еще находится в зачаточном состоянии. Озеро данных определяется как большое – и относительно дешевое – хранилище данных, построенное по образу Hadoop, в котором размещаются все типы необработанных данных. Впоследствии они могут понадобиться для бизнес-анализа или добычи данных. В озере данных все элементы хранятся в своей первоначальной форме, необработанной и неуправляемой.

2. Купить готовое к использованию озеро данных невозможно. В своей рекламе поставщики утверждают, что озера данных станут для проектов Больших Данных панацеей, но это не так. «Как и в случае с хранилищами данных, озера данных – это концепция, а не технология, – указал аналитик Gartner Ник Хойдекер. – Для создания озера данных вы можете использовать различные технологии. По сути, озеро данных – это стратегия хранения».

3. Озера придуманы для накопления Большие Данных. Озера предназначены для приема данных – процедуры, которая включает в себя сбор, импорт и обработку данных для хранения и последующего их использования. «Там, где организация хранилища данных оказывается слишком громоздкой для масштабного приема, вступают в действие озера данных, – пояснил Хойдекер. – Озеро данных не требует предварительного создания схемы. Данные просто заносятся туда, а схема создается и применяется уже в процессе их извлечения».

4. В проектировании должны участвовать самые разные специалисты. Озера данных представляют собой ресурсы для всей организации, а не только для ИТ-службы. Поэтому к планированию проектов озер данных следует привлекать все заинтересованные стороны. «Речь идет о центральном компоненте архитектуры Больших Данных всего предприятия, который невозможно реализовать в отрыве от всего остального, – отметил Надкарни. – Помимо ИТ-менеджеров в проект озера данных необходимо вовлекать руководителей бизнеса и пользователей. И ключевую роль здесь должны сыграть эксперты по системам хранения. В конечном итоге дело сводится к построению платформы хранения, а ее проектирование и реализация невозможны без участия специалистов по хранению».

5. Основные выгоды определяются не технологией. «Ценность озер данных для бизнеса мало зависит от выбранной технологии, – утверждает Хойдекер. – Ценность для бизнеса определяется накопленным опытом управления данными, который можно применить к озеру. Озера данных не являются заменой существующим аналитическим платформам или инфраструктуре. Они дополняют собой ваши усилия и помогают поднимать новые вопросы. После того как эти вопросы сформулированы, они 'оптимизируются' для получения ответов. Оптимизация может заключаться в том числе и в отходе от озера в сторону киосков или хранилищ данных».


Теги: Статьи Большие данные in_bigdata Озеро данных

На ту же тему: