Состояние отрасли науки о данных и машинного обучения в 2017 году
Состояние отрасли науки о данных и машинного обучения в 2017 году

В науке о данных существует множество самых разных должностей — и еще больше названий для схожих должностей


20:26 12.01.2018  (обновлено: 09:32 22.01.2018)   | 

Рубрика Индустрия |   2296 прочтений



В Kaggle в конце прошлого года провели общеотраслевой опрос, чтобы изучить текущее состояние дел в сфере науки о данных (Data Science) и машинного обучения.

Опросив более 1600 респондентов, популярной краудсорсинговой платформе для сбора и обработки данных удалось узнать массу интересного о том, кто работает с данными, что происходит на переднем крае формирующейся отрасли машинного обучения и как осваивают эту сферу начинающие исследователи данных. Вот некоторые из сделанных экспертами Kaggle выводов.

1. В целом самым распространенным, пожалуй, на сегодняшний день инструментом является Python, однако большинство статистиков используют в своей деятельности R.

2. Средний возраст исследователя данных составляет 30 лет, но он сильно варьируется от страны к стране. К примеру, средний респондент из Индии на 9 лет моложе среднего респондента из Австралии.

3. Наиболее высок процент респондентов, имеющих степень магистра, но специалисты, получающие самую высокую зарплату (150 тыс. долл. в год и выше), чаще являются обладателями докторской степени.

Кто работает с данными

Возраст участников опроса в среднем равен 30 годам, но эти цифры варьируются от одной страны к другой. Так, средний респондент из Индии оказался на 9 лет моложе среднего респондента из Австралии.

Уровень занятости

Уровень занятости

  1. Работаю с полной занятостью
  2. Не имею работы, но нахожусь в процессе ее поиска
  3. Фрилансер
  4. Не имею работы и не ищу ее
  5. Работаю с частичной занятостью
  6. Предпочитаю не отвечать на этот вопрос

Источник: Kaggle, 2017.

Занимаемая должность

В науке о данных существует множество самых разных должностей — и еще больше названий для схожих должностей.

Занимаемая должность

  1. Исследователь данных (Data Scientist)
  2. Разработчик программного обеспечения / инженер-программист (Software Developer/ Engineer)
  3. Аналитик данных (Data Analyst)
  4. Ученый / исследователь (Scientist/ Researcher)
  5. Другое
  6. Инженер по машинному обучению (Machine Learning Engineer)
  7. Бизнес-аналитик (Business Analyst)
  8. Исследователь (Researcher)
  9. Инженер (Engineer)
  10. Специалист по компьютерным наукам (Computer Scientist)
  11. Программист (Programmer)
  12. Статистик (Statistician)
  13. Разработчик прогнозных моделей (Predictive Modeler)
  14. Администратор баз данных / инженер баз данных (DBA/Database Engineer)
  15. Специалист по анализу данных (Data Miner)
  16. Исследователь операций (Operations Researcher)

Источник: Kaggle, 2017.

Размер годовой зарплаты при работе с полной занятостью

«Компенсациям и привилегиям» в опросе уделяется менее важное место, чем «возможностям для профессионального роста», неплохо было бы знать, что следует считать приличной оплатой. Больше других (в среднем) инженеры по машинному обучению приносят домой в США.

Среднее значение: 55 441 долл.

Формальный уровень образования

Стоит ли бороться за получение очередной степени? В целом, большинство людей, занимающихся наукой о данных, имеют степень магистра. Но те, у кого уровень зарплаты наиболее высок (150-200 тыс. долл. и выше) чаще являются обладателями докторской степени.

Формальный уровень образования

  1. Степень магистра
  2. Степень бакалавра
  3. Докторская степень
  4. Закончил университет
  5. Профессиональный диплом
  6. Средняя школа
  7. Предпочитаю не отвечать на этот вопрос

Источник: Kaggle, 2017.

Таким образом, среднему участнику опроса 30 лет, он имеет степень магистра, работает на должности исследователя данных и зарабатывает около 55 тыс. долл. в год. Но реальные люди зачастую не вписываются в средние цифры.

Чем занимаются исследователи данных

Используемые методы

Чаще всего практически во всех отраслях среди используемых научных методов упоминалась логистическая регрессия. Исключениями стали лишь военная отрасль и отрасль безопасности, где чаще используются нейронные сети.

Используемые методы

  1. Логистическая регрессия
  2. Дерево решений
  3. Случайный лес
  4. Нейронные сети
  5. Байесовские технологии
  6. Метод ансамблей
  7. Метод опорных векторов
  8. Градиентный бустинг
  9. Клеточная нейронная сеть
  10. Рекуррентная нейронная сеть
  11. Другое
  12. Эволюционные подходы
  13. Скрытая марковская модель
  14. Марковские логические сети
  15. Генеративно-состязательные сети

Источник: Kaggle, 2017.

Используемые инструменты

Говоря об инструментах анализа, исследователи данных чаще всего упоминают Python, но статистики сохраняют приверженность R.

Используемые инструменты

  1. Python
  2. R
  3. SQL
  4. Jupyter Notebook
  5. TensorFlow
  6. Amazon Web Services
  7. Unix shell / awk
  8. Tableau
  9. Си / C++
  10. NoSQL
  11. MATLAB / Octave
  12. Java
  13. Hadoop / Hive / Pig
  14. Spark / MLlib
  15. Microsoft Excel Data Mining

Источник: Kaggle, 2017.

Используемые виды данных

Чаще всего практически во всех отраслях упоминались реляционные данные. Исключениями стали академическая сфера, военная отрасль и отрасль безопасности, где чаще используются текстовые данные.

Используемые виды данных

  1. Реляционные данные
  2. Текстовые данные
  3. Изображения
  4. Другое
  5. Видео

Источник: Kaggle, 2017.

Как организован обмен программным кодом

Наибольшей популярностью пользуется инструмент Git, однако сотрудники больших компаний чаще оставляют программный код в облаке или используют программное обеспечение для обмена файлами, например, электронную почту. В маленьких организациях предпочтение отдают обмену через облако.

Как организован обмен программным кодом

  1. Git
  2. Обмен файлами без использования облака
  3. ПО для совместного использования файлов в облаке
  4. Bitbucket
  5. Subversion
  6. Другое
  7. Mercurial

Источник: Kaggle, 2017.

Главные препятствия и проблемы

Недействительные данные – наиболее общая проблема в сфере науки о данных. Единственным исключением среди респондентов стали дотошные в силу своей профессии инженеры баз данных. Вслед за недействительными данными идут политики компании, а также отсутствие управления или финансовой поддержки.

Главные препятствия и проблемы

  1. Недействительные данные
  2. Нехватка специалистов в области науки о данных
  3. Отсутствие управления / финансовой поддержки
  4. Отсутствие четких ответов на вопросы
  5. Недоступность данных или сложность доступа к ним
  6. Полученные результаты не используются людьми, принимающими решения
  7. Разъяснение положений науки о данных всем остальным
  8. Вопросы конфиденциальности
  9. Нехватка специалистов в предметной области
  10. Отсутствие возможности сформировать команду, занимающуюся наукой о данных
  11. Множество специальных сред
  12. Ограниченный набор инструментов
  13. Необходимость координации своих действий с ИТ-службой
  14. Ожидания влияния проекта
  15. Интеграция полученных результатов в решения

Примечание: приведены 15 ответов, набравших максимальное число голосов.

Источник: Kaggle, 2017.

Как добиться успеха, выбрав карьеру в науке о данных

Начиная выстраивать карьеру, полезно узнать о том, как удалось добиться успеха другим людям. У специалистов, работающих в сфере науки о данных, в Kaggle спросили, как им это удалось.

Какой язык стоит изучить первым делом

У каждого исследователя данных есть на этот счет свое мнение. Люди, использующие исключительно Python или R, считают, что они сделали правильный выбор. Но те, кто использует как Python, так и R, рекомендуют Python вдвое чаще.

Какой язык стоит изучить  первым делом

  1. Python
  2. R
  3. SQL
  4. C/ C++/C#
  5. Matlab
  6. Java
  7. Scala
  8. Другое
  9. SAS
  10. Julia
  11. Stata
  12. Haskell
  13. F#

Источник: Kaggle, 2017.

Какие тематические ресурсы использовать?

Наука о данных – это область, где все меняется очень быстро. Есть много ценных ресурсов, которые помогут изучать ее так, чтобы всегда оставаться востребованным на рынке труда. Те, кто уже давно работает в сфере науки о данных, чаще по сравнению с новичками используют вопросы и ответы на Stack Overflow, конференции и подкасты. Тем же, кто занимается созданием контента или программ с открытым кодом, стоит учитывать, что люди, приходящие в эту область, чаще отдают предпочтение чтению официальной документации и просмотру видео на YouTube.


Теги: ИТ-образование и обучение Data Science Машинное обучение


На ту же тему: