Опросив более 1600 респондентов, популярной краудсорсинговой платформе для сбора и обработки данных удалось узнать массу интересного о том, кто работает с данными, что происходит на переднем крае формирующейся отрасли машинного обучения и как осваивают эту сферу начинающие исследователи данных. Вот некоторые из сделанных экспертами Kaggle выводов.
1. В целом самым распространенным, пожалуй, на сегодняшний день инструментом является Python, однако большинство статистиков используют в своей деятельности R.
2. Средний возраст исследователя данных составляет 30 лет, но он сильно варьируется от страны к стране. К примеру, средний респондент из Индии на 9 лет моложе среднего респондента из Австралии.
3. Наиболее высок процент респондентов, имеющих степень магистра, но специалисты, получающие самую высокую зарплату (150 тыс. долл. в год и выше), чаще являются обладателями докторской степени.
Кто работает с данными
Возраст участников опроса в среднем равен 30 годам, но эти цифры варьируются от одной страны к другой. Так, средний респондент из Индии оказался на 9 лет моложе среднего респондента из Австралии.
Уровень занятости
- Работаю с полной занятостью
- Не имею работы, но нахожусь в процессе ее поиска
- Фрилансер
- Не имею работы и не ищу ее
- Работаю с частичной занятостью
- Предпочитаю не отвечать на этот вопрос
Источник: Kaggle, 2017.
Занимаемая должность
В науке о данных существует множество самых разных должностей — и еще больше названий для схожих должностей.
- Исследователь данных (Data Scientist)
- Разработчик программного обеспечения / инженер-программист (Software Developer/ Engineer)
- Аналитик данных (Data Analyst)
- Ученый / исследователь (Scientist/ Researcher)
- Другое
- Инженер по машинному обучению (Machine Learning Engineer)
- Бизнес-аналитик (Business Analyst)
- Исследователь (Researcher)
- Инженер (Engineer)
- Специалист по компьютерным наукам (Computer Scientist)
- Программист (Programmer)
- Статистик (Statistician)
- Разработчик прогнозных моделей (Predictive Modeler)
- Администратор баз данных / инженер баз данных (DBA/Database Engineer)
- Специалист по анализу данных (Data Miner)
- Исследователь операций (Operations Researcher)
Источник: Kaggle, 2017.
Размер годовой зарплаты при работе с полной занятостью
«Компенсациям и привилегиям» в опросе уделяется менее важное место, чем «возможностям для профессионального роста», неплохо было бы знать, что следует считать приличной оплатой. Больше других (в среднем) инженеры по машинному обучению приносят домой в США.
Среднее значение: 55 441 долл.
Формальный уровень образования
Стоит ли бороться за получение очередной степени? В целом, большинство людей, занимающихся наукой о данных, имеют степень магистра. Но те, у кого уровень зарплаты наиболее высок (150-200 тыс. долл. и выше) чаще являются обладателями докторской степени.
- Степень магистра
- Степень бакалавра
- Докторская степень
- Закончил университет
- Профессиональный диплом
- Средняя школа
- Предпочитаю не отвечать на этот вопрос
Источник: Kaggle, 2017.
Таким образом, среднему участнику опроса 30 лет, он имеет степень магистра, работает на должности исследователя данных и зарабатывает около 55 тыс. долл. в год. Но реальные люди зачастую не вписываются в средние цифры.
Чем занимаются исследователи данных
Используемые методы
Чаще всего практически во всех отраслях среди используемых научных методов упоминалась логистическая регрессия. Исключениями стали лишь военная отрасль и отрасль безопасности, где чаще используются нейронные сети.
- Логистическая регрессия
- Дерево решений
- Случайный лес
- Нейронные сети
- Байесовские технологии
- Метод ансамблей
- Метод опорных векторов
- Градиентный бустинг
- Клеточная нейронная сеть
- Рекуррентная нейронная сеть
- Другое
- Эволюционные подходы
- Скрытая марковская модель
- Марковские логические сети
- Генеративно-состязательные сети
Источник: Kaggle, 2017.
Используемые инструменты
Говоря об инструментах анализа, исследователи данных чаще всего упоминают Python, но статистики сохраняют приверженность R.
- Python
- R
- SQL
- Jupyter Notebook
- TensorFlow
- Amazon Web Services
- Unix shell / awk
- Tableau
- Си / C++
- NoSQL
- MATLAB / Octave
- Java
- Hadoop / Hive / Pig
- Spark / MLlib
- Microsoft Excel Data Mining
Источник: Kaggle, 2017.
Используемые виды данных
Чаще всего практически во всех отраслях упоминались реляционные данные. Исключениями стали академическая сфера, военная отрасль и отрасль безопасности, где чаще используются текстовые данные.
- Реляционные данные
- Текстовые данные
- Изображения
- Другое
- Видео
Источник: Kaggle, 2017.
Как организован обмен программным кодом
Наибольшей популярностью пользуется инструмент Git, однако сотрудники больших компаний чаще оставляют программный код в облаке или используют программное обеспечение для обмена файлами, например, электронную почту. В маленьких организациях предпочтение отдают обмену через облако.
- Git
- Обмен файлами без использования облака
- ПО для совместного использования файлов в облаке
- Bitbucket
- Subversion
- Другое
- Mercurial
Источник: Kaggle, 2017.
Главные препятствия и проблемы
Недействительные данные – наиболее общая проблема в сфере науки о данных. Единственным исключением среди респондентов стали дотошные в силу своей профессии инженеры баз данных. Вслед за недействительными данными идут политики компании, а также отсутствие управления или финансовой поддержки.
- Недействительные данные
- Нехватка специалистов в области науки о данных
- Отсутствие управления / финансовой поддержки
- Отсутствие четких ответов на вопросы
- Недоступность данных или сложность доступа к ним
- Полученные результаты не используются людьми, принимающими решения
- Разъяснение положений науки о данных всем остальным
- Вопросы конфиденциальности
- Нехватка специалистов в предметной области
- Отсутствие возможности сформировать команду, занимающуюся наукой о данных
- Множество специальных сред
- Ограниченный набор инструментов
- Необходимость координации своих действий с ИТ-службой
- Ожидания влияния проекта
- Интеграция полученных результатов в решения
Примечание: приведены 15 ответов, набравших максимальное число голосов.
Источник: Kaggle, 2017.
Как добиться успеха, выбрав карьеру в науке о данных
Начиная выстраивать карьеру, полезно узнать о том, как удалось добиться успеха другим людям. У специалистов, работающих в сфере науки о данных, в Kaggle спросили, как им это удалось.
Какой язык стоит изучить первым делом
У каждого исследователя данных есть на этот счет свое мнение. Люди, использующие исключительно Python или R, считают, что они сделали правильный выбор. Но те, кто использует как Python, так и R, рекомендуют Python вдвое чаще.
- Python
- R
- SQL
- C/ C++/C#
- Matlab
- Java
- Scala
- Другое
- SAS
- Julia
- Stata
- Haskell
- F#
Источник: Kaggle, 2017.
Какие тематические ресурсы использовать?
Наука о данных – это область, где все меняется очень быстро. Есть много ценных ресурсов, которые помогут изучать ее так, чтобы всегда оставаться востребованным на рынке труда. Те, кто уже давно работает в сфере науки о данных, чаще по сравнению с новичками используют вопросы и ответы на Stack Overflow, конференции и подкасты. Тем же, кто занимается созданием контента или программ с открытым кодом, стоит учитывать, что люди, приходящие в эту область, чаще отдают предпочтение чтению официальной документации и просмотру видео на YouTube.