Ищете Data Scientist для вашей команды?

Обработка больших объемов структурированных и неструктурированных данных (включая Big Data) в IT-технологиях с целью получения инсайтов называется Data Science.

К данным, используемым для получения значимой информации, относятся:

  • информация о работе оборудования;
  • метеоданные;
  • результаты исследований;
  • запросы в поисковых системах за определенный период;
  • результативность спортивных соревнований;
  • финансовые данные.

 

Основные способы обработки этой информации — метод математической статистики и машинное обучение. Ведь необходимо не только структурировать данные, но и выявить закономерности в соответствии с заданием заказчика. 

 

IT-специалист, имеющий со всем этим дело, именуется Data Scientist’ом. Его задача — на основе анализа обработанной информации построить прогнозную модель. Содержание прогнозов зависит от поставленных заказчиком задач.

 

Примечательно, что единого термина для обозначения Data Scientist’а в русском языке нет. Используемые варианты названий разнообразны:

  • Статистик
  • Аналитик-исследователь 
  • Аналитик-программист
  • Математик-программист
  • Аналитик данных
  • Специалист по анализу данных.

 

Востребована также профессия помощника Data Scientist’а.

 

Сфера применения результатов работы специалиста по анализу данных

С прогнозными моделями, написанными Data Scientist’ом, рядовой пользователь сталкивается уже на этапе получения итогов запроса из поисковика.

Помимо алгоритмов поиска, к результатам работы специалиста по анализу данных могут относиться алгоритмы для:

  • чат-ботов;
  • персонализированных списков рекомендуемого видео или аудио;
  • перечня возможных друзей в социальной сети;
  • программ для распознавания лиц;
  • оценок платежеспособности для выдачи кредита;
  • прогнозирования страхового случая;
  • программ построения генетических карт.

 

И это далеко не полный перечень результатов работы Data Scientist’а.

 

Обязанности Data Scientist'a

Некоторые этапы работы IT-специалиста этой сферы могут отличаться из-за специфики компании, в которой он работает. Но основные заключаются в следующем:

  • определение задачи, поставленной заказчиком;
  • оценка возможности решения выданного задания с помощью машинного обучения;
  • подготовка данных для анализа;
  • поиск критериев оценки данных;
  • программирование и тренировка разработанной прогнозной модели;
  • оценка целесообразности созданной модели; 
  • внедрение модели в заданную сферу деятельности (производственный цикл или продукт);
  • доработка модели по необходимости в ходе эксплуатации с учетом текущих требований.

 

Data Scientist - основные скиллы

Так как основной материал деятельности Data Scientist — массивы данных, а задача — анализ данных и разработка прогнозной модели, то одни из базовых навыков — математические познания (например, понятие о дифференциалах, производных, определителях матрицы) и умение работать с большими объемами информации.

 

К необходимым знаниям относятся:

  • математический анализ;
  • основы статистики;
  • математическая статистика;
  • Python и R — языки программирования;
  • понятие машинного обучения и использование его алгоритмов;
  • английский язык.

 

Важнейший навык — не просто понимание алгоритмов и методов машинного обучения, но и умение применять их в практической деятельности. Также Data Scientist должен уметь визуализировать результаты своей работы.