Data Science

Обробка великих обсягів структурованих і неструктурованих даних (включаючи Big Data) в IT-технологіях з метою отримання інсайтів називається Data Science.

До даних, які використовуються для отримання значимої інформації, належать:

  • інформація про роботу обладнання;
  • інформація про погоду;
  • результати досліджень;
  • запити в пошукових системах за певний період;
  • результативність спортивних змагань;
  • фінансові дані.

 

Основні способи обробки цієї інформації — метод математичної статистики і машинне навчання. Адже необхідно не тільки структурувати дані, але і виявити закономірності відповідно до завдання замовника.

 

IT-фахівець, який має справу з усім цим, іменується Data Scientist'ом. Його завдання — на основі аналізу обробленої інформації побудувати прогнозну модель. Зміст прогнозів залежить від поставлених замовником завдань.

 

Показово, що єдиного терміна для позначення Data Scientist'а в українській мові немає. Використовувані варіанти назв різноманітні:

  • Статистик
  • Аналітик-дослідни
  • Аналітик-програміст
  • Математик-програміст
  • Аналітик даних
  • Спеціаліст з аналізу даних

 

Затребувана також професія помічника Data Scientist'а.

 

Сфера застосування результатів роботи фахівця з аналізу даних

З прогнозними моделями, написаними Data Scientist'ом, пересічний користувач стикається вже на етапі отримання результатів запиту до пошукової системи.

Крім алгоритмів пошуку, до результатів роботи фахівця з аналізу даних можуть належати алгоритми для:

  • чат-ботів;
  • персоналізованих списків рекомендованого відео або аудіо;
  • переліку можливих друзів у соціальній мережі;
  • програм для розпізнавання осіб;
  • оцінки платоспроможності для видачі кредиту;
  • прогнозування страхового випадку;
  • програм побудови генетичних карт.

 

І це далеко не повний перелік результатів роботи Data Scientist'а.

 

Обов'язки Data Scientist'a

Деякі етапи роботи IT-фахівця цієї сфери можуть відрізнятися через специфіку компанії, в якій він працює. Але основні полягають в наступному:

  • визначення завдання, поставленого замовником;
  • оцінка можливості вирішення виданого завдання за допомогою машинного навчання;
  • підготовка даних для аналізу;
  • пошук критеріїв оцінки даних;
  • програмування і тренування розробленої прогнозної моделі;
  • оцінка доцільності створеної моделі;
  • впровадження моделі в задану сферу діяльності (виробничий цикл або продукт);
  • доопрацювання моделі за потребою в ході експлуатації з урахуванням поточних вимог.

 

Data Scientist - основні скіли

У зв’язку з тим, що основний матеріал діяльності Data Scientist'а — масиви даних, а завдання — аналіз даних і розробка прогнозної моделі, то одна з базових навичок — вільне оперування такими математичними категоріями, як диференціал, похідна, визначник матриці, і бажання працювати з великими обсягами інформації.

 

До необхідних знань відносяться:

  • математичний аналіз;
  • основи статистики;
  • математична статистика;
  • Python і R-мови програмування;
  • поняття машинного навчання і використання його алгоритмів;
  • англійська мова.

 

Найважливіший навик — не просто розуміння алгоритмів і методів машинного навчання, а й уміння застосовувати їх в практичній діяльності. Також Data Scientist повинен вміти візуалізувати результати своєї роботи.