Data Science

Обработка больших объемов структурированных и неструктурированных данных (включая Big Data) в IT-технологиях с целью получения инсайтов называется Data Science.

Заказать консультацию >

К данным, используемым для получения значимой информации, относятся:

  • информация о работе оборудования;
  • метеоданные;
  • результаты исследований;
  • запросы в поисковых системах за определенный период;
  • результативность спортивных соревнований;
  • финансовые данные.

 

Основные способы обработки этой информации — метод математической статистики и машинное обучение. Ведь необходимо не только структурировать данные, но и выявить закономерности в соответствии с заданием заказчика. 

 

IT-специалист, имеющий со всем этим дело, именуется Data Scientist’ом. Его задача — на основе анализа обработанной информации построить прогнозную модель. Содержание прогнозов зависит от поставленных заказчиком задач.

 

Примечательно, что единого термина для обозначения Data Scientist’а в русском языке нет. Используемые варианты названий разнообразны:

  • Статистик
  • Аналитик-исследователь 
  • Аналитик-программист
  • Математик-программист
  • Аналитик данных
  • Специалист по анализу данных.

 

Востребована также профессия помощника Data Scientist’а.

 

Сфера применения результатов работы специалиста по анализу данных

С прогнозными моделями, написанными Data Scientist’ом, рядовой пользователь сталкивается уже на этапе получения итогов запроса из поисковика.

Помимо алгоритмов поиска, к результатам работы специалиста по анализу данных могут относиться алгоритмы для:

  • чат-ботов;
  • персонализированных списков рекомендуемого видео или аудио;
  • перечня возможных друзей в социальной сети;
  • программ для распознавания лиц;
  • оценок платежеспособности для выдачи кредита;
  • прогнозирования страхового случая;
  • программ построения генетических карт.

 

И это далеко не полный перечень результатов работы Data Scientist’а.

 

Обязанности Data Scientist'a

Некоторые этапы работы IT-специалиста этой сферы могут отличаться из-за специфики компании, в которой он работает. Но основные заключаются в следующем:

  • определение задачи, поставленной заказчиком;
  • оценка возможности решения выданного задания с помощью машинного обучения;
  • подготовка данных для анализа;
  • поиск критериев оценки данных;
  • программирование и тренировка разработанной прогнозной модели;
  • оценка целесообразности созданной модели; 
  • внедрение модели в заданную сферу деятельности (производственный цикл или продукт);
  • доработка модели по необходимости в ходе эксплуатации с учетом текущих требований.

 

Data Scientist - основные скиллы

Так как основной материал деятельности Data Scientist — массивы данных, а задача — анализ данных и разработка прогнозной модели, то одни из базовых навыков — математические познания (например, понятие о дифференциалах, производных, определителях матрицы) и умение работать с большими объемами информации.

 

К необходимым знаниям относятся:

  • математический анализ;
  • основы статистики;
  • математическая статистика;
  • Python и R — языки программирования;
  • понятие машинного обучения и использование его алгоритмов;
  • английский язык.

 

Важнейший навык — не просто понимание алгоритмов и методов машинного обучения, но и умение применять их в практической деятельности. Также Data Scientist должен уметь визуализировать результаты своей работы.

Вопросы о поиске специалистов Data Science

Мы подготовили ответы на распространенные вопросы о Data Scientist’ах. Если вам понадобится больше информации — просто свяжитесь с нами.

1. Как найти специалиста Data Science?

При самостоятельном поиске специалиста в сфере Data Science достаточно просто ошибиться. На рынке вакансий среди соискателей преобладают те, кто только осваивает профессиональные навыки. А специалисты с опытом вряд ли будут находиться в активном поиске. Специалистам такого уровня можно доверить работу помощника Data Scientist’а, в то время как поиск опытного специалиста лучше поручить рекрутинговому агентству.
Помимо основных аналитических навыков и опыта в сфере построения прогнозных моделей, желательно, чтобы Data Scientist имел представление о сфере деятельности, в которой ему предстоит работать. Так как, например, специалисту, обрабатывающему метеоданные, достаточно сложно будет переключиться на прогнозирование поломок технологического оборудования.
Если вам доступны для понимания основы курса высшей математики и математической статистики, а также есть знание английского, то останется только пройти курс программирования и методов машинного обучения. Главное — желание получить не только знания, а и понимание, как применять их на практике.
Базовая составляющая обеих профессий — обработка массивов данных. Но кардинальное отличие заключается в том, что Data Scientist помимо анализа данных разрабатывает и алгоритм прогнозирования событий. Бизнес-аналитикам же мы посвятили отдельную страницу на сайте.