Карьера

Собеседование по Data Science: чего от вас ждут

Карьера 21 мая 2019 Алиса Смелова

#интервью #профессии

Время чтения: 5 минут

0 1 0

Data Science – область очень перспективная. Ещё в 2016 году на Всемирном экономическом форуме отметили, что в ближайшие годы потребность в Data Science-специалистах взлетит во всех отраслях. В докладе Glassdoor 2018 года «Best Jobs in America» говорится, что дата-сайентисты возглавляют рейтинг самых перспективных профессий 2019 года для технических специалистов – с точки зрения заработка и интересных задач.

На российском рынке потребность в Data Science-специалистах за последние годы выросла в десятки раз: стоит только посмотреть на число вакансий. Но не все работодатели указывают, в чем именно заключается пресловутое «умение работать с данными». Из-за этого многие кандидаты не понимают, какие навыки им нужны и что предстоит делать.

Кто-то считает, для работы в Data Science достаточно знать технологии Big Data; кто-то уверен, что хватит просмотра нескольких курсов по машинному обучению, а разбираться в алгоритмах не нужно. На вакансии дата-сайентистов часто откликаются академики, которые отлично разбираются в математике и статистике, но не знают, как решать задачи бизнеса.

«Клевер» разобрался, какие знания и навыки нужны для работы в Data Science, о чем спрашивают кандидатов на технических интервью и что ценят в резюме. Помогли нам в этом дата-сайентисты Дмитрий Никитко и Михаил Камалов.

В разных компаниях по-своему понимают задачи специалистов по Data Science. Вот что делают такие специалисты в ЕРАМ:

общаются с заказчиками;
делают разведывательный анализ данных;
занимаются предобработкой данных;
ищут закономерности в данных и проверяют гипотезы;
создают предсказательные модели, используя алгоритмы машинного обучения;
оценивают качество полученных моделей;
визуализируют данные;
помогают интегрировать решение.

Задач, с которыми работают аналитики данных, много. Например, ранжирование можно применять не только к поисковой выдаче, но и к созданию рекомендательных систем, поиску похожих картинок, музыки и даже 3D-модели лица. В каждом их этих случаев нужно найти релевантный ответ по запросу. Но типы данных различны, и нужно знать, какую стратегию применить в том или ином случае.

Что нужно уметь

Если коротко, дата-сайентист – это человек, который умеет программировать (в большинстве случаев на Python), умеет строить пайплайны обработки данных, разбирается в алгоритмах машинного обучения и владеет английским.

Английский нужен не только для того, чтобы читать специализированную литературу и разбираться с документацией. Многие аналитики напрямую общаются с иностранными заказчиками. Кстати, здесь пригодится еще и умение переводить с языка Data Science-специалистов на тот, что понятен бизнесу.

Обязательно ли профильное образование?

Важно хорошо знать математику, и высшее техническое образование – большой плюс. Большинство дата-сайентистов в ЕРАМ по образованию математики, программисты или физики. Но это не жесткое требование – в компании есть сотрудник-лингвист, а недавно взяли и социолога, который после окончания университета обрабатывал результаты социологических исследований, создавал модели, занимался прогнозированием и анализом социальных графов. Такой опыт – релевантный для работы в Data Science, поэтому кандидат был интересен.

В общем, нельзя сказать, что человек с техническим образованием подойдет, а с гуманитарным – нет. Всё зависит от навыков и опыта. Например, компьютерный лингвист, который научился писать код, – более интересный кандидат, чем Big Data-инженер, который работал с MapReduce и Hadoop, но не разбирается в алгоритмах. Или чем обладатель научной степени по статистике без опыта работы.

Что ценится в резюме

Больше всего ценится опыт работы. Если вы уже работали в Data Science, подробно напишите, что делали, какие алгоритмы использовали и какие навыки у вас есть. Если у вас нет опыта работы, большим плюсом в резюме станет:

• Краткий рассказ о пет-проектах. Важно, чтобы кандидат не только знал теорию, но и успел попрактиковаться.

• Участие в хакатонах. Это говорит как минимум о том, что вы работали в команде и, скорее всего, создали работающее решение в ограниченный срок.

• Участие в соревнованиях по машинному обучению (например, Kaggle). Если кандидат участвовал или даже побеждал в соревнованиях по машинному обучению, вероятно, он сможет быстрее и качественнее решать задачи на проектах. Но построение самих моделей – только малая часть работы дата-сайентиста. Нужно уметь общаться с заказчиком, диагностировать проблемы, выбирать метрики, доводить модели до продакшена. На соревновании такой опыт получить невозможно.

Что спрашивают на собеседовании

Цель собеседования по Data Science, как и везде, – понять, насколько хорошо человек разбирается в своей предметной области. Сначала интервьюер задает вопросы по основам машинного обучения и статистики. По ответам можно понять глубину и ширину базовых знаний кандидата. После этого спрашивают что-нибудь специфическое, например, об обработке естественного языка, работе с временными рядами или рекомендательными системами. Если кандидат говорит, что умеет работать с графами, изображениями или другими данными, его глубже расспросят и об этом.

Универсальные солдаты встречаются крайне редко, и вопросы на собеседовании зависят от опыта кандидатов. Обычно спрашивают о прошлых проектах, о том, какие технологии они использовали и почему. После этого могут попросить порассуждать. И конечно зададут несколько теоретических вопросов.

Вот что могут спросить на собеседовании:

• Нейросети

— Какие методы предотвращения переобучения (регуляризации) для нейронных сетей вы знаете? Как они работают? Куда вставлять batch normalization?

— Чем отличается нейронная сеть с одним выходом и сигмоидальной функции активации и такая же нейронная сеть, но с двумя выходами и softmax?

— Представим, что у нас есть многослойная полносвязанная сеть с нелинейной функцией активации. Что будет с нейронной сетью, если мы уберём нелинейность?

— Для чего используют global pooling?

• Распознавание изображений

— Как оценивают качество в задачах object detection?— Чем отличается instance от semantic segmentation ?
— Как и зачем использовать transfer learning?

• Временные ряды

— Как правильно тестировать качество моделей в работе с временными рядами?
— Что мы должны делать с сезонностью в данных?
— Как искать аномалии во временных рядах?

• Обработка естественного языка

— Что лежит в основе моделирования тематик? Как работает этот алгоритм? Как вы выберете число тематик, которые будут обучаться этим алгоритмом?

— У вас есть текст отзывов и рейтинг, пользователи используют 5-балльную шкалу. Как бы вы построили систему, которая сможет предсказывать оценку по тексту отзыва? Как оценивать качество этой системы?

В ходе рассуждений интервьюеры задают много уточняющих вопросов и пытаются поместить кандидата в «боевые условия». Например, кандидат предлагает решение, а интервьюер добавляет новые условия к задаче.

«Что вы будете делать, если дата-сет несбалансированный?»
«Как вы будете решать проблему, если есть пропуски в данных?»
«Как поступите, если будут выбросы в данных?»

Еще могут спросить, как кандидат организует свое рабочее время, как логирует эксперименты, следит ли за их воспроизводимостью, как обрабатывает большие объемы данных и строит пайплайны обработки данных.

Типичные ошибки на собеседованиях

• Кандидат не понимает, как работают алгоритмы, которые он использовал

Интервьюеры всегда спрашивают об алгоритмах, которые использовали кандидаты: какие параметры в них есть, как их настроить. Если ответа нет, или кандидат отвечает, что настроил алгоритм «по наитию» – это плохо. Если вы берете алгоритм, стоит потратить время, чтобы понять, как его настроить.

• Кандидат не понимает, как применять свои знания в «боевых условиях»

Бывает так: человек хорошо знает теорию, но не представляет, как справляться с проблемами на проектах. Важно не только уметь находить инсайты в данных, делать фича-инжинеринг, строить модели, но и понимать, как поместить все это в продакшен или сделать решение, которое будет работать быстрее.

• Кандидат не может рассуждать самостоятельно

Если человек слишком часто отвечает на вопрос: «Я погуглю» – это нехороший знак. Конечно, дата-сайентисты гуглят, но уметь рассуждать самостоятельно тоже важно: иногда встречаются проблемы, для которых нет готового решения, и нужно придумать что-то свое.

• Кандидат выдумывает, как работает система

Иногда люди не знают, как работает та или иная система, и начинают придумывать, надеясь угадать верный ответ. Так делать не стоит. Лучше честно сказать: «Я не знаю», тогда останется больше времени на другие вопросы. Вероятность, что вас спросят о том, в чем разбираетесь, вырастет.

Что читать и смотреть

Всем, кто хочет заниматься Data Science, советуем обратить внимание на эти источники:

• Курс «Программирование на Python» на Stepik;
• Курс «Введение в машинное обучение» на Coursera;
• Курс «Машинное обучение и анализ данных» на Coursera;
• Курс «Машинное обучение» Константина Воронцова;
• Курсы по deep learning на Coursera;
• Курс «Нейронные сети» на Stepik;
• Книгу Deep Learning Book;
• «Глубокое обучение: погружение в мир нейронных сетей» – книгу о глубоком обучении на русском языке;
• Книгу по NLP Speech and Language Processing;
• Книгу по информационному поиску и NLP «Introduction to Information Retrieval»;
• Статьи на opendatascience;
• Курс «Алгоритмы и структуры данных» Максима Бабенко.

Ещё по теме

Карьера

Быть в офисе или не быть? Как на нас влияет пространство для работы

19.06.2023

Карьера

Как сделать презентацию: простые дизайнерские трюки

07.10.2021

Карьера

Здоровье карьеры: что это и как за ним следить

01.09.2021

Карьера

Пять приёмов для успешного собеседования

21.06.2021

Карьера

Как продвигать свои идеи: принцип пирамиды Минто

26.05.2021

Карьера

50 вопросов потенциальному IT-работодателю

22.04.2021

Карьера

Что нужно знать и уметь, чтобы попасть на стажировку в IT-компанию

15.04.2021

Карьера

Как получить повышение в IT: 20 вредных советов

01.04.2021

Карьера

7 причин отказа после собеседования в IT-компанию

02.02.2021

Карьера

7 способов поддерживать мотивацию других людей

13.01.2021

Карьера

10 частых ошибок начинающего технического интервьюера

04.12.2020

Карьера

Как быть тимлидом и продолжать программировать

30.10.2020

Карьера

Начинающим тимлидам: как проводить 1-1 с сотрудниками

18.09.2020

Карьера

Пять причин стать ментором

10.09.2020

Карьера

Продакт-менеджер – кто это

18.08.2020

Карьера

Что такое UX на самом деле

03.07.2020

Карьера

Я бросил свой бизнес и стал разработчиком в 43 года

19.06.2020

Карьера

Виды собеседований в IT-компаниях: к чему готовиться

25.05.2020

Карьера

Как строить карьеру: условия и варианты роста в компании

30.04.2020

Карьера

Как строить карьеру: анализ своих потребностей

29.04.2020

Карьера

Семь советов начинающему тимлиду

13.03.2020

Карьера

Кто такие технические писатели и зачем они нужны IT-компании

28.02.2020

Карьера

Я переехал в Малагу и пока не жалею об этом

24.01.2020

Карьера

5 причин подумать о смене работы

05.11.2019

Карьера

Как провести техническое интервью: план действий для начинающих

18.09.2019

Карьера

Из переводчика – в специалиста техподдержки

10.09.2019

Карьера

Переезд по Agile: как я год жила в Канаде

05.09.2019

Карьера

Из медицинской психологии во Frontend-разработку

23.08.2019

Карьера

Туда и обратно: как я полгода работал в Гданьске

15.08.2019

Карьера

Зачем нужен бизнес-анализ и кто такие бизнес-аналитики

24.07.2019

Карьера

Личный опыт: как я два раза менял IT-специализацию

17.07.2019

Карьера

Из системного администратора – в DevOps-инженера

19.06.2019

Карьера

Зачем IT-специалисту жить и работать в Рязани

11.06.2019

Карьера

Зачем нужен DevOps и кто такие DevOps-инженеры

13.05.2019

Карьера

Всё, что вы хотели знать о личном плане развития

18.04.2019

Карьера

Жизнь в IT-столице Китая

16.04.2019

Карьера

Из юриспруденции в Big Data-разработку

02.04.2019

Карьера

Как искать работу в Германии

13.03.2019

Карьера

Собеседование с рекрутером: чего от вас ждут

21.02.2019

Карьера

Из культурологии в IT: как гуманитарий переучился на тестировщика

06.02.2019

Карьера

Я работаю 2D-художником в игровой компании

31.01.2019

Карьера

Биоинформатика: что это за наука и зачем она нужна?

29.01.2019

Карьера

Как я стал синьором в 23 года

26.12.2018

Карьера

13 частых ошибок на техническом интервью

04.12.2018

Карьера

Разработчица из Петербурга – о релокации в Нью-Йорк

23.11.2018

Карьера

Из медицины в IT: как врач стал программистом

21.11.2018

Карьера

Стать дизайнером без профильного образования: пошаговая инструкция

12.11.2018

Карьера

Как я ушел из стартапа в большую компанию

08.11.2018

Карьера

Работа с поколением Z: основные особенности

03.10.2018

Карьера

Путь тестировщика: с чего начать изучение автоматизации

22.09.2018

Карьера

Как просить повышения зарплаты

23.08.2018

Карьера

Что написать в резюме, если нет опыта работы

08.08.2018

Карьера

Как понять, что вам стоит идти в менеджеры

18.07.2018

Карьера

Личный опыт: из тестировщика в .NET-разработчики

18.06.2018

Карьера

Основные типы IT-компаний

28.05.2018

Карьера

Как программист из Подмосковья понял, что не все дороги ведут в Москву

24.04.2018

Все статьи рубрики «Карьера»

Что нужно уметь

Обязательно ли профильное образование?

Что ценится в резюме

Что спрашивают на собеседовании

13 частых ошибок на техническом интервью

Типичные ошибки на собеседованиях

Что читать и смотреть

Комментарии

Предложить тему

Напишите нам

Рассылка