Junior Data Scientist | Собеседование

Junior Data Scientist | Собеседование | karpov.courses

Рет қаралды 170,157

Күн бұрын

Курс Start ML: bit.ly/3SdB7Am
Лучший способ подготовиться к собеседованию - пройти его в тестовом режиме.
Мы записали mock-интервью, которое состоит из 4-х секций: Python, ML, работа с данными и А/В Тесты. В независимости от уровня соискателя есть пул обязательных вопросов на знание основ Data Science и пул дополнительных вопросов в зависимости от уровня подготовки и опыта кандидата.
Именно эти секции позволяют оценить широту знаний собеседуемого. Вопросы дают понять, умеет ли он составлять запросы к БД, писать код, строить модели и проверять их работу с помощью А/В-тестов. Все эти знания достаточно быстро проверяются на mock-собеседовании.
Нашего гостя будет собеседовать преподаватель программы Hard ML Станислав Гафаров. Включайте, чтобы узнать, какие вопросы могут встретиться в интервью на позицию junior DS!
Учитесь Data Science с нами: karpov.courses/
0:00 Введение.
0:50 О структуре и секциях, которые входят в интервью.
Секция «Python»
2:30 Вопрос на изменяемые и неизменяемые типы данных
6:21 Задача на dict и ответ Дмитрия
8:15 Объяснение первой задачи
10:38 Задача, цель которой - сделать, чтобы дикты были разные, ответ Дмитрия
13:51 Разбор второй задачи
16:10 Вопрос о выделении и очистке памяти в Python, ответ Дмитрия
16:26 Разбор вопроса
19:00 Вопрос о генераторах, декораторах и итераторах
Секция «A/B-тесты»
20:35 Вопрос о моделировании A/B теста
30:57 Вопрос о генерации распределений
31:22 Подводка к критерию стьюдента и вопрос про ограничения его применения
32:26 О необходимости нормальности распределения
33:46 Тесты для проверки на нормальность
34:24 Как сравнить ненормальные распределения
35:02 Подводка к вопросу о нормальности распределения средних при бутстрапе
36:04 Как быть, если нет старых пользователей, и нужно провести тест только на новых
37:53 Какие еще бывают вопросы и общие рассуждения
41:19 Интерпретация Bootstrap
Секция «Работа с данными»
42:04 Вопрос про разницу Where и Having
44:20 вопрос про виды join и задания на join
45:57 подводка к задаче про group by в Python
47:49 Задача на group by в Python
Секция «ML алгоритмы»
1:06:22 Задача о линейных регрессиях
1:09:47 Вопрос о градиентном спуске
1:14:06 Вопрос о переобучении
1:22:20 Вопрос о деревьях и их построении
1:26:04 Вопрос: почему случайный лес работает хорошо и не переобучается?
1:28:20 Последний вопрос со звездочкой: в каких случаях логистическая регрессия на задачах классификации будет работать лучше, чем случайный лес
1:32:18 Конец, обратная связь

Пікірлер: 237

@stasgafarov 2 жыл бұрын

Друзья всем привет, хотелось бы еще раз поблагодарить Дмитрия за участие, это очень хороший опыт. В некоторых ответах есть неточности и ошибки, спишите это нам на то, что мы проводили собес поздно вечером после тяжелого рабочего дня, поэтому немного заговаривались. В следующий раз я постараюсь сделать чуть более структурированные вопросы и дать ответы на них. Не стоит рассматривать этот вариант собеседования как "единственный правильный", а лучше смотрите на это как на один из множества различных. Будьте внимательны у вас могут спросить очень много различных других тем на той или иной секции. Удачи!

@JOHNucsmCENA 2 жыл бұрын

Привет! Спасибо большое за видео. А можно попросить расшарить видео по деревьям и градиент бустингу которое упоминалось в конце видел?

@user-dm9hc1nk3b 2 жыл бұрын

Спасибо за видео, нужно больше такого качественного контента! Не смог найти запись с Игорем про бустинги :(. Было бы здорово прикрепить ссылку под видео.

@stasgafarov 2 жыл бұрын

Вот лекция Игоря про бустинги kzbin.info/www/bejne/rZ-3naaOlrudY9U

@Extremesarova 2 жыл бұрын

По поводу очистки памяти мне кажется, что немного напутали. В Python отдельно есть счетчик ссылок и сборщик мусора. То, что вы описали больше похоже на счетчик ссылок, а вот сборщик мусора (garbage collector) позволяет отслеживать ситуации с кольцевыми зависимостями - он отслеживает объекты-контейнеры, которые содержат в себе ссылки на другие объекты и смотрит доступны ли они или нет, если нет, то удаляет и работает он не постоянно - использует определенные эвристики, чтобы определить, когда нужно запуститься.

@stasgafarov 2 жыл бұрын

@@Extremesarova так и есть, я ниже в комментариях ответил про ref counting gc и ggc. В целом для джуна достаточным было бы понимание про подсчет ссылок, что есть "нечто" которое работает с ссылками друг на друга, или кольцевыми зависимостями, такой ответ бы принял, частности зачастую спрашивают на уровне выше. Там же и вопросы про GIL

@user-sg4kc5cx5v 2 жыл бұрын

Благодарю за это видео! Помогло определить собственные слабые стороны...Надеюсь будут еще в ближайшем будущем!😁

@sergeybobkov9354 2 жыл бұрын

Супер полезный ролик, дает очень четкие представления о том, как выстраивать план обучения

@user-qo7yu5qk1u 2 жыл бұрын

Спасибо за видео и примерное понимание вопросов! Поняла, что с блоком питона у меня полный замес. Интересно, что АБ руками не трогала, но знания с курса маркетинга вспыли внезапным образом и оказывается все не так плохо ) Подход Станислава - лучшее, что может случиться на первом собеседовании. Скорее всего в реальности все будет не столь бережно и дружелюбно, но жить стало лучше, жить стало веселее :)

@aleksgor1408 2 жыл бұрын

Крутой собес. Только из за Дмитрия и посмотрел. Т к вместе в Хакатоне участвовали в одной команде. Дима хорошо практически подкован. И молодец, что прокачивает себя в собесах, думаю успех неизбежен в скором времени. Я думаю junior на то и junior, что есть где то пробелы. Невозможно все запомнить, как меня поддержали и сказали на одном собесе. Переодически что то забывается из за большого пласта ds, особенно когда активно много учишь. Я бы на такой собес не решился бы на Ютуб ).

@user-dm3nb3im2o 2 жыл бұрын

В любом случае делайте пожалуйста почаще такие собеседования. Пусть розовые очки трещат. Зато хоть что то рядом приближенное к реальности.

@alexeykazakov3694 2 жыл бұрын

Супер! Хочу еще видосов типа такого)

@user-wz9qg1xp8m 2 жыл бұрын

Спасибо. Было реально полезно

@nuri3029 Жыл бұрын

Подушню: set изменяемый тип. Послышалось на 6 минуте, что его отнесли к неизменяемым. Спасибо! Очень полезно!

@alevadnaya 2 жыл бұрын

Спасибо, очень интересно

@user-uw2qx5yk5k 2 жыл бұрын

Крутое видео! Можно ли ссылку на хвалёное выступление про решающие деревья?

@user-rb4fs8ut5l 2 жыл бұрын

Очень интересно, если посмотреть такое же интервью с middle и senior уровнями.

@vadimvadim1662 2 жыл бұрын

такие уже есть на канале Fless

@stasgafarov 2 жыл бұрын

Возможно в ближайшее время сделаем с Middle уровнем парнем. Будет жесткий собес

@vadimvadim1662 2 жыл бұрын

@@stasgafarov собесы с джунами веселее смотреть, да и количество потенциальных джунов явно больше нежели мидлов

@user-rb4fs8ut5l 2 жыл бұрын

@@stasgafarov это заслуживает лайк!!!)

@user-ef4oc3vc6r Жыл бұрын

Спасибо за видео, очень полезно.

@user-sy5rz5bv6l 2 жыл бұрын

Спасибо большое за интервью. Имею сопоставимый уровень с собеседкемым и просмотр был очень полезен. Не совсем понятно, что значит "data scientist". Будет очень приятно видеть аналогичные интервью , но для junior/intern ml engineer.

@mwave3388 Жыл бұрын

Спасибо за видео, очень полезно. Кандидат ещё слабо готов, нужно заниматься. Но вот по поводу отклика, не понятно. Нужно знать декораторы, итераторы, все метрики, все cross-val стратегии, все функции потерь, уметь делать GD, SGD, бутстрепинг вручную, знать оконные функции в SQL, всю статистику... дальше можно не продолжать. При том что в видео с Валерой Бабушкиным Лид Сеньоры не могут рассказать какие фичи будут полезные для предсказания рекламы. Покажите мне хотя бы одно интервью с человеком, которого всё это спросили и который ВСЁ это знает. Единороги только в сказке живут.

@ilnurismagilov6340 Жыл бұрын

Согласен, странный подход. Хорошо бы приоритезировать подготовку к собеседованию. Силу фич, так сказать, указать. Где фичи - навыки программиста, а сила - повышение шанса получить работу

@bbudikkb3244 Жыл бұрын

Так о чём речь? У джуна нет опыта. Значит должны быть знания)))

@ivanshelonik3979 2 жыл бұрын

Cross Validation is usually a very good way to measure an accurate performance. While it does not prevent your model to overfit, it still measures a true performance estimate.

@Ybuotue 2 жыл бұрын

Очень круто, спасибо за Джуна.

@user-ti7cn2fu6u 2 жыл бұрын

Мне хочется сказать. Мои отношения с питоном я бы оценил как «примерно такие же как с русским языком», т.е. я довольно сносно могу на нем разговаривать, писать тексты и пользоваться его гибкостью, при этом если попросить меня сейчас сделать коротенький доклад на тему родного языка или поспрашать, в формате этого интервью, я практически ничего не смогу рассказать…, я не знаю (уже не помню) что такое причастие, деепричастные обороты, подлежащее и сказуемое (при желании смогу быстро восстановить эти знания)…. Примерно такая же история и с питоном…, я не испытываю сложностей с написанием кода и реализацией задач/решений (+ достаточное количество источников, в которых всегда можно что-то уточнить и допонять), при этом часто отдаю себе отчет что гибкость питона позволяет сделать мой код «более оптимальным». Есть опыт, но нет академических знаний и я работаю над этим. Все мои знания получены из онлайн источников и литературы…. и ничего страшного в этом, нет до тех пор пока ты не столкнешься с необходимостью разговаривать на эти темы, вот тут начинается весело!!!...., получив вопрос/задачу, понимая что ты имеешь необходимые знания для ответа или решения, нередко бывает так, что начинаешь нести какую-то лютую дичь и когда несешь ее даже отдаешь себе в этом отчет, при том что я, например, имею хороший опыт публичных выступлений и у меня нет страха на эту тему…. Я вижу проблему в бедности профильного разговорного опыта, я очень мало разговаривал на эти темы живым языком с живым собеседником (речь даже не про интервью), я/мы_такие_же даже создали чат в telegram, где регулярно устраиваем друг другу собесы (джун джуну), перерастающие в обсуждения…ой, я даже скажу: команда из этого чата поучаствовала в одном из хакатонов и попала в ТОП-10, это опять/еще_раз был опыт общения, работы над задачей и питчем, в том числе. К сожалению нигде (я не встречал) не освещается вопрос психологии интервью, это важно для всех особенно для джуна (совет типа «главное не волнуйся» - почему-то не работают).

@user-ti7cn2fu6u 2 жыл бұрын

Перед тем как согласится/податься на это интервью я просмотрел несколько подобных…. И конечно же (видимо как многие) я сидел с чашкой чая, глядя в монитор рассуждал о том что, уж если «такие», с «такими» знаниями выходят на рынок, то меня будут просто с руками отрывать, как только я резюме выложу…, в режиме просмотра подобного интервью, ты конечно же пропускаешь через себя все вопросы, которые задают интервьюируемому, конечно имеешь на них ответы и удивляешься тому, как таких простых вещей можно не знать, плавать в них и вообще на что-то претендовать в этой индустрии…. «Диванным генералам» я желаю иметь силы подписаться на что-то подобное! Кроме того нужно понимать что в жизни все гораздо жестче и то, что вы видите сейчас на видео все-таки некий продукт, приближенный к реальности. После интервью меня колотило как «в холодную ночевку на четырех тысячах», утром я проснулся другим человеком и написал Стасу: «Стас, жизнь разделилась на "до и после"...Спасибо огромное !!!». Мне есть чем заняться. Спасибо КС, спасибо Стас!!!

@ShouseD 2 жыл бұрын

а можно в вашу группу джунов вступить?

@nikita9311 Жыл бұрын

Как попасть в чат?

@li.nikolas 11 ай бұрын

Как успехи в специальности ? Работаете ? подтянули темы ?

@alexandreabramtsev9160 2 жыл бұрын

15:45 есть еще 1 споcоб. Пропустить через конструктор - те написать b = dict(a)

@Extremesarova 2 жыл бұрын

Было бы идеально, если бы была разметка по темам и вопросам с таймкодами :)

@karpovcourses 2 жыл бұрын

Уже работаем над тем, чтобы это было в каждом видео :) Сейчас хотели быстрее выложить.

@nuri3029 Жыл бұрын

Было очень круто!! Спасибо

@amirnurken5747 9 ай бұрын

Подскажите пожалуйста, полноценная ли оценка возможностей в таком формате, если к примеру претендующий на должность - не обладает теоретическими знаниями, но на практике, способен справиться с любой задачей уровня junior? Заранее спасибо!

@QScientist 9 ай бұрын

в начале на 16й минуте можно было еще сделать передачу в функцию двух словарей, и в функции написать b['z']=99 и например генератором или map ом копирнуть до вызова самой функции

@zokirzokir3201 Жыл бұрын

Отличный формат. Пора мне уже написать нормальное резюме, чтобы меня пригласили на собес, потому что в этом интервью для меня всё очень просто 😅

@user-lh8mn4qj4p 9 ай бұрын

Ну и как успехи? Нашёл работу? Или хотя бы резюме то написал?)

@zokirzokir3201 9 ай бұрын

@@user-lh8mn4qj4p не, трусы шью)

@artemqqq7153 2 жыл бұрын

В первый раз услышал про A/B тесты)

@lfc9671 2 жыл бұрын

Здравствуйте. Спасибо! В принципе, я понял как демонтировать подлокотник с Мазды 6 GH

@Igor-sp7tw 2 жыл бұрын

Стас ты говорил про выступление Игоря Котенкова 1:38:12 а можешь ссылку дать

@guru_Fuff 2 жыл бұрын

Дмитрий молодец

@ilyachepelov1744 2 жыл бұрын

За видео Спасибо! Полезное для себя нашёл. Так проводит собеседование на позицию Junior DS лично Станислав, или так проходит среднее собеседование в большинстве компаний? Неужели алгоритмическая история яндекса про "напиши с 0 существующую функцию" (groupby) важнее, чем проверка умения пользоваться тем же "groupby", "pivot_table", "merge"? Год работаю 90% времени с SQL - оконные функции понадобились 1 раз. Вопросы по ML хорошие.

@stasgafarov 2 жыл бұрын

Скорее стоит воспринимать как провожу собеседования я. Честно говоря из опыта оконными функциями я пользуюсь очень часто особенно когда создаем train датасет с данными по сигналу за какой-то временной период

@bogdanns2 2 жыл бұрын

@@stasgafarov а я привык по максимуму все делать в пандасе) Да, это не очень оптимально с точки зрения ресурсов при обработке данных, особенно если обработка идёт в пандасе на локальной машине (в отличие от сервера БД), но лично мне проще, поэтому и sql меня храмает) Занимался прогнозами продаж, огромное количество признаков делал в пандасе, недоумеваю, как их в скуле можно делать. Ну а тоже скользящее среднее или лаги реализованы в готовые функции. А так спасибо за интервью, почерпнул немало ньюансов

@danilmrt2633 2 жыл бұрын

Большое спасибо за видео! Про какую лекцию Игоря о Random Forest в конце идет речь?

@maximstuff4417 Жыл бұрын

Добрый день, не нашли?

@user-bw5in2yo7s 2 жыл бұрын

Крутой контент. Даже не в плане вопросов, а просто атмосферы. А что, можно говорить про ML без линейной алгебры? Я не докапываюсь, просто недопонял.

@ntiltt 2 жыл бұрын

А можно пожалуйста ссылку на видео про мл, про которую говориться в обратной связи?

@VadimChes 2 жыл бұрын

kzbin.info/www/bejne/rZ-3naaOlrudY9U

@user-dp3hj4df6j Жыл бұрын

А что за статьи от exbf, про ненормальность

@dmitriy7474 2 жыл бұрын

Я из всех слов только стринги знаю

@dimapugach5586 2 жыл бұрын

Добрый день, спасибо за интересное собеседование. После просмотра остался вопрос о приоритетах разных этапов собеседования. Можно ли за счет хорошо отвеченного например python чуть хуже ответить на работу с данными и получить место?

@VadimChes 2 жыл бұрын

нет нельзя ) очевидно, что тогда бы остальное не спрашивали. Если вы знаете питон и не знаете ML, то ищите работу программиста на питоне, а не аналитика в ML

@gbrs72 Жыл бұрын

44:25 смотря что значит пересечение, разве в иннерджойне не может быть до 625 элементов?

@user-dj6cu6ti4s 2 жыл бұрын

Спасибо .

@ifrenzyk 2 жыл бұрын

Дайте пожалуйста ссылку на видео Игоря о котором говорилось в конце

@stasgafarov 2 жыл бұрын

если про бустинги то в комментариях выше ответил. Если про не градиентные методы оптимизации то можно попробовать найти на канале в видео

@ivanshvedov1823 Жыл бұрын

Во второй задаче можно было пересоздать словарь b = dict(a) без for key value

@elenagavrilova3109 3 ай бұрын

Сорри как можно в DS не пользоваться set? Интервью классное, полезное! Спасибо!

@JohnSmith-fi7ir Жыл бұрын

А как там что побутстрэпить что бы сгенерировать там отклонения или что-то?)) Бутстрэпинг это легально?

@savelygornov1060 2 жыл бұрын

Круто, но хотелось бы увидеть полноценную часть по питону

@user-sy5rz5bv6l 2 жыл бұрын

@old_bedouin 2 жыл бұрын

Камон, мы не можем использовать t test на бутсрапированных данных из за нарушения правила независимости

@han-stroy 2 жыл бұрын

Вообще дядька молодец. Но я был не много разочарован тем, что сам интервьюер не дал четкого понятия, почему лес работает лучше деревьев. Ответ то прост, отдельное дерево значительно переобучается, то есть дисперсия большая, смещения нет. А лес из множества независимых деревьев, сохраняет отсутствие смещения плюс еще и уменьшает дисперсию (по-моему на корень из N- независимых деревьев, а для этого уже применяется бэггинг). В итоге получаем модель без смещение и с маленькой дисперсией - профит.

@noname-bi7ve 2 жыл бұрын

ответ прост, но он у вас неправильный

@han-stroy 2 жыл бұрын

@@noname-bi7ve Аргументированно!

@Extremesarova 2 жыл бұрын

@@han-stroy у вас все +- верно, если вы говорите про глубокие деревья. - У одного неглубокого дерева небольшая дисперсия и большое смещение (в среднем предсказывает не очень точно, зато стабильно - улавливает только высокоуровневые паттерны). - У одного глубокого дерева большая дисперсия и небольшое смещение (точно предсказывает на тренировочной выборке, но результат меняется от выборки к выборке - переобучается). В случайном лесе, по идее, стоит использовать глубокие деревья - за счет этого будем достигать небольшого смещения (высокой точности), а большУю дисперсию будем уменьшать засчет бэггинга (метод случайных подпространств поможет сделать базовые модели (деревья) менее скоррелированными между собой). Поэтому случайный лес и лучше отдельного дерева - позволяет уменьшить обе компоненты ошибки в bias-variance decomposition.

@han-stroy 2 жыл бұрын

@@Extremesarova Все правильно. Суть леса - сократить дисперсию за счет использования независимых деревьев (конечно грубоких/переобученных) Чем больше независимых деревьев будет, тем больше будет сокращена дисперсия. Не помню сейчас, дисперсия сокращается либо на корень из N независимых деревьев, либо на N деревьев.

@sergeyvladimirovich4560 2 жыл бұрын

В конце упоминаете выступления по деревьям, кажется Игоря Котякова???), скиньте, пожалуйста, ссылку на это видео

@stasgafarov 2 жыл бұрын

в комментариях выше кинули ссылку

@user-mq7xq1hi2q 2 жыл бұрын

Кстати, где можно найти видео с выступлением Игоря Котенкова про особенности бустингов? Нигде на KZbin не нашёл

@stasgafarov 2 жыл бұрын

выше и Игорь и я в комментах дал ответ

@user-mq7xq1hi2q 2 жыл бұрын

Стас Гафаров Спасибо!

@vinylrave2185 2 жыл бұрын

у меня как-то на собесе на джуна нужно было ml в прод запустить

@maximstuff4417 Жыл бұрын

О какой лекции Игоря Котикова идет речь?

@HOOKAH10 2 жыл бұрын

Того кого собеседовали окончил Каарпов курс ?

@user-qy9vt5hl3d 2 жыл бұрын

Видео крутое, спасибо, но вопрос: заплатить достаточно денег за курс и не знать, что такое валидация - это нормально?)

@stasgafarov 2 жыл бұрын

Вообще вопрос с валидацией и построением грамотной валидации для проверки вашей модели чуть больше чем сложный. Думаю если вы учавствовали хоть раз в соревнованиях по маш обучению на кегле или хоть раз делали хорошую модель обладающую высокой обобщающей способностью вы были бы чуть более сдержанным. Чтобы не быть голословным и привести пример, лучше всего посмотреть Mercedes-Benz Greener Manufacturing Kaggle Competition и конкретно разбор Даниила Савенкова

@user-bj3sd5xe6v Жыл бұрын

6:01 set - mutable, frozen set immutable

@alex.wizard Жыл бұрын

Ребят. Просьба перед выкладыванием видео - усиливать звук.

@philipschmdt 2 жыл бұрын

Всем привет! Кто-нибудь, поделитесь, пожалуйста, записью выступления Котенкова, про которое рассказывает Стас

@falsenegative 2 жыл бұрын

тоже не нашел

@VadimChes 2 жыл бұрын

kzbin.info/www/bejne/rZ-3naaOlrudY9U не благодарите )

@egor3974 2 жыл бұрын

А может кто-то помочь с линкой, которую предлагали в конце видео про деревья? А то чего-то повылазило(

@stasgafarov 2 жыл бұрын

ответил в комментариях выше

@user-ls1qz9mk7x 2 жыл бұрын

Станиславу бы еще филмьыозвучивать, тембр голоса киношный.

@petyap7600 2 жыл бұрын

На последний вопрос ответы не осознал. Нужна помощь. "В каких случаях логрег лучше случайного леса?" - когда есть несколько хороших признаков и много шумных? "Почему" - берутся подвыборки признаков, тем самым размывается влияние сильных признаков и в среднем каждое дерево предсказывает значение хуже случайности? Честно говоря, всегда думал, что в лесах минус только в скорости.

@user-pj1qb7lq5i 2 жыл бұрын

Насколько я понял, если у тебя очень много шума в твоих данных, то какое-то дерево из твоего случайного леса может взять себе в качестве подмножества ТОЛЬКО шум. Как следствие результат его обучения будет даже хуже 0.5, то есть хуже подбрасывания монетки. Если шума действительно много, то несколько деревьев могут так обучиться и давать очень плохие результаты. А случайный лес эффективен только тогда, когда большая часть деревьев даёт результат больше 0.5. Регрессивный метод просто отсекает лишний шум и работает с настоящими данными, поэтому в таком случае он куда эффективнее.

@kislovdmitry4981 2 жыл бұрын

При рассказе интервьювером о gc есть ощущение смешения rcgc (ref counting gc) и ggc (generational gc); gc.collect это про ggc...

@stasgafarov 2 жыл бұрын

да, я несколько упростил, и не расскаазывал про особенности работ rcgc и ggc, в целом эти частности хорошо знать на уровне Middle+/Senior DS (но для разраба это точно стоит знать), и оч хорошо когда человек сталкивался с проблемами в живую

@user-ry5jg8gr6u Жыл бұрын

Странно немного что небыло вопросов про препроцессинг. А так в целом оч даже.

@user-ob5lo3sw8p 2 жыл бұрын

Очень хочется узнать, всегда нужно вот именно так, в диалоге с интервьюером, писать код или можно сказать: "дайте несколько минут подумать и помолчите пожалуйста"? ))

@karpovcourses 2 жыл бұрын

Будет абсолютно нормально, если вы попросите пару минут в тишине!

@romanbush5164 Жыл бұрын

Похоже мужик больше математик - профессор чем програмист 👍, 2 часть обсолютно не понял, где это изучить. Даже я такие тонкости питона не знал).

@nataliamarkova4506 2 жыл бұрын

Мне как-то один лид сказал, что написать градиентный спуск - это прям базовый уровень. Станислав, что думаете об этом? Тут человека не стали спрашивать, получается, это уже на джун +?

@user-mq7xq1hi2q 2 жыл бұрын

Я конечно не Стас, но по-хорошему никто не делит джунов на «джун» и «джун+». По факту понимание градиентного спуска необходимо для работы с нейронными сетями (даже с самыми простыми), поэтому это однозначно вопрос начального уровня. Ничего подвинутого в вопросе про градиентный спуск нет.

@stasgafarov 2 жыл бұрын

Честно говоря мой ответ будет следующим: В случае когда человек не может ответить какие-то простые вещи например линейную регрессию, и как именно линейная регрессия с помощью градиентного спуска обновляет коэфициенты при признаках, могут попросить написать градиентный спуск, чтобы удостовериться что человек действительно понимает что происходит.

@herenickname Жыл бұрын

Больше авторов пытался вктатиться в вопрос с group by)

@teamsonbut5632 7 ай бұрын

Машинное обучение с большими данными это всего лишь одно из направлений науки о данных. На самом деле в этой области кит утонет)). А человек и подавно. Просто кто-то хорошо разбирается в алгоритмах, кто-то в данных и их конфигурациях, кто-то умеет быстро печатать текст, а кто-то знает кучу формул и умеет их применять. Почему открылось такое направление в науке? Да потому что каждый способный человек в вычислительном деле может предложить что-то уникальное, но вот это уникальное не каждая машина способна обработать и вот для этого была основана такая наука - чтобы идеи переводить в реализацию. К сожалению в этом направлении произошли все прорывы, которые возможны на нашем уровне конфигураций самого "железа". Так что будем ждать чего-то прорывного, которое сможет дать пищу для мозгов одарённых людей!)

@kimfilbi8522 3 ай бұрын

Подскажите, о каком именно выступлении Игоря Котенкова шла речь?

@karpovcourses 3 ай бұрын

В комментариях подсказывают, что об этом: kzbin.info/www/bejne/rZ-3naaOlrudY9Ufeature=shared

@kimfilbi8522 3 ай бұрын

@@karpovcourses спасибо большое

@ShouseD 2 жыл бұрын

48:37 "нет это сложно, давай еще раз!" Я б на его месте начал мычать че-нить нечленораздельное)

@stalkermustang 2 жыл бұрын

Видел, в комментах спрашивали про видео "Игоря Котенкова про бустинг и деревья". Вот это видео, kzbin.info/www/bejne/rZ-3naaOlrudY9U . Правда я не согласен со Стасом, что там говорится про подбор гиперпараметров - так, очень верхнеуровнево, потому что это не было целью лекции.

@stasgafarov 2 жыл бұрын

Ой ладно тебе, ты отлично про гиперпараметры рассказал, остальное можно спокойно нагуглить, руководств чуть больше чем дофига.

@user-mq7xq1hi2q 2 жыл бұрын

Спасибо

@antonkurtis7698 2 жыл бұрын

Почему не во всех компаниях такой тех собес? Ответил на 90% вопросов\заданий из видео, но в реальной жизни на работу так и не устроился. Вопрос еще Интервьюеру : смотрят ли на возраст потенциальных работников? Поздно ли джуном идти в 37 лет?

@stasgafarov 2 жыл бұрын

Готов ли ты попробовать на камеру ответить на вопросы, при условии что они могут быть другими, но тоже уровня Junior? Отвечая на вопрос, да говорят порой смотрят, но я честно говоря ниразу не сталкивался с этим в живую. Как мне кажется, нет не поздно, но лучше всего попробовать получить какой-то реаьлный опыт и иметь портволию за счет pet-проектов. В ODS есть отдельно чатик pet-projects в котором можно найти либо команду либо проект в портфолио.

@partykiev8894 2 жыл бұрын

честный рандом нельзя предположить

@usachevplayer 2 жыл бұрын

Мне показалось решение с груп бай сложнее чем должно быть, почему нельзя так сделать просто, с учётом, что размерности одинаковые? C = {} for i in range (0,len(A)): if B[i] in C: C[B[i]] += A[i] else: C[B[i]] = A[i]

@VadimChes 2 жыл бұрын

потому что zip сам сделает связку, это наглядно говорит, что элементов в A и B одинаковое количество. И зачем вы делаете условия, когда в ролике показали, что есть просто метод get, позволяющий сделать то же самое более компактно?

@user-yz3cp9id2u 3 ай бұрын

1:02:41 насчет неинициализированной переменной Ну такие ошибки уж джун должен сам исправлять

@mlpython1089 2 жыл бұрын

Спасибо за материал. Скажите, пожалуста, как сечас обстоят дела с ML. Последние события ведь должны были обнулить релевантную историю данных.

@gorodiskykirill4193 2 жыл бұрын

Можете немного подробнее описать, что за события такие? Data Science ведь сейчас довольно популярное и перспективное направление. Спасибо.

@liveworkdie 2 жыл бұрын

>обнулить релевантную историю данных. what does it mean?

@liveworkdie 2 жыл бұрын

Github работает, доки по либам работают, материалы доступны, технологии в основном опенсорс. Про какие события идёт речь понятно, как это должно было повлиять на ML непонятно. Тем более если у нас есть православный catboost.

@aleksandrsvetlichnyy1576 2 жыл бұрын

@@liveworkdie и lgbt classifier 😄

@gorodiskykirill4193 2 жыл бұрын

@@user-mq7xq1hi2q В курсе, сам с Украины и видел кадры Мариуполя от друзей, которым посчастливилось выехать. Думал, может человек имеет ввиду что-то другое, например какой-то технический прорыв в технологиях, что изменяет положение дел в ML. Просто автор не совсем понятно выразился по поводу "релевантной истории данных" Слава Украине и нашим воинам!🇺🇦

@BetForBeer 2 жыл бұрын

Сеты изменяемый тип данных.

@stasgafarov 2 жыл бұрын

Согласен, был уставший напутал.

@user-eo2yt1vc1g 2 жыл бұрын

frozenset - неизменяемый

@erlanabdraimov3088 2 жыл бұрын

def checking(a: list, b: list) -> dict: result = {} pointer = 0 for item in range(len(B)): if b[item] not in result: result[b[item]] = a[pointer] pointer += 1 else: if b[item] in result: result[b[item]] += a[pointer] pointer += 1 # for item in range(len(A)): # if b[item] in result: # result[b[item]] += a[item] return result result {'c': 21, 'a': 15, 'b': 18}

@vlad_covers 2 жыл бұрын

def groupbysum(a, b): dt = defaultdict(int) for val, i in zip(a, b): dt[i] += val return dt

@artyomstepanov7484 2 жыл бұрын

Если исходить из предположения, что среднестатистический джун- это студент/свежий выпускник вуза, то спрашивать джунов про A/B-тесты- это жёстко. Кажется, что в A/B-тестах много тонких моментов, которые объективно приходят только с практикой + A/B-тесты в вузах не преподают. Если бы вместо A/B-теста в собесе была просто статистика, было бы ок

@liveworkdie 2 жыл бұрын

A/B тест входит в любой платный курс по DS, поэтому абсолютно не лишним спросить про A/B

@artyomstepanov7484 2 жыл бұрын

@@liveworkdie А когда платные курсы успели стать необходимым условием для того, чтобы попасть на первую работу? Если человек меняет профессию, то аргумент с платными курсами роляет, но на профильных специальностях в вузах, как это ни забавно, A/B-тестам не учат

@liveworkdie 2 жыл бұрын

@@artyomstepanov7484 собственно встречный вопрос - а когда успешное прохождение программы ВУЗа стало критрием успеха для того, чтобы занять позицию джуна DA/DS? Если неизвестно, что такое A/B и неизвестно как применять/дизайнить исследование, то это не позиция джуна, а позиция интерна/стажёра. На работу ищут людей с навыком, не с дипломом. Диплом может стать бенефитом и только.

@artyomstepanov7484 2 жыл бұрын

@@liveworkdie А я и не говорил, что профильный вузовский диплом является необходимым и/или достаточным условием для получения работы. Мое фи преимущественно связано с тем, что большинство людей в ds- это выпускники профильных направлений, которые не проходили в вузах A/B-тесты, но при этом устроились на джуновскую должность без этих знаний и прекрасно себя сейчас чувствуют. Поэтому и считаю, что с джунов можно и не требовать A/B-тесты

@liveworkdie 2 жыл бұрын

@@artyomstepanov7484 в индустрии не определились, что такое специалист в области DS. Что касается требований к позиции джун DS - тем более. Мы не видели сферических требований в вакууме к этому джуну. Может там уже подразумевалось A/B? Повторюсь. Не вижу проблемы в том, чтобы спросить про А/B, потому что это стартерпак любого платного курса и это камень в сторону вузовского образования.

@vilgubaydullin1195 Жыл бұрын

Не понимаю смысл задачи со звездочкой. Получается так, что одного дерева будет достаточно для разбиения. Или вопрос в том, что лес может быть хуже? То есть эксперта в кричащей толпе никто не услышит. нельзя ли при переборе параметров для леса поставить n_estimators начиная с 1? Я только учусь, не ругайтесь

@blackbigdeath 9 ай бұрын

Хороший собес, только длинный, мне кажется нормального джуна можно задетектить за полчаса. Соискатель имеет знания в области матана, но они резко прореживаются в области понятий машинного обучения. Да и питона можно было накануне подтянуть. В некоторых вопросах сдавался на второй попытке, хотя мог продолжать отвечать. Надо учитывать что со сторны пришедший человек - ему не так легко подхватить контекст, в котором вы варитесь. Джуном он смог бы работать.

@luckytima2315 2 жыл бұрын

Сразу видно что у человека первый яп это пайтон ))

@user-hv9rc7bm2f Жыл бұрын

Многие вопросы отвечал за Дмитрия, это не очень круто. В остальном познавательно👍

@cold_heart_i Жыл бұрын

Насколько я помню в деревьях решений фичи без возврата берутся

@boriskharaev3886 11 ай бұрын

отучился в яндекс практикуме 6 месяцев на аналитика данных, и в целом процентов 10-20 смог бы ответить. ещё учится и учится...

@surfcoffe 10 ай бұрын

🤒

@ioksi4371 Жыл бұрын

Я конечно не в этой сфере, но вопрос… Разве глубокие знания питона в этой сфере вообще нужны ? Я чёт думаю, что там онли готовые абстракции используют и никто не пишет свои костыли бесполезные Просто надо знать где что применять

@user-yz3cp9id2u 3 ай бұрын

Вопрос звучит примерно как «а зачем учить программирование если chatgpt скоро сам код будет писать и программисты не нужны»😁 Ну да, эта область(data science) в целом та же разработка, просто с уклоном в математику. Где то разработка с уклоном в сети, где то в бд и прочее А тут уклон в математику, но оно не перестает быть разработкой

@tapah36 2 жыл бұрын

Выключил на моменте, что tuple и namedtuple неизменяемые, остальные меняемые. К вашему сведению, числа, строки и булевы значения так же являются неизменяемыми типами данных.

@olegmakarov7877 2 жыл бұрын

вМеняемые

@darkelectro7044 2 жыл бұрын

первый же вопрос меня опрокинул😅

@tiffanyjones3076 2 жыл бұрын

well

@eduardganzha1385 2 жыл бұрын

Воу, я представлял, что собеседование будет на много сложнее. Но на процентов 80 вопрос я бы ответил точно)

@user-yn8yd6lq7c 8 ай бұрын

когда set стал неизменяемым? элементы множества неизменяемы, а вот сам set изменяем

@nonameanonimous1012 2 жыл бұрын

Не корректные вопросы в начале. По поводу изменяемых и не изменяемых данных. Видно же, что интервьер не понял их смысла. Он отвечал (на мой взгляд от части правильно), что сами данные изменяемые. Имея ввиду их значения. А не само положение в адресном пространстве памяти.

@maggie_mermaid3678 2 жыл бұрын

А декораторы прям использует кто-то? Я никогда нигде не видела их, в университете только препод один любил по ним вопросы на экзамене задавать. Дмитрию спасибо, что не побоялся поучаствовать!)

@taygindk2733 2 жыл бұрын

Например, при создании dag в airflow

@maggie_mermaid3678 2 жыл бұрын

@@taygindk2733 пошла гуглить) Спасибо)

@nicejke9630 2 жыл бұрын

Декораторы в целом гига полезная и удобная штука, поскольку позволяют с легкостью менять поведение уже написанных функций. А используют их мало потому что многим просто лень разбираться что это за зверь и как работает)

@maggie_mermaid3678 2 жыл бұрын

@@nicejke9630 придется тоже тогда понять) Действительно, нигде не видела их кроме, как на лекциях в университете. Теперь благодаря TaygindK нашла примеры.

@user-mq7xq1hi2q 2 жыл бұрын

Декораторы на самом деле полезная штука. К примеру, декоратор lru_cache из модуля functools позволяет увеличить скорость работы функций (он работает как словарь, который хранит в себе значения функции, которые уже были вычислены, чтобы в случае если их надо будет вычислить повторно не вычислять их с нуля с помощью функции, а просто взять готовое значение из словаря)

@shamanart456 Жыл бұрын

Зачем я это смотрю, не знаю)

@aleksandrfrolov7071 Жыл бұрын

Очень интересно, но ничего не понятно =)))

@VitalyKoryakin 2 жыл бұрын

Хм, буду знать, что мок интервью - это бесплатная лекция по азам программирования 🙄

@wimp825 2 жыл бұрын

Эх, если бы чел получше отвечал, было бы поинтереснее. Но все равно спасибо

@user-zh9zi9cx5r 2 жыл бұрын

Вопрос ко всем: есть ли такая закономерность, что люди, которые разбираются в вещах из видео, да и вообще программеры и т.д., хорошо учились в школе и по математике и точным наукам имели одни пятерки?) Просто хочу понять, это нужен особый склад ума, чтобы разбираться в вещах из видео или освоить может каждый?

@darexsu9487 2 жыл бұрын

Освоить может каждый, если ему интересно то, что он делает, чему обучается. Проверено ;)

@user-cp6zg5vp4t 2 жыл бұрын

Я конечно понимаю мотивацию интервьюера довести интервьюируеомого до нужного ответа, но если человек не знает что такое указатели и как они работают, он никогда до этого не дойдет. И выглядит это как мучение.

@DimbikeY Жыл бұрын

Ну не знаю. Очень просто для джуна

@hopelesssuprem1867 2 жыл бұрын

по питону слабые знания у кандидата, нужно по-любому доучивать пробелы, а так интервью - огонь, сам бы с удовольствием пособесилcя, но пока учу ток линал и параллельно почитываю ML)

@user-ex9zk3bs4i 2 жыл бұрын

не думаю что с такими знаниями нужно вообще работу искать

@user-ex9zk3bs4i 2 жыл бұрын

хоть бы у всех такое интервью было)

@russvetden9342 Жыл бұрын

2 минуты посмотрел испугался и выключил. И это джуниор. На Сеньёра наверное как на космонавта собеседуют

@TeppopucT Жыл бұрын

Не... На синьора как в боевых искусствах на высоких рангах... Просто смотрят друг на друга секунд 20 и после этого уже всё всё понимают.

@user-gn9wg3pl8u Жыл бұрын

В реале на такой собес даже попасть сложно, а спрашивают шире и глубже, так как конкурсы большие на место, и даже ответив всё отлично, запросто пролетаешь. И так раз 50

@iliasnuruev112 2 жыл бұрын

Ощущение такое что чел, что постарше - это на самом деле наставник ведущего И он наоборот проверяет своего сотрудника

@olegmakarov7877 2 жыл бұрын

Тяжелый случай. Таких не берут в космонавты. Там все такие на выходе из Karpov.Courses ?

@karpovcourses 2 жыл бұрын

Человек не проходил у нас ML-курсы, это важно понимать. Мы решили, что интересно будет снять такое интервью и был желающий как раз претендующий на эту позицию)

@olegmakarov7877 2 жыл бұрын

@@karpovcourses Хорошо. В таком случае какой был смысл выкладывать это с позволения сказать mock интервью на вашем канале?

@omskzan2013 2 жыл бұрын

Даже на Джуна?