Junior Data Scientist | Собеседование | karpov.courses

  Рет қаралды 170,157

karpov.courses

karpov.courses

Күн бұрын

Курс Start ML: bit.ly/3SdB7Am
Лучший способ подготовиться к собеседованию - пройти его в тестовом режиме.
Мы записали mock-интервью, которое состоит из 4-х секций: Python, ML, работа с данными и А/В Тесты. В независимости от уровня соискателя есть пул обязательных вопросов на знание основ Data Science и пул дополнительных вопросов в зависимости от уровня подготовки и опыта кандидата.
Именно эти секции позволяют оценить широту знаний собеседуемого. Вопросы дают понять, умеет ли он составлять запросы к БД, писать код, строить модели и проверять их работу с помощью А/В-тестов. Все эти знания достаточно быстро проверяются на mock-собеседовании.
Нашего гостя будет собеседовать преподаватель программы Hard ML Станислав Гафаров. Включайте, чтобы узнать, какие вопросы могут встретиться в интервью на позицию junior DS!
Учитесь Data Science с нами: karpov.courses/
0:00 Введение.
0:50 О структуре и секциях, которые входят в интервью.
Секция «Python»
2:30 Вопрос на изменяемые и неизменяемые типы данных
6:21 Задача на dict и ответ Дмитрия
8:15 Объяснение первой задачи
10:38 Задача, цель которой - сделать, чтобы дикты были разные, ответ Дмитрия
13:51 Разбор второй задачи
16:10 Вопрос о выделении и очистке памяти в Python, ответ Дмитрия
16:26 Разбор вопроса
19:00 Вопрос о генераторах, декораторах и итераторах
Секция «A/B-тесты»
20:35 Вопрос о моделировании A/B теста
30:57 Вопрос о генерации распределений
31:22 Подводка к критерию стьюдента и вопрос про ограничения его применения
32:26 О необходимости нормальности распределения
33:46 Тесты для проверки на нормальность
34:24 Как сравнить ненормальные распределения
35:02 Подводка к вопросу о нормальности распределения средних при бутстрапе
36:04 Как быть, если нет старых пользователей, и нужно провести тест только на новых
37:53 Какие еще бывают вопросы и общие рассуждения
41:19 Интерпретация Bootstrap
Секция «Работа с данными»
42:04 Вопрос про разницу Where и Having
44:20 вопрос про виды join и задания на join
45:57 подводка к задаче про group by в Python
47:49 Задача на group by в Python
Секция «ML алгоритмы»
1:06:22 Задача о линейных регрессиях
1:09:47 Вопрос о градиентном спуске
1:14:06 Вопрос о переобучении
1:22:20 Вопрос о деревьях и их построении
1:26:04 Вопрос: почему случайный лес работает хорошо и не переобучается?
1:28:20 Последний вопрос со звездочкой: в каких случаях логистическая регрессия на задачах классификации будет работать лучше, чем случайный лес
1:32:18 Конец, обратная связь

Пікірлер: 237
@stasgafarov
@stasgafarov 2 жыл бұрын
Друзья всем привет, хотелось бы еще раз поблагодарить Дмитрия за участие, это очень хороший опыт. В некоторых ответах есть неточности и ошибки, спишите это нам на то, что мы проводили собес поздно вечером после тяжелого рабочего дня, поэтому немного заговаривались. В следующий раз я постараюсь сделать чуть более структурированные вопросы и дать ответы на них. Не стоит рассматривать этот вариант собеседования как "единственный правильный", а лучше смотрите на это как на один из множества различных. Будьте внимательны у вас могут спросить очень много различных других тем на той или иной секции. Удачи!
@JOHNucsmCENA
@JOHNucsmCENA 2 жыл бұрын
Привет! Спасибо большое за видео. А можно попросить расшарить видео по деревьям и градиент бустингу которое упоминалось в конце видел?
@user-dm9hc1nk3b
@user-dm9hc1nk3b 2 жыл бұрын
Спасибо за видео, нужно больше такого качественного контента! Не смог найти запись с Игорем про бустинги :(. Было бы здорово прикрепить ссылку под видео.
@stasgafarov
@stasgafarov 2 жыл бұрын
Вот лекция Игоря про бустинги kzbin.info/www/bejne/rZ-3naaOlrudY9U
@Extremesarova
@Extremesarova 2 жыл бұрын
По поводу очистки памяти мне кажется, что немного напутали. В Python отдельно есть счетчик ссылок и сборщик мусора. То, что вы описали больше похоже на счетчик ссылок, а вот сборщик мусора (garbage collector) позволяет отслеживать ситуации с кольцевыми зависимостями - он отслеживает объекты-контейнеры, которые содержат в себе ссылки на другие объекты и смотрит доступны ли они или нет, если нет, то удаляет и работает он не постоянно - использует определенные эвристики, чтобы определить, когда нужно запуститься.
@stasgafarov
@stasgafarov 2 жыл бұрын
@@Extremesarova так и есть, я ниже в комментариях ответил про ref counting gc и ggc. В целом для джуна достаточным было бы понимание про подсчет ссылок, что есть "нечто" которое работает с ссылками друг на друга, или кольцевыми зависимостями, такой ответ бы принял, частности зачастую спрашивают на уровне выше. Там же и вопросы про GIL
@user-sg4kc5cx5v
@user-sg4kc5cx5v 2 жыл бұрын
Благодарю за это видео! Помогло определить собственные слабые стороны...Надеюсь будут еще в ближайшем будущем!😁
@sergeybobkov9354
@sergeybobkov9354 2 жыл бұрын
Супер полезный ролик, дает очень четкие представления о том, как выстраивать план обучения
@user-qo7yu5qk1u
@user-qo7yu5qk1u 2 жыл бұрын
Спасибо за видео и примерное понимание вопросов! Поняла, что с блоком питона у меня полный замес. Интересно, что АБ руками не трогала, но знания с курса маркетинга вспыли внезапным образом и оказывается все не так плохо ) Подход Станислава - лучшее, что может случиться на первом собеседовании. Скорее всего в реальности все будет не столь бережно и дружелюбно, но жить стало лучше, жить стало веселее :)
@aleksgor1408
@aleksgor1408 2 жыл бұрын
Крутой собес. Только из за Дмитрия и посмотрел. Т к вместе в Хакатоне участвовали в одной команде. Дима хорошо практически подкован. И молодец, что прокачивает себя в собесах, думаю успех неизбежен в скором времени. Я думаю junior на то и junior, что есть где то пробелы. Невозможно все запомнить, как меня поддержали и сказали на одном собесе. Переодически что то забывается из за большого пласта ds, особенно когда активно много учишь. Я бы на такой собес не решился бы на Ютуб ).
@user-dm3nb3im2o
@user-dm3nb3im2o 2 жыл бұрын
В любом случае делайте пожалуйста почаще такие собеседования. Пусть розовые очки трещат. Зато хоть что то рядом приближенное к реальности.
@alexeykazakov3694
@alexeykazakov3694 2 жыл бұрын
Супер! Хочу еще видосов типа такого)
@user-wz9qg1xp8m
@user-wz9qg1xp8m 2 жыл бұрын
Спасибо. Было реально полезно
@nuri3029
@nuri3029 Жыл бұрын
Подушню: set изменяемый тип. Послышалось на 6 минуте, что его отнесли к неизменяемым. Спасибо! Очень полезно!
@alevadnaya
@alevadnaya 2 жыл бұрын
Спасибо, очень интересно
@user-uw2qx5yk5k
@user-uw2qx5yk5k 2 жыл бұрын
Крутое видео! Можно ли ссылку на хвалёное выступление про решающие деревья?
@user-rb4fs8ut5l
@user-rb4fs8ut5l 2 жыл бұрын
Очень интересно, если посмотреть такое же интервью с middle и senior уровнями.
@vadimvadim1662
@vadimvadim1662 2 жыл бұрын
такие уже есть на канале Fless
@stasgafarov
@stasgafarov 2 жыл бұрын
Возможно в ближайшее время сделаем с Middle уровнем парнем. Будет жесткий собес
@vadimvadim1662
@vadimvadim1662 2 жыл бұрын
@@stasgafarov собесы с джунами веселее смотреть, да и количество потенциальных джунов явно больше нежели мидлов
@user-rb4fs8ut5l
@user-rb4fs8ut5l 2 жыл бұрын
@@stasgafarov это заслуживает лайк!!!)
@user-ef4oc3vc6r
@user-ef4oc3vc6r Жыл бұрын
Спасибо за видео, очень полезно.
@user-sy5rz5bv6l
@user-sy5rz5bv6l 2 жыл бұрын
Спасибо большое за интервью. Имею сопоставимый уровень с собеседкемым и просмотр был очень полезен. Не совсем понятно, что значит "data scientist". Будет очень приятно видеть аналогичные интервью , но для junior/intern ml engineer.
@mwave3388
@mwave3388 Жыл бұрын
Спасибо за видео, очень полезно. Кандидат ещё слабо готов, нужно заниматься. Но вот по поводу отклика, не понятно. Нужно знать декораторы, итераторы, все метрики, все cross-val стратегии, все функции потерь, уметь делать GD, SGD, бутстрепинг вручную, знать оконные функции в SQL, всю статистику... дальше можно не продолжать. При том что в видео с Валерой Бабушкиным Лид Сеньоры не могут рассказать какие фичи будут полезные для предсказания рекламы. Покажите мне хотя бы одно интервью с человеком, которого всё это спросили и который ВСЁ это знает. Единороги только в сказке живут.
@ilnurismagilov6340
@ilnurismagilov6340 Жыл бұрын
Согласен, странный подход. Хорошо бы приоритезировать подготовку к собеседованию. Силу фич, так сказать, указать. Где фичи - навыки программиста, а сила - повышение шанса получить работу
@bbudikkb3244
@bbudikkb3244 Жыл бұрын
Так о чём речь? У джуна нет опыта. Значит должны быть знания)))
@ivanshelonik3979
@ivanshelonik3979 2 жыл бұрын
Cross Validation is usually a very good way to measure an accurate performance. While it does not prevent your model to overfit, it still measures a true performance estimate.
@Ybuotue
@Ybuotue 2 жыл бұрын
Очень круто, спасибо за Джуна.
@user-ti7cn2fu6u
@user-ti7cn2fu6u 2 жыл бұрын
Мне хочется сказать. Мои отношения с питоном я бы оценил как «примерно такие же как с русским языком», т.е. я довольно сносно могу на нем разговаривать, писать тексты и пользоваться его гибкостью, при этом если попросить меня сейчас сделать коротенький доклад на тему родного языка или поспрашать, в формате этого интервью, я практически ничего не смогу рассказать…, я не знаю (уже не помню) что такое причастие, деепричастные обороты, подлежащее и сказуемое (при желании смогу быстро восстановить эти знания)…. Примерно такая же история и с питоном…, я не испытываю сложностей с написанием кода и реализацией задач/решений (+ достаточное количество источников, в которых всегда можно что-то уточнить и допонять), при этом часто отдаю себе отчет что гибкость питона позволяет сделать мой код «более оптимальным». Есть опыт, но нет академических знаний и я работаю над этим. Все мои знания получены из онлайн источников и литературы…. и ничего страшного в этом, нет до тех пор пока ты не столкнешься с необходимостью разговаривать на эти темы, вот тут начинается весело!!!...., получив вопрос/задачу, понимая что ты имеешь необходимые знания для ответа или решения, нередко бывает так, что начинаешь нести какую-то лютую дичь и когда несешь ее даже отдаешь себе в этом отчет, при том что я, например, имею хороший опыт публичных выступлений и у меня нет страха на эту тему…. Я вижу проблему в бедности профильного разговорного опыта, я очень мало разговаривал на эти темы живым языком с живым собеседником (речь даже не про интервью), я/мы_такие_же даже создали чат в telegram, где регулярно устраиваем друг другу собесы (джун джуну), перерастающие в обсуждения…ой, я даже скажу: команда из этого чата поучаствовала в одном из хакатонов и попала в ТОП-10, это опять/еще_раз был опыт общения, работы над задачей и питчем, в том числе. К сожалению нигде (я не встречал) не освещается вопрос психологии интервью, это важно для всех особенно для джуна (совет типа «главное не волнуйся» - почему-то не работают).
@user-ti7cn2fu6u
@user-ti7cn2fu6u 2 жыл бұрын
Перед тем как согласится/податься на это интервью я просмотрел несколько подобных…. И конечно же (видимо как многие) я сидел с чашкой чая, глядя в монитор рассуждал о том что, уж если «такие», с «такими» знаниями выходят на рынок, то меня будут просто с руками отрывать, как только я резюме выложу…, в режиме просмотра подобного интервью, ты конечно же пропускаешь через себя все вопросы, которые задают интервьюируемому, конечно имеешь на них ответы и удивляешься тому, как таких простых вещей можно не знать, плавать в них и вообще на что-то претендовать в этой индустрии…. «Диванным генералам» я желаю иметь силы подписаться на что-то подобное! Кроме того нужно понимать что в жизни все гораздо жестче и то, что вы видите сейчас на видео все-таки некий продукт, приближенный к реальности. После интервью меня колотило как «в холодную ночевку на четырех тысячах», утром я проснулся другим человеком и написал Стасу: «Стас, жизнь разделилась на "до и после"...Спасибо огромное !!!». Мне есть чем заняться. Спасибо КС, спасибо Стас!!!
@ShouseD
@ShouseD 2 жыл бұрын
а можно в вашу группу джунов вступить?
@nikita9311
@nikita9311 Жыл бұрын
Как попасть в чат?
@li.nikolas
@li.nikolas 11 ай бұрын
Как успехи в специальности ? Работаете ? подтянули темы ?
@alexandreabramtsev9160
@alexandreabramtsev9160 2 жыл бұрын
15:45 есть еще 1 споcоб. Пропустить через конструктор - те написать b = dict(a)
@Extremesarova
@Extremesarova 2 жыл бұрын
Было бы идеально, если бы была разметка по темам и вопросам с таймкодами :)
@karpovcourses
@karpovcourses 2 жыл бұрын
Уже работаем над тем, чтобы это было в каждом видео :) Сейчас хотели быстрее выложить.
@nuri3029
@nuri3029 Жыл бұрын
Было очень круто!! Спасибо
@amirnurken5747
@amirnurken5747 9 ай бұрын
Подскажите пожалуйста, полноценная ли оценка возможностей в таком формате, если к примеру претендующий на должность - не обладает теоретическими знаниями, но на практике, способен справиться с любой задачей уровня junior? Заранее спасибо!
@QScientist
@QScientist 9 ай бұрын
в начале на 16й минуте можно было еще сделать передачу в функцию двух словарей, и в функции написать b['z']=99 и например генератором или map ом копирнуть до вызова самой функции
@zokirzokir3201
@zokirzokir3201 Жыл бұрын
Отличный формат. Пора мне уже написать нормальное резюме, чтобы меня пригласили на собес, потому что в этом интервью для меня всё очень просто 😅
@user-lh8mn4qj4p
@user-lh8mn4qj4p 9 ай бұрын
Ну и как успехи? Нашёл работу? Или хотя бы резюме то написал?)
@zokirzokir3201
@zokirzokir3201 9 ай бұрын
@@user-lh8mn4qj4p не, трусы шью)
@artemqqq7153
@artemqqq7153 2 жыл бұрын
В первый раз услышал про A/B тесты)
@lfc9671
@lfc9671 2 жыл бұрын
Здравствуйте. Спасибо! В принципе, я понял как демонтировать подлокотник с Мазды 6 GH
@Igor-sp7tw
@Igor-sp7tw 2 жыл бұрын
Стас ты говорил про выступление Игоря Котенкова 1:38:12 а можешь ссылку дать
@guru_Fuff
@guru_Fuff 2 жыл бұрын
Дмитрий молодец
@ilyachepelov1744
@ilyachepelov1744 2 жыл бұрын
За видео Спасибо! Полезное для себя нашёл. Так проводит собеседование на позицию Junior DS лично Станислав, или так проходит среднее собеседование в большинстве компаний? Неужели алгоритмическая история яндекса про "напиши с 0 существующую функцию" (groupby) важнее, чем проверка умения пользоваться тем же "groupby", "pivot_table", "merge"? Год работаю 90% времени с SQL - оконные функции понадобились 1 раз. Вопросы по ML хорошие.
@stasgafarov
@stasgafarov 2 жыл бұрын
Скорее стоит воспринимать как провожу собеседования я. Честно говоря из опыта оконными функциями я пользуюсь очень часто особенно когда создаем train датасет с данными по сигналу за какой-то временной период
@bogdanns2
@bogdanns2 2 жыл бұрын
@@stasgafarov а я привык по максимуму все делать в пандасе) Да, это не очень оптимально с точки зрения ресурсов при обработке данных, особенно если обработка идёт в пандасе на локальной машине (в отличие от сервера БД), но лично мне проще, поэтому и sql меня храмает) Занимался прогнозами продаж, огромное количество признаков делал в пандасе, недоумеваю, как их в скуле можно делать. Ну а тоже скользящее среднее или лаги реализованы в готовые функции. А так спасибо за интервью, почерпнул немало ньюансов
@danilmrt2633
@danilmrt2633 2 жыл бұрын
Большое спасибо за видео! Про какую лекцию Игоря о Random Forest в конце идет речь?
@maximstuff4417
@maximstuff4417 Жыл бұрын
Добрый день, не нашли?
@user-bw5in2yo7s
@user-bw5in2yo7s 2 жыл бұрын
Крутой контент. Даже не в плане вопросов, а просто атмосферы. А что, можно говорить про ML без линейной алгебры? Я не докапываюсь, просто недопонял.
@ntiltt
@ntiltt 2 жыл бұрын
А можно пожалуйста ссылку на видео про мл, про которую говориться в обратной связи?
@VadimChes
@VadimChes 2 жыл бұрын
kzbin.info/www/bejne/rZ-3naaOlrudY9U
@user-dp3hj4df6j
@user-dp3hj4df6j Жыл бұрын
А что за статьи от exbf, про ненормальность
@dmitriy7474
@dmitriy7474 2 жыл бұрын
Я из всех слов только стринги знаю
@dimapugach5586
@dimapugach5586 2 жыл бұрын
Добрый день, спасибо за интересное собеседование. После просмотра остался вопрос о приоритетах разных этапов собеседования. Можно ли за счет хорошо отвеченного например python чуть хуже ответить на работу с данными и получить место?
@VadimChes
@VadimChes 2 жыл бұрын
нет нельзя ) очевидно, что тогда бы остальное не спрашивали. Если вы знаете питон и не знаете ML, то ищите работу программиста на питоне, а не аналитика в ML
@gbrs72
@gbrs72 Жыл бұрын
44:25 смотря что значит пересечение, разве в иннерджойне не может быть до 625 элементов?
@user-dj6cu6ti4s
@user-dj6cu6ti4s 2 жыл бұрын
Спасибо .
@ifrenzyk
@ifrenzyk 2 жыл бұрын
Дайте пожалуйста ссылку на видео Игоря о котором говорилось в конце
@stasgafarov
@stasgafarov 2 жыл бұрын
если про бустинги то в комментариях выше ответил. Если про не градиентные методы оптимизации то можно попробовать найти на канале в видео
@ivanshvedov1823
@ivanshvedov1823 Жыл бұрын
Во второй задаче можно было пересоздать словарь b = dict(a) без for key value
@elenagavrilova3109
@elenagavrilova3109 3 ай бұрын
Сорри как можно в DS не пользоваться set? Интервью классное, полезное! Спасибо!
@JohnSmith-fi7ir
@JohnSmith-fi7ir Жыл бұрын
А как там что побутстрэпить что бы сгенерировать там отклонения или что-то?)) Бутстрэпинг это легально?
@savelygornov1060
@savelygornov1060 2 жыл бұрын
Круто, но хотелось бы увидеть полноценную часть по питону
@user-sy5rz5bv6l
@user-sy5rz5bv6l 2 жыл бұрын
+
@old_bedouin
@old_bedouin 2 жыл бұрын
Камон, мы не можем использовать t test на бутсрапированных данных из за нарушения правила независимости
@han-stroy
@han-stroy 2 жыл бұрын
Вообще дядька молодец. Но я был не много разочарован тем, что сам интервьюер не дал четкого понятия, почему лес работает лучше деревьев. Ответ то прост, отдельное дерево значительно переобучается, то есть дисперсия большая, смещения нет. А лес из множества независимых деревьев, сохраняет отсутствие смещения плюс еще и уменьшает дисперсию (по-моему на корень из N- независимых деревьев, а для этого уже применяется бэггинг). В итоге получаем модель без смещение и с маленькой дисперсией - профит.
@noname-bi7ve
@noname-bi7ve 2 жыл бұрын
ответ прост, но он у вас неправильный
@han-stroy
@han-stroy 2 жыл бұрын
@@noname-bi7ve Аргументированно!
@Extremesarova
@Extremesarova 2 жыл бұрын
​@@han-stroy у вас все +- верно, если вы говорите про глубокие деревья. - У одного неглубокого дерева небольшая дисперсия и большое смещение (в среднем предсказывает не очень точно, зато стабильно - улавливает только высокоуровневые паттерны). - У одного глубокого дерева большая дисперсия и небольшое смещение (точно предсказывает на тренировочной выборке, но результат меняется от выборки к выборке - переобучается). В случайном лесе, по идее, стоит использовать глубокие деревья - за счет этого будем достигать небольшого смещения (высокой точности), а большУю дисперсию будем уменьшать засчет бэггинга (метод случайных подпространств поможет сделать базовые модели (деревья) менее скоррелированными между собой). Поэтому случайный лес и лучше отдельного дерева - позволяет уменьшить обе компоненты ошибки в bias-variance decomposition.
@han-stroy
@han-stroy 2 жыл бұрын
@@Extremesarova Все правильно. Суть леса - сократить дисперсию за счет использования независимых деревьев (конечно грубоких/переобученных) Чем больше независимых деревьев будет, тем больше будет сокращена дисперсия. Не помню сейчас, дисперсия сокращается либо на корень из N независимых деревьев, либо на N деревьев.
@sergeyvladimirovich4560
@sergeyvladimirovich4560 2 жыл бұрын
В конце упоминаете выступления по деревьям, кажется Игоря Котякова???), скиньте, пожалуйста, ссылку на это видео
@stasgafarov
@stasgafarov 2 жыл бұрын
в комментариях выше кинули ссылку
@user-mq7xq1hi2q
@user-mq7xq1hi2q 2 жыл бұрын
Кстати, где можно найти видео с выступлением Игоря Котенкова про особенности бустингов? Нигде на KZbin не нашёл
@stasgafarov
@stasgafarov 2 жыл бұрын
выше и Игорь и я в комментах дал ответ
@user-mq7xq1hi2q
@user-mq7xq1hi2q 2 жыл бұрын
Стас Гафаров Спасибо!
@vinylrave2185
@vinylrave2185 2 жыл бұрын
у меня как-то на собесе на джуна нужно было ml в прод запустить
@maximstuff4417
@maximstuff4417 Жыл бұрын
О какой лекции Игоря Котикова идет речь?
@HOOKAH10
@HOOKAH10 2 жыл бұрын
Того кого собеседовали окончил Каарпов курс ?
@user-qy9vt5hl3d
@user-qy9vt5hl3d 2 жыл бұрын
Видео крутое, спасибо, но вопрос: заплатить достаточно денег за курс и не знать, что такое валидация - это нормально?)
@stasgafarov
@stasgafarov 2 жыл бұрын
Вообще вопрос с валидацией и построением грамотной валидации для проверки вашей модели чуть больше чем сложный. Думаю если вы учавствовали хоть раз в соревнованиях по маш обучению на кегле или хоть раз делали хорошую модель обладающую высокой обобщающей способностью вы были бы чуть более сдержанным. Чтобы не быть голословным и привести пример, лучше всего посмотреть Mercedes-Benz Greener Manufacturing Kaggle Competition и конкретно разбор Даниила Савенкова
@user-bj3sd5xe6v
@user-bj3sd5xe6v Жыл бұрын
6:01 set - mutable, frozen set immutable
@alex.wizard
@alex.wizard Жыл бұрын
Ребят. Просьба перед выкладыванием видео - усиливать звук.
@philipschmdt
@philipschmdt 2 жыл бұрын
Всем привет! Кто-нибудь, поделитесь, пожалуйста, записью выступления Котенкова, про которое рассказывает Стас
@falsenegative
@falsenegative 2 жыл бұрын
тоже не нашел
@VadimChes
@VadimChes 2 жыл бұрын
kzbin.info/www/bejne/rZ-3naaOlrudY9U не благодарите )
@egor3974
@egor3974 2 жыл бұрын
А может кто-то помочь с линкой, которую предлагали в конце видео про деревья? А то чего-то повылазило(
@stasgafarov
@stasgafarov 2 жыл бұрын
ответил в комментариях выше
@user-ls1qz9mk7x
@user-ls1qz9mk7x 2 жыл бұрын
Станиславу бы еще филмьыозвучивать, тембр голоса киношный.
@petyap7600
@petyap7600 2 жыл бұрын
На последний вопрос ответы не осознал. Нужна помощь. "В каких случаях логрег лучше случайного леса?" - когда есть несколько хороших признаков и много шумных? "Почему" - берутся подвыборки признаков, тем самым размывается влияние сильных признаков и в среднем каждое дерево предсказывает значение хуже случайности? Честно говоря, всегда думал, что в лесах минус только в скорости.
@user-pj1qb7lq5i
@user-pj1qb7lq5i 2 жыл бұрын
Насколько я понял, если у тебя очень много шума в твоих данных, то какое-то дерево из твоего случайного леса может взять себе в качестве подмножества ТОЛЬКО шум. Как следствие результат его обучения будет даже хуже 0.5, то есть хуже подбрасывания монетки. Если шума действительно много, то несколько деревьев могут так обучиться и давать очень плохие результаты. А случайный лес эффективен только тогда, когда большая часть деревьев даёт результат больше 0.5. Регрессивный метод просто отсекает лишний шум и работает с настоящими данными, поэтому в таком случае он куда эффективнее.
@kislovdmitry4981
@kislovdmitry4981 2 жыл бұрын
При рассказе интервьювером о gc есть ощущение смешения rcgc (ref counting gc) и ggc (generational gc); gc.collect это про ggc...
@stasgafarov
@stasgafarov 2 жыл бұрын
да, я несколько упростил, и не расскаазывал про особенности работ rcgc и ggc, в целом эти частности хорошо знать на уровне Middle+/Senior DS (но для разраба это точно стоит знать), и оч хорошо когда человек сталкивался с проблемами в живую
@user-ry5jg8gr6u
@user-ry5jg8gr6u Жыл бұрын
Странно немного что небыло вопросов про препроцессинг. А так в целом оч даже.
@user-ob5lo3sw8p
@user-ob5lo3sw8p 2 жыл бұрын
Очень хочется узнать, всегда нужно вот именно так, в диалоге с интервьюером, писать код или можно сказать: "дайте несколько минут подумать и помолчите пожалуйста"? ))
@karpovcourses
@karpovcourses 2 жыл бұрын
Будет абсолютно нормально, если вы попросите пару минут в тишине!
@romanbush5164
@romanbush5164 Жыл бұрын
Похоже мужик больше математик - профессор чем програмист 👍, 2 часть обсолютно не понял, где это изучить. Даже я такие тонкости питона не знал).
@nataliamarkova4506
@nataliamarkova4506 2 жыл бұрын
Мне как-то один лид сказал, что написать градиентный спуск - это прям базовый уровень. Станислав, что думаете об этом? Тут человека не стали спрашивать, получается, это уже на джун +?
@user-mq7xq1hi2q
@user-mq7xq1hi2q 2 жыл бұрын
Я конечно не Стас, но по-хорошему никто не делит джунов на «джун» и «джун+». По факту понимание градиентного спуска необходимо для работы с нейронными сетями (даже с самыми простыми), поэтому это однозначно вопрос начального уровня. Ничего подвинутого в вопросе про градиентный спуск нет.
@stasgafarov
@stasgafarov 2 жыл бұрын
Честно говоря мой ответ будет следующим: В случае когда человек не может ответить какие-то простые вещи например линейную регрессию, и как именно линейная регрессия с помощью градиентного спуска обновляет коэфициенты при признаках, могут попросить написать градиентный спуск, чтобы удостовериться что человек действительно понимает что происходит.
@herenickname
@herenickname Жыл бұрын
Больше авторов пытался вктатиться в вопрос с group by)
@teamsonbut5632
@teamsonbut5632 7 ай бұрын
Машинное обучение с большими данными это всего лишь одно из направлений науки о данных. На самом деле в этой области кит утонет)). А человек и подавно. Просто кто-то хорошо разбирается в алгоритмах, кто-то в данных и их конфигурациях, кто-то умеет быстро печатать текст, а кто-то знает кучу формул и умеет их применять. Почему открылось такое направление в науке? Да потому что каждый способный человек в вычислительном деле может предложить что-то уникальное, но вот это уникальное не каждая машина способна обработать и вот для этого была основана такая наука - чтобы идеи переводить в реализацию. К сожалению в этом направлении произошли все прорывы, которые возможны на нашем уровне конфигураций самого "железа". Так что будем ждать чего-то прорывного, которое сможет дать пищу для мозгов одарённых людей!)
@kimfilbi8522
@kimfilbi8522 3 ай бұрын
Подскажите, о каком именно выступлении Игоря Котенкова шла речь?
@karpovcourses
@karpovcourses 3 ай бұрын
В комментариях подсказывают, что об этом: kzbin.info/www/bejne/rZ-3naaOlrudY9Ufeature=shared
@kimfilbi8522
@kimfilbi8522 3 ай бұрын
@@karpovcourses спасибо большое
@ShouseD
@ShouseD 2 жыл бұрын
48:37 "нет это сложно, давай еще раз!" Я б на его месте начал мычать че-нить нечленораздельное)
@stalkermustang
@stalkermustang 2 жыл бұрын
Видел, в комментах спрашивали про видео "Игоря Котенкова про бустинг и деревья". Вот это видео, kzbin.info/www/bejne/rZ-3naaOlrudY9U . Правда я не согласен со Стасом, что там говорится про подбор гиперпараметров - так, очень верхнеуровнево, потому что это не было целью лекции.
@stasgafarov
@stasgafarov 2 жыл бұрын
Ой ладно тебе, ты отлично про гиперпараметры рассказал, остальное можно спокойно нагуглить, руководств чуть больше чем дофига.
@user-mq7xq1hi2q
@user-mq7xq1hi2q 2 жыл бұрын
Спасибо
@antonkurtis7698
@antonkurtis7698 2 жыл бұрын
Почему не во всех компаниях такой тех собес? Ответил на 90% вопросов\заданий из видео, но в реальной жизни на работу так и не устроился. Вопрос еще Интервьюеру : смотрят ли на возраст потенциальных работников? Поздно ли джуном идти в 37 лет?
@stasgafarov
@stasgafarov 2 жыл бұрын
Готов ли ты попробовать на камеру ответить на вопросы, при условии что они могут быть другими, но тоже уровня Junior? Отвечая на вопрос, да говорят порой смотрят, но я честно говоря ниразу не сталкивался с этим в живую. Как мне кажется, нет не поздно, но лучше всего попробовать получить какой-то реаьлный опыт и иметь портволию за счет pet-проектов. В ODS есть отдельно чатик pet-projects в котором можно найти либо команду либо проект в портфолио.
@partykiev8894
@partykiev8894 2 жыл бұрын
честный рандом нельзя предположить
@usachevplayer
@usachevplayer 2 жыл бұрын
Мне показалось решение с груп бай сложнее чем должно быть, почему нельзя так сделать просто, с учётом, что размерности одинаковые? C = {} for i in range (0,len(A)): if B[i] in C: C[B[i]] += A[i] else: C[B[i]] = A[i]
@VadimChes
@VadimChes 2 жыл бұрын
потому что zip сам сделает связку, это наглядно говорит, что элементов в A и B одинаковое количество. И зачем вы делаете условия, когда в ролике показали, что есть просто метод get, позволяющий сделать то же самое более компактно?
@user-yz3cp9id2u
@user-yz3cp9id2u 3 ай бұрын
1:02:41 насчет неинициализированной переменной Ну такие ошибки уж джун должен сам исправлять
@mlpython1089
@mlpython1089 2 жыл бұрын
Спасибо за материал. Скажите, пожалуста, как сечас обстоят дела с ML. Последние события ведь должны были обнулить релевантную историю данных.
@gorodiskykirill4193
@gorodiskykirill4193 2 жыл бұрын
Можете немного подробнее описать, что за события такие? Data Science ведь сейчас довольно популярное и перспективное направление. Спасибо.
@liveworkdie
@liveworkdie 2 жыл бұрын
>обнулить релевантную историю данных. what does it mean?
@liveworkdie
@liveworkdie 2 жыл бұрын
Github работает, доки по либам работают, материалы доступны, технологии в основном опенсорс. Про какие события идёт речь понятно, как это должно было повлиять на ML непонятно. Тем более если у нас есть православный catboost.
@aleksandrsvetlichnyy1576
@aleksandrsvetlichnyy1576 2 жыл бұрын
@@liveworkdie и lgbt classifier 😄
@gorodiskykirill4193
@gorodiskykirill4193 2 жыл бұрын
@@user-mq7xq1hi2q В курсе, сам с Украины и видел кадры Мариуполя от друзей, которым посчастливилось выехать. Думал, может человек имеет ввиду что-то другое, например какой-то технический прорыв в технологиях, что изменяет положение дел в ML. Просто автор не совсем понятно выразился по поводу "релевантной истории данных" Слава Украине и нашим воинам!🇺🇦
@BetForBeer
@BetForBeer 2 жыл бұрын
Сеты изменяемый тип данных.
@stasgafarov
@stasgafarov 2 жыл бұрын
Согласен, был уставший напутал.
@user-eo2yt1vc1g
@user-eo2yt1vc1g 2 жыл бұрын
frozenset - неизменяемый
@erlanabdraimov3088
@erlanabdraimov3088 2 жыл бұрын
def checking(a: list, b: list) -> dict: result = {} pointer = 0 for item in range(len(B)): if b[item] not in result: result[b[item]] = a[pointer] pointer += 1 else: if b[item] in result: result[b[item]] += a[pointer] pointer += 1 # for item in range(len(A)): # if b[item] in result: # result[b[item]] += a[item] return result result {'c': 21, 'a': 15, 'b': 18}
@vlad_covers
@vlad_covers 2 жыл бұрын
def groupbysum(a, b): dt = defaultdict(int) for val, i in zip(a, b): dt[i] += val return dt
@artyomstepanov7484
@artyomstepanov7484 2 жыл бұрын
Если исходить из предположения, что среднестатистический джун- это студент/свежий выпускник вуза, то спрашивать джунов про A/B-тесты- это жёстко. Кажется, что в A/B-тестах много тонких моментов, которые объективно приходят только с практикой + A/B-тесты в вузах не преподают. Если бы вместо A/B-теста в собесе была просто статистика, было бы ок
@liveworkdie
@liveworkdie 2 жыл бұрын
A/B тест входит в любой платный курс по DS, поэтому абсолютно не лишним спросить про A/B
@artyomstepanov7484
@artyomstepanov7484 2 жыл бұрын
@@liveworkdie А когда платные курсы успели стать необходимым условием для того, чтобы попасть на первую работу? Если человек меняет профессию, то аргумент с платными курсами роляет, но на профильных специальностях в вузах, как это ни забавно, A/B-тестам не учат
@liveworkdie
@liveworkdie 2 жыл бұрын
@@artyomstepanov7484 собственно встречный вопрос - а когда успешное прохождение программы ВУЗа стало критрием успеха для того, чтобы занять позицию джуна DA/DS? Если неизвестно, что такое A/B и неизвестно как применять/дизайнить исследование, то это не позиция джуна, а позиция интерна/стажёра. На работу ищут людей с навыком, не с дипломом. Диплом может стать бенефитом и только.
@artyomstepanov7484
@artyomstepanov7484 2 жыл бұрын
@@liveworkdie А я и не говорил, что профильный вузовский диплом является необходимым и/или достаточным условием для получения работы. Мое фи преимущественно связано с тем, что большинство людей в ds- это выпускники профильных направлений, которые не проходили в вузах A/B-тесты, но при этом устроились на джуновскую должность без этих знаний и прекрасно себя сейчас чувствуют. Поэтому и считаю, что с джунов можно и не требовать A/B-тесты
@liveworkdie
@liveworkdie 2 жыл бұрын
@@artyomstepanov7484 в индустрии не определились, что такое специалист в области DS. Что касается требований к позиции джун DS - тем более. Мы не видели сферических требований в вакууме к этому джуну. Может там уже подразумевалось A/B? Повторюсь. Не вижу проблемы в том, чтобы спросить про А/B, потому что это стартерпак любого платного курса и это камень в сторону вузовского образования.
@vilgubaydullin1195
@vilgubaydullin1195 Жыл бұрын
Не понимаю смысл задачи со звездочкой. Получается так, что одного дерева будет достаточно для разбиения. Или вопрос в том, что лес может быть хуже? То есть эксперта в кричащей толпе никто не услышит. нельзя ли при переборе параметров для леса поставить n_estimators начиная с 1? Я только учусь, не ругайтесь
@blackbigdeath
@blackbigdeath 9 ай бұрын
Хороший собес, только длинный, мне кажется нормального джуна можно задетектить за полчаса. Соискатель имеет знания в области матана, но они резко прореживаются в области понятий машинного обучения. Да и питона можно было накануне подтянуть. В некоторых вопросах сдавался на второй попытке, хотя мог продолжать отвечать. Надо учитывать что со сторны пришедший человек - ему не так легко подхватить контекст, в котором вы варитесь. Джуном он смог бы работать.
@luckytima2315
@luckytima2315 2 жыл бұрын
Сразу видно что у человека первый яп это пайтон ))
@user-hv9rc7bm2f
@user-hv9rc7bm2f Жыл бұрын
Многие вопросы отвечал за Дмитрия, это не очень круто. В остальном познавательно👍
@cold_heart_i
@cold_heart_i Жыл бұрын
Насколько я помню в деревьях решений фичи без возврата берутся
@boriskharaev3886
@boriskharaev3886 11 ай бұрын
отучился в яндекс практикуме 6 месяцев на аналитика данных, и в целом процентов 10-20 смог бы ответить. ещё учится и учится...
@surfcoffe
@surfcoffe 10 ай бұрын
🤒
@ioksi4371
@ioksi4371 Жыл бұрын
Я конечно не в этой сфере, но вопрос… Разве глубокие знания питона в этой сфере вообще нужны ? Я чёт думаю, что там онли готовые абстракции используют и никто не пишет свои костыли бесполезные Просто надо знать где что применять
@user-yz3cp9id2u
@user-yz3cp9id2u 3 ай бұрын
Вопрос звучит примерно как «а зачем учить программирование если chatgpt скоро сам код будет писать и программисты не нужны»😁 Ну да, эта область(data science) в целом та же разработка, просто с уклоном в математику. Где то разработка с уклоном в сети, где то в бд и прочее А тут уклон в математику, но оно не перестает быть разработкой
@tapah36
@tapah36 2 жыл бұрын
Выключил на моменте, что tuple и namedtuple неизменяемые, остальные меняемые. К вашему сведению, числа, строки и булевы значения так же являются неизменяемыми типами данных.
@olegmakarov7877
@olegmakarov7877 2 жыл бұрын
вМеняемые
@darkelectro7044
@darkelectro7044 2 жыл бұрын
первый же вопрос меня опрокинул😅
@tiffanyjones3076
@tiffanyjones3076 2 жыл бұрын
well
@eduardganzha1385
@eduardganzha1385 2 жыл бұрын
Воу, я представлял, что собеседование будет на много сложнее. Но на процентов 80 вопрос я бы ответил точно)
@user-yn8yd6lq7c
@user-yn8yd6lq7c 8 ай бұрын
когда set стал неизменяемым? элементы множества неизменяемы, а вот сам set изменяем
@nonameanonimous1012
@nonameanonimous1012 2 жыл бұрын
Не корректные вопросы в начале. По поводу изменяемых и не изменяемых данных. Видно же, что интервьер не понял их смысла. Он отвечал (на мой взгляд от части правильно), что сами данные изменяемые. Имея ввиду их значения. А не само положение в адресном пространстве памяти.
@maggie_mermaid3678
@maggie_mermaid3678 2 жыл бұрын
А декораторы прям использует кто-то? Я никогда нигде не видела их, в университете только препод один любил по ним вопросы на экзамене задавать. Дмитрию спасибо, что не побоялся поучаствовать!)
@taygindk2733
@taygindk2733 2 жыл бұрын
Например, при создании dag в airflow
@maggie_mermaid3678
@maggie_mermaid3678 2 жыл бұрын
@@taygindk2733 пошла гуглить) Спасибо)
@nicejke9630
@nicejke9630 2 жыл бұрын
Декораторы в целом гига полезная и удобная штука, поскольку позволяют с легкостью менять поведение уже написанных функций. А используют их мало потому что многим просто лень разбираться что это за зверь и как работает)
@maggie_mermaid3678
@maggie_mermaid3678 2 жыл бұрын
@@nicejke9630 придется тоже тогда понять) Действительно, нигде не видела их кроме, как на лекциях в университете. Теперь благодаря TaygindK нашла примеры.
@user-mq7xq1hi2q
@user-mq7xq1hi2q 2 жыл бұрын
Декораторы на самом деле полезная штука. К примеру, декоратор lru_cache из модуля functools позволяет увеличить скорость работы функций (он работает как словарь, который хранит в себе значения функции, которые уже были вычислены, чтобы в случае если их надо будет вычислить повторно не вычислять их с нуля с помощью функции, а просто взять готовое значение из словаря)
@shamanart456
@shamanart456 Жыл бұрын
Зачем я это смотрю, не знаю)
@aleksandrfrolov7071
@aleksandrfrolov7071 Жыл бұрын
Очень интересно, но ничего не понятно =)))
@VitalyKoryakin
@VitalyKoryakin 2 жыл бұрын
Хм, буду знать, что мок интервью - это бесплатная лекция по азам программирования 🙄
@wimp825
@wimp825 2 жыл бұрын
Эх, если бы чел получше отвечал, было бы поинтереснее. Но все равно спасибо
@user-zh9zi9cx5r
@user-zh9zi9cx5r 2 жыл бұрын
Вопрос ко всем: есть ли такая закономерность, что люди, которые разбираются в вещах из видео, да и вообще программеры и т.д., хорошо учились в школе и по математике и точным наукам имели одни пятерки?) Просто хочу понять, это нужен особый склад ума, чтобы разбираться в вещах из видео или освоить может каждый?
@darexsu9487
@darexsu9487 2 жыл бұрын
Освоить может каждый, если ему интересно то, что он делает, чему обучается. Проверено ;)
@user-cp6zg5vp4t
@user-cp6zg5vp4t 2 жыл бұрын
Я конечно понимаю мотивацию интервьюера довести интервьюируеомого до нужного ответа, но если человек не знает что такое указатели и как они работают, он никогда до этого не дойдет. И выглядит это как мучение.
@DimbikeY
@DimbikeY Жыл бұрын
Ну не знаю. Очень просто для джуна
@hopelesssuprem1867
@hopelesssuprem1867 2 жыл бұрын
по питону слабые знания у кандидата, нужно по-любому доучивать пробелы, а так интервью - огонь, сам бы с удовольствием пособесилcя, но пока учу ток линал и параллельно почитываю ML)
@user-ex9zk3bs4i
@user-ex9zk3bs4i 2 жыл бұрын
не думаю что с такими знаниями нужно вообще работу искать
@user-ex9zk3bs4i
@user-ex9zk3bs4i 2 жыл бұрын
хоть бы у всех такое интервью было)
@russvetden9342
@russvetden9342 Жыл бұрын
2 минуты посмотрел испугался и выключил. И это джуниор. На Сеньёра наверное как на космонавта собеседуют
@TeppopucT
@TeppopucT Жыл бұрын
Не... На синьора как в боевых искусствах на высоких рангах... Просто смотрят друг на друга секунд 20 и после этого уже всё всё понимают.
@user-gn9wg3pl8u
@user-gn9wg3pl8u Жыл бұрын
В реале на такой собес даже попасть сложно, а спрашивают шире и глубже, так как конкурсы большие на место, и даже ответив всё отлично, запросто пролетаешь. И так раз 50
@iliasnuruev112
@iliasnuruev112 2 жыл бұрын
Ощущение такое что чел, что постарше - это на самом деле наставник ведущего И он наоборот проверяет своего сотрудника
@olegmakarov7877
@olegmakarov7877 2 жыл бұрын
Тяжелый случай. Таких не берут в космонавты. Там все такие на выходе из Karpov.Courses ?
@karpovcourses
@karpovcourses 2 жыл бұрын
Человек не проходил у нас ML-курсы, это важно понимать. Мы решили, что интересно будет снять такое интервью и был желающий как раз претендующий на эту позицию)
@olegmakarov7877
@olegmakarov7877 2 жыл бұрын
@@karpovcourses Хорошо. В таком случае какой был смысл выкладывать это с позволения сказать mock интервью на вашем канале?
@omskzan2013
@omskzan2013 2 жыл бұрын
Даже на Джуна?
1 класс vs 11 класс (неаккуратность)
01:00
NO NO NO YES! (50 MLN SUBSCRIBERS CHALLENGE!) #shorts
00:26
PANDA BOI
Рет қаралды 102 МЛН
Hot Ball ASMR #asmr #asmrsounds #satisfying #relaxing #satisfyingvideo
00:19
Oddly Satisfying
Рет қаралды 12 МЛН
Пришёл Intern - оказался JUNIOR Strong / Интервью на позицию DevOps Engineer / Мок собес  / 1
1:36:38
Разбор реальной data science задачи
38:51
Alexander Ershov
Рет қаралды 187 М.
1 класс vs 11 класс (неаккуратность)
01:00