Карьера в DATA SCIENCE: TOP-50 Вопросов на собеседовании // PART 2

  Рет қаралды 28,494

miracl6

miracl6

3 жыл бұрын

Лекции Константина Воронцова
www.machinelearning.ru/wiki/in...
Instagram* / miracl6_
Группы в ВКонтакте pymagic
Telegram t.me/pymagic
*Компания Meta - организация, деятельность которой запрещена на территории Российской Федерации

Пікірлер: 84
@totalchest9445
@totalchest9445 3 жыл бұрын
Кажется про logloss оговорка: деление на l используется для усреднения по объектам, а не по классам. Многоклассовая классификация с помощью logloss делается за счет One-vs-One или One-vs-All. Поправьте если не прав.
@mchera
@mchera 3 жыл бұрын
43) На мой взгляд, ключевым различием между решающими деревьями и xgboost является то, что решающие деревья это бэггинг и деревья строятся независимо, а уже потом результат усредняется каким-либо способом, в то время как xgboost, являясь бустингом, на каждом этапе построения минимизирует ошибку, то есть построение следующего дерева зависит от предыдущих.
@user-oo6mv1de9f
@user-oo6mv1de9f 3 жыл бұрын
Спасибо за видео. Жду другие обзоры на вопросы для собеседований по DS и ML 😇😇😇
@andreykurdyubov2822
@andreykurdyubov2822 3 жыл бұрын
39) Энтропийный критерий должен быть, например, -summ(p_k log(p_k)) У вас он скопирован с Джинни.
@user-lu3rs5rs5h
@user-lu3rs5rs5h 3 жыл бұрын
Спасибо, за информативное видео) Было бы интересно послушать, про пет-проекты для Junior, почти всегда на собеседованиях про это спрашивают, интересно было бы узнать как правильно рассказывать про свои проекты и какой проект надо сделать чтобы покорить интервьюера.
@eugene_romanov
@eugene_romanov 3 жыл бұрын
Контент просто супер. Все законспектировал. Анастасия. продолжайте, пожалуйста!
@datascience-9840
@datascience-9840 3 жыл бұрын
Спасибо за подборку и систематизацию вопросов )
@evgheniigaisinschii3106
@evgheniigaisinschii3106 2 жыл бұрын
Спасибо вам! Это и другие ваши видео помогли мне пройти первое собеседование))
@AlexeyArtamoshin
@AlexeyArtamoshin 3 жыл бұрын
Спасибо! очень полезное видео! интересно было бы еще развернутую лекцию про деревья и про градиент.
@user-hyuser_1
@user-hyuser_1 2 жыл бұрын
спасибо за видео! и за канал вообще! все очень здорово!!! в пункте 39) Критерий информативности по моему опечатка - Джинни и энтропийный одна и та же формула. 13:05
@user-bs9kr3cu9n
@user-bs9kr3cu9n 2 жыл бұрын
Анастасия, сделайте еще видосов, расскажите про относительно новые (?) веяния в машин лёнинге - про успехи состязательных моделей, про трансформеры, про visual трансформеры. В вашем изложении должно быть интересно. Успехов. Канал - супер.
@s_tsv
@s_tsv 3 жыл бұрын
Ничего не понятно, но оооочень интересно!
@l_v1327
@l_v1327 2 жыл бұрын
Отличное видео! Спасибо вам!
@user-kl7nj9ds5c
@user-kl7nj9ds5c 3 жыл бұрын
Анастасия, а про Python вопросы/задачки для собеседования ,будет видео?
@kvetcka
@kvetcka 3 жыл бұрын
Спасибо вам большое!!!!
@user-uv7ot1fe4o
@user-uv7ot1fe4o 2 жыл бұрын
Спасибо, очень интересно!
@dmitrypavlov2412
@dmitrypavlov2412 2 жыл бұрын
Анастасия, прекрасное видео! Замечу только, что алгоритм kNN может использоваться и для регрессии.
@anatoliyanatolyev8927
@anatoliyanatolyev8927 3 жыл бұрын
Не сдавайся ,у тебя все получится начинающий программист.
@jamesmiller2521
@jamesmiller2521 3 жыл бұрын
Спасибо, возникла пара вопросов 1) Неужели DL не спрашивают? 2) Что насчёт "гномиков"?
@nvernver1950
@nvernver1950 3 жыл бұрын
Помогите,пожалуйста, покажите как посчитать джини на практике.
@ilyas5544
@ilyas5544 3 жыл бұрын
Эххх был бы у меня такой преподаватель в универе ;))
@user-zl5jf1lq6j
@user-zl5jf1lq6j 3 жыл бұрын
Спасибо Вам большое за очень информативное видео (одно из немногих найденных видео, где всё по делу, без "воды"). Хотелось бы отметить, что в ответе на вопрос 39 присутствует опечатка в определении энтропийного критерия информативности (перед суммой должен стоять знак минус, а вместо скобки ln(p_k)). Также, думаю, в вопросе 43 уместнее будет задать вопрос об отличии градиентного бустинга от random forest (вместо просто решающих деревьев), т.к. и градиентный бустинг и random forest - ансамбли алгоритмов, а решающее дерево - прост конкретный класс моделей (естественно и град. бустинг и random forest могут и часто включают в качестве базовых моделей деревья). Ещё раз отмечу, что и подборка вопросов и манера рассказа очень понравились (особенно приятно смотреть на скорости воспроизведения 1.5).
@alex_kalinichenko
@alex_kalinichenko 3 жыл бұрын
Спасибо за отличный канал! Есть возможность поделиться текстом и графиками, которые иллюстрируют видео?
@alex_kalinichenko
@alex_kalinichenko 3 жыл бұрын
@@miracl6 не получается - личка по видимому закрыта. Если удобно, можно на общедоступный ресурс? Думаю не только мне пригодится. Спасибо.
@MrDespik
@MrDespik 3 жыл бұрын
Спасибо за видео. У вас критерий информативности gini и энтропия одинаковые формулы. Наверное скопировали случайно.
@annarudenko8208
@annarudenko8208 3 жыл бұрын
У вас ошибка в 39 вопросе: Энтропийный критерий информативности это -\sum_{k=1}^K p_{k} log p_{k}
@yehortverytinov5478
@yehortverytinov5478 Жыл бұрын
Как попасть к тебе на собеседование?)
@DataEngTi
@DataEngTi 3 жыл бұрын
Можно будет как-нибудь найти человека и провести с ним онлайн интервью на джуна и выложить с разъяснениями ошибок, вместе с sql, python задачами.
@DataEngTi
@DataEngTi 3 жыл бұрын
@@miracl6 тоже интересно, особенно если он тоже начинал с низов в этой сфере. Просто не хватает риал тайм интервью на дсов, чтобы понимать, что могут спросить
@MrYahoo660
@MrYahoo660 3 жыл бұрын
Эти вопросы для скрининга или на стажера)
@Alex-jl1en
@Alex-jl1en 3 жыл бұрын
Спасибо большое за полезную информацию) Хотелось бы узнать:"Какие статистические критерии необходимы для работы?"
@Alex-jl1en
@Alex-jl1en 3 жыл бұрын
@@miracl6 ,например,критерий Пирсона,Т-критерий Вилкоксона,критерий Колмогорова и т.д.
@Alex-jl1en
@Alex-jl1en 3 жыл бұрын
@@miracl6 ,спасибо) Ещё один вопрос:"Требуются ли знания случайных процессов?"
@Alex-jl1en
@Alex-jl1en 3 жыл бұрын
@@miracl6 ,понял, спасибо большое))
@hello_world_zz
@hello_world_zz 3 жыл бұрын
Четкая!
@felixmusic3645
@felixmusic3645 3 жыл бұрын
Мощный канал! Здравствуйте! Гребу в сторону датасатанизма уже 8 месяцев, проходил курсы на курсере, степике. Мне 40 лет, я программист станков на заводе. На какие деньги может рассчитывать джун? Имеет ли смысл вместо джуна идти в стажеры? Как долго длится в среднем период от джуна до мидла по времени? Нужен ли джуну Hadoop, или это можно в процессе быстренько заботать? Стоит ли изучать нейросети или пока остановиться на классических алгоритмах ML?
@felixmusic3645
@felixmusic3645 3 жыл бұрын
@@miracl6 Ох, спасибо огромное за ваши ответы!) я просто уже половину курса по Hadoop прошел на степике, курс тяжеловато идет из-за отсутствия должной мотивации - то есть я точно не знаю, пригодится мне это или нет, поэтому изучаю без рвения) наверное, стоит больше налегать на kaggle? Все думаю, надо бы пэт-проект какой-то делать, да вот никак не придумаю что.
@felixmusic3645
@felixmusic3645 3 жыл бұрын
В телеграме есть канал "мамкин дата сайнтист", они составили список из 70 вопросов на собеседовании, как сказали для позиции джуна. Вот посмотрите, может для следующих видео что-то возьмете docs.google.com/document/d/1eeP6R36Ur7aTFica7uBkx8FlaQKSE8dHamdnoAJCVUM/edit?usp=sharing. Там есть ответы.
@felixmusic3645
@felixmusic3645 3 жыл бұрын
@@miracl6 О, скараппинг я освоил, даже за деньги людям что-то добывал) Наконец-то есть канал по ds (ваш) где можно нормально что-то спросить и получить ответ. Очень рад! А то чет приуныл даже на днях
@Voronza
@Voronza 3 жыл бұрын
@@felixmusic3645 спасибо, классная подборка вопросов! Только их 69, а не 70. Что-то удалили или вы округляли?)
@felixmusic3645
@felixmusic3645 3 жыл бұрын
@@Voronza я не считал) на том канале сказали 70 )
@aleksgor1408
@aleksgor1408 2 жыл бұрын
А вопросы по Питону на собесах не задаются вообще? Это само собой разумеющееся, что ты его знаешь?
@Wasssja
@Wasssja 3 жыл бұрын
какие задачи вы можете ставить человеку, успешно прошедшему такое собеседование? такой уровень позволяет доверить ему разработку собственных моделей или он может выполнять только вспомогательные задачи?
@user-mx1ot7ks9i
@user-mx1ot7ks9i 3 жыл бұрын
@@miracl6 спасибо! подскажите, какой уровень дает специализация coursera Анализ данных и машинное обучение от МФТИ и Яндекса и на что можно рассчитывать после ее успешного завершения, например, придя к вам на собеседование?
@Wasssja
@Wasssja 3 жыл бұрын
miracl6 kaggle вообще нет смысла решать? или как замена реальным задачам подойдёт? вообще где джуниору взять опыт решения реальных задач, если выше вы пишете, что его допускают максимум до ETL процедур?
@futulady5941
@futulady5941 3 жыл бұрын
super
@prostics5753
@prostics5753 3 жыл бұрын
А как обстоят дела с вопросами про классические алгоритмы?
@prostics5753
@prostics5753 3 жыл бұрын
@@miracl6 прошу прощения, некорректно задал вопрос. Я имел в виду вопросы по теме алгоритмы и структуры данных и прочие вопросы по Computer Science
@MrYahoo660
@MrYahoo660 3 жыл бұрын
@@prostics5753 задают там, где это важно. Где много данных
@vorobiovv
@vorobiovv 3 жыл бұрын
Кресло Икея , как у меня)
@user-wk3el7ig4o
@user-wk3el7ig4o 3 жыл бұрын
а разве рок кривая не является оценкой качества ранжирования, а не классификации?
@OlgaGalanina
@OlgaGalanina 3 ай бұрын
Какая красавица!
@leylarzazade
@leylarzazade 3 жыл бұрын
Hello. Do we need to know high level mathematics?
@leylarzazade
@leylarzazade 3 жыл бұрын
@@miracl6 which branches of math sre mainly used in your daily job? Some data scientist mislead about math. They say we dont need to know in a high level.
@antonleshchuk5908
@antonleshchuk5908 3 жыл бұрын
Спасибо за инфо. Такой вопрос. Вы говорите что Джини неразрывно связано с рокаук. При этом говорите что Джини очень хороша при несбалансированных классах, но рокаук при несбалансированных классах даст неадекватный результат. Можете пояснить?
@user-po8bs4ro8i
@user-po8bs4ro8i 3 жыл бұрын
Разве алгоритм логистической регрессии можно применять в задачах регрессии?
@user-po8bs4ro8i
@user-po8bs4ro8i 3 жыл бұрын
@@miracl6 да, как применяется логистическая регрессия в задаче классификации я понимаю. Я хотел уточнить про применимость логистической регрессии в задаче регрессии, а не классификации
@Tantal180
@Tantal180 3 жыл бұрын
@@user-po8bs4ro8i Изи же, делишь предикаты на бины и учишь классификатор относить ответ в какой-то бин. Так делают например в поределении возраста человека: меньше 20 лет, 20-30 лет, 30-40 лет и тд. Можешь дискретизировать пространство ответов, скажем до года, и предсказывать возраст как 100 классов. Также можно и наоборот, регрессию учить для задачи классификации, но там надо заморачиваться с постпроцессингом и подбором гиперпараметром на валидации. В целом ответ - да можно. Нужно ли? Хз, выглядит как какая-то эротика, хотя иногда заходит
@user-po8bs4ro8i
@user-po8bs4ro8i 3 жыл бұрын
@@Tantal180 я понимаю, как в принципе можно из задачи регрессии получить задачу классификации, но тогда можно абсолютно все задачи регрессии сводить к классификации, что является каким-то извращением
@Tantal180
@Tantal180 3 жыл бұрын
​@@user-po8bs4ro8i Ну я так и написал, что это все экзотика, но иногда работает лучше) Утверждение: "все можно свести к таким извращениям", - весьма спорное, я бы сказал нет, не все и не всегда
@farukhdadabaev3156
@farukhdadabaev3156 3 жыл бұрын
Tommy Hilfiger ❤️😍
@user-sk1mq6ro9y
@user-sk1mq6ro9y 3 жыл бұрын
Вопрос №1 (на засыпку) , что такое знак равно
@user-sk1mq6ro9y
@user-sk1mq6ro9y 3 жыл бұрын
@@miracl6 Удивите, тогда побеседуем, жду ролик о таракане
@Voronza
@Voronza 3 жыл бұрын
Это серьёзный вопрос на отличие присвоения от сравнения? С возможным выходом на тему перегрузки оператора? Или шутка юмора?
@Voronza
@Voronza 3 жыл бұрын
@@miracl6 куда приходить, если не секрет?)
@Voronza
@Voronza 3 жыл бұрын
Вопрос про знак оказался очень крутым, спасибо большое! Сначала я пробил док-стринги библиотеки "operator". И ничего не нашёл, что как бы намекает что "=" не является оператором. На всякий случай почитал код библиотеки "builtins", но тоже безрезультатно. Покопал с-код реализации разных типов, но также не нашёл очевидной реализации присвоения. Прямое гугление оказалось достаточно затруднительным. Поэтому пришлось залезть в официальные документы и в какой-то момент я набрел на страницу по лексическому анализу. Будет ли правильным следующий ответ?: Код Python читается парсером, который принимает на вход "токены". Один из видов "токенов" - разделители. Знак "=" является разделителем с побочным эффектом присвоения с разной логикой реализации под разные типы.
@user-sk1mq6ro9y
@user-sk1mq6ro9y 3 жыл бұрын
@@Voronza Я Вас поздравляю, вы прикоснулись к бездне которая разделяет элитное понимание от привычных и да вы верно заметили, ответ скрыт. Отвечу на ваш вопрос, Python заложник и да вы верно описали формат. Вопрос был задан в рамках DATA SCIENCE и поэтому вот еще одна подсказка, найдите саму простую мат. формулу при помощи которой можно описать абсолютно все и абсолютное ничто, постройте график функций и прозреете...
@alexanderv5402
@alexanderv5402 3 жыл бұрын
какая красивая тётенька... подпишусь)
@user-zi5wq1jj7s
@user-zi5wq1jj7s 2 жыл бұрын
Какая красивая девушка.
@MrTandem31
@MrTandem31 2 жыл бұрын
Да уж ну нафиг этот Data sience вынос мозга, до костей )
@lolplsdiethxbye3445
@lolplsdiethxbye3445 2 жыл бұрын
❤kz
@user-bs9kr3cu9n
@user-bs9kr3cu9n 2 жыл бұрын
Тут очень все похоже на анекдот из совка: Приехала Зыкина на гастроли в Грузию. Ей бурно аплодируют после каждой песни. Кончила петь - ее вызывают на бис. Спела на бис - ей аплодируют еще сильнее. Выходит она, наконец, на сцену и говорит, что репертуар исчерпан, петь нечего. - Зачем петь? - кричат ей из зала. - Ты ходи: туда ходи, сюда ходи! Анастасия, давай еще, еще. нам нравится!
@lex83641
@lex83641 2 жыл бұрын
Щас бы рандомным чувакам с ютуба лекции Воронцова рекомендовать. С ними не каждый CS студент справится
@user-tr7up6bl6q
@user-tr7up6bl6q 2 жыл бұрын
Трешак в первом же вопросе. Логлосс для мультиклассовой классификации? Параметр L позволяет усреднять метрику по нескольким классам? Там же блин на самом слайде вполне корректно написано, что усреднение идёт по выборке.
@antonneskaju3129
@antonneskaju3129 3 жыл бұрын
Видос мб полезный если прям совсем ничего не знаешь, а через час собеседование. Охват тем уж очень поверхностный, так что сильно не стоит обольщатся от полученной информации, копайте глубже.
@antonneskaju3129
@antonneskaju3129 3 жыл бұрын
@@miracl6 сомневаюсь что получится уместить в 20 часов все что может понадобится
@boris220967
@boris220967 3 жыл бұрын
Анастасия, увольте сотрудника который готовил презентацию. За незнание русского языка. 6:55, 7:54, ...
@user-eg1vy8pk1v
@user-eg1vy8pk1v 3 жыл бұрын
Ммда, видимо гуманитарию никогда не стать сцейнтистом, голова уже болит от этих python, pandas, numpy, matlib а здесь еще таааакое (( это как закончить техунивер в сжатый срок плюс учить нелюбимую математику ещё со школы.
@user-eg1vy8pk1v
@user-eg1vy8pk1v 3 жыл бұрын
@@miracl6 поиск инфы и анализ информации нравится, а вот матан и формулы нет
@user-eg1vy8pk1v
@user-eg1vy8pk1v 3 жыл бұрын
@@miracl6 Да, как раз анализ этого и провожу))
@valentinshaglanov6540
@valentinshaglanov6540 3 жыл бұрын
красивая да и еще и умная, я попал в Рай?
Как стать DATA SCIENTIST? // Девушки в IT
8:29
КАХА и Джин 2
00:36
К-Media
Рет қаралды 3,9 МЛН
The most impenetrable game in the world🐶?
00:13
LOL
Рет қаралды 26 МЛН
1 класс vs 11 класс (неаккуратность)
01:00
БЕРТ
Рет қаралды 3,2 МЛН
顔面水槽がブサイク過ぎるwwwww
00:58
はじめしゃちょー(hajime)
Рет қаралды 125 МЛН
Представила свой проект. Матчинг товаров. Курс Data Science Плюс.
8:42
Alanovna vlog. Мой путь в Data Science.
Рет қаралды 1,4 М.
Слив РЕАЛЬНОГО варианта ЕГЭ 2024 по математике | СТРИМ БУДЕТ УДАЛЁН
Школково ЕГЭ, ОГЭ, олимпиады
Рет қаралды 3,8 М.
КАХА и Джин 2
00:36
К-Media
Рет қаралды 3,9 МЛН