Лекция 3. Иерархический кластерный анализ

  Рет қаралды 44,917

Computer Science Center

Computer Science Center

Күн бұрын

Пікірлер: 27
@GregoryMaclion
@GregoryMaclion Ай бұрын
Огромное спасибо за лекцию. Для диссертации нужно было разобраться в кластеризации для геоботанических целей. Хорошее начало, буду изучать дальше. Наконец-то понял как читать дендрограммы
@Jenenok
@Jenenok 2 жыл бұрын
Спасибо за лекции. И отдельное спасибо за ваше чувство юмора))) я давно так даже при просмотре развлекательного контента не смеялась.
@evstafyevandrew2198
@evstafyevandrew2198 2 ай бұрын
00:46:06 Цвет глаз ... сколько пива ... - А если глаза красные?
@ЖеняЗахарченко-щ3ю
@ЖеняЗахарченко-щ3ю 3 жыл бұрын
Огромное спасибо за лекции, стало гораздо понятнее, как реализовывать сам процесс кластеризации
@АнарГасанов-у3з
@АнарГасанов-у3з 2 жыл бұрын
Очень интересно и подача материала супер! Наткнулся перед спринтом по ML, спасибо вам большое)
@АнастасияНикифорова-л6щ
@АнастасияНикифорова-л6щ 3 жыл бұрын
Спасибо огромное! Идеальная подача материала.
@denistalko6585
@denistalko6585 2 жыл бұрын
Прекрасная лекция, спасибо!!
@annachurkina2588
@annachurkina2588 4 жыл бұрын
Вадим Леонардович, спасибо! Вопрос о приложении знаний, полученных на курсе. Почему кто-то обращается к Вам с задачами кластеризации и анализа данных? Я имею в виду именно формат анализа данных на аутсорсе. Почему кому-то выгодно поручить такую задачу как проект на стороне, а не нанять аналитика данных в штат? Как такие проекты находить?
@Vadim_Abbakumov
@Vadim_Abbakumov 4 жыл бұрын
Если у компании нет постоянного потока задач, если компания только начинает применять методы анализа данных. Проекты можно находить на сайтах для фрилансеров. но есть много стратегий...
@ВадимШатов-з2й
@ВадимШатов-з2й 3 жыл бұрын
@@Vadim_Abbakumov пользуясь случаем, хочу вам сказать, что вы потрясающий. Спасибо вам большое за эти лекции. Почти 2 года назад смотрел вас. Ваши лекции очень мне помогли тогда :)
@edgull_tlt
@edgull_tlt 3 жыл бұрын
Спасибо
@OlehKarpa
@OlehKarpa 4 жыл бұрын
Здравствуйте! 1:12:25 - "Книжка Гордона "Кластерный анализ"... Можно полное посылание на эту книгу? Спасибо.
@Vadim_Abbakumov
@Vadim_Abbakumov 4 жыл бұрын
Gordon Classification 2nd Edition 1999
@OlehKarpa
@OlehKarpa 4 жыл бұрын
Большое спасибо!
@ivanvekhov6743
@ivanvekhov6743 5 жыл бұрын
Получается, что нормализация - это синоним стандартизации (или более общее название этой процедуры)? судя по комментариям в ноутбуке с примерами?
@Vadim_Abbakumov
@Vadim_Abbakumov 5 жыл бұрын
У меня нормализация - деление на стандартное отклонение, без вычитания среднего. Как нормализация вектора. Если с вычитанием среднего, то стандартизация. В каких-то текстах иначе. Да, бардак. Мы не можем даже договориться, диаграмма рассеивания или диаграмма рассеяния...
@grandlagging0zero175
@grandlagging0zero175 4 жыл бұрын
Доброго времени суток. Постараюсь писать под каждым видео то, что можно бы сделать лучше + еще список вопросов, которые не понял. Буду благодарен, если ответите на них! Может кому-то и пригодится. Спасибо за лекцию! 1. Обычно переменную(характеристику, признак и т. д.) называют целевой переменной. 5:00 Результирующая классно звучит. Мне кажется вам будет интересно посмотреть как обычно представляют свои решения, выборки и прочее datascientist'ы. Вот неплохой канал с отличным выступающим лектором С. Семёнов. kzbin.info/www/bejne/qovLnKpqZcx3oac&ab_channel=ODSAIRu 2. Пожалуйста выкладывайте материалы лекций, презентации под видео. Не думаю, что кто-то будет их использовать. 3. Пожалуйста не прокручивайте так быстро слайды, хотелось бы прочитать(да, я прочитал, остановив видео), но так было бы культурней? Не знаю. 4. Кажется на 7:47 - это не другие задачи класификации, а методы классификации выборок. Возможно я ошибаюсь. 5. Обычно каждому объекту соответствует d(общее количество. можете в python написать для любого датасета следуюшее и поймете DataFrame.shape -> (2000, 10). L=2000(количество объектов в выборке, строк), d = 10(количество признаков, классов)) признаков(классов). В итоге получается d мерное пространство признаков. х1..хn тоже верно, оно обозначает каждый признак по отдельности, например x1 - age и т.д. 6. Из прошлых уроков. Не надо писать дополнительно len(data), в методе shape уже отражено количество строк с объектами в DataFrame 7. Если в ячейке вы планируете вывести только одну переменную, то писать print не нужно Пример: dataFrame.shape равнозначно print(dataFrame.shape) 8. Лучше не показывать мышкой(мы ее не видим, либо включите мышку на видео(с этим помогает бесплатный OBS)) или покрасьте точки. Еще 1 слайд и картинка. 9. Расстояние Хэмминга есть в разделе Data Science NLP, но я не помню конкретного названия. Думаю стоит добавить его на слайд(ссылка, чтобы студенты посмотрели) 10. Забавно на 14:40 на сегодня все :0 11. Пожалуйста, проговаривайте, то что у вас спрашивают. Вопросы: 1. Получается, что если большое одно значение, которое мы получаем в Евклидовом расстоянии(корень) делает наше значение непохожим, то лучше оставить этот метод? Иначе использовать Манхеттен? ваши слова: "большое значение в вашей задаче делает объекты непохожими или нет, оно терпимо. Если уже делает, то лучше Евклидово, если нет, то лучше Манхеттен" 2. Что такое среднее попарных? возможно я не так услышал название на 32:20 3. Как вы посчитали расстояние между кластерами для дендограммы? брали по оси х и у, считая гипотенузу?
@Vadim_Abbakumov
@Vadim_Abbakumov 4 жыл бұрын
Спасибо за Ваши замечания. Сейчас записывается очередная версия курса, советы очень нужны. Буду отвечать фрагментами, не хватает времени. Вопрос 1 Да, если большое различие хоть по одной координате делает объекты различными, то Евклидово расстояние предпочтительнее, чем Манхэттен. Если не делает, то предпочтительнее Манхэттен Вопрос 2. Среднее попарных расстояний обсуждалось на 22:30 На 32:20 говорилось, что расстояние между кластерами, состоящими из одной точки каждый не зависит от выбора расстояний между кластерами... Вопрос 3. Нет. Считал все то же среднее попарных расстояний, но расстояние между точками - манхэттен. Никаких гипотенуз.
@annachurkina2588
@annachurkina2588 4 жыл бұрын
Вопрос про интерпретацию результатов. Расскажите, пожалуйста, как интерпретировали результаты в задаче превращения 100 000 сайтов в 400 групп? Вряд ли все 400 групп кто-то смотрел глазами и давал им названия вроде "Группа сайтов любителей Питона".
@Vadim_Abbakumov
@Vadim_Abbakumov 4 жыл бұрын
Никак, интерпретация не была целью, мы знали, что невозможно работать с 100000 сайтов, поэтому нас устроила бы и неинтрпретируемая кластеризация. Тем не менее после каждого обновления кластеризации кто-то глазами просматривал состав кластеров. Получалось довольно много разумных кластеров.
@MikeVodeneev
@MikeVodeneev 3 жыл бұрын
@@Vadim_Abbakumov Здравствуйте! Не знаю, читаете ли вы еще комментарии под этим видео, но если да, то не могли бы Вы мне помочь с функцией LoadFromCSV в с++. Это аналог функции read_csv в питоне. Вызываю ее строго в соответствии с документацией, но почему-то не считывает файл
@ИринаРадкевич-с5з
@ИринаРадкевич-с5з 3 жыл бұрын
Здравствуйте! Скажите, пожалуйста, права я, когда считаю ООП (обьектно - ориентированное программирование), и кластеризацию синонимичными понятиями, а точнее способами анализа данных? Спасибо огромное за лекции!
@Vadim_Abbakumov
@Vadim_Abbakumov 3 жыл бұрын
Нет, не правы. Только для человека, который считает, что все в мире ООП (или что все суть кластеризация). ООП это методология программирования, может использоваться, когда данных нет.
@OlgaGalanina
@OlgaGalanina 10 ай бұрын
Все правильно лектор говорит, но как то заумно. Объяснить иерарх кластеризацию можно не так заумно
@РассветСнежный
@РассветСнежный Жыл бұрын
К лекции для студентов надо готовиться. Так лекции читать нежелательно.
@SEE.YOU.ROUND.
@SEE.YOU.ROUND. Ай бұрын
спасибо
Лекция 4. Метод к-средних
24:40
Computer Science Center
Рет қаралды 26 М.
Основы машинного обучения, лекция 16 - кластеризация
1:12:33
ФКН ВШЭ — дистанционные занятия
Рет қаралды 1,1 М.
Управление Миром Лекции ФСБ ( Ефимов )
2:01:38
Valery Kudryavtsev (1337 Sp34kage)
Рет қаралды 10 МЛН
Андрей Фурсов - Мир сломался. Почему? Как? Что дальше?
1:48:28
Лекция 10 Прогнозирование временных рядов
1:27:26