Deep Learning на пальцах 6 - Convolutional Neural Networks

No video

Deep Learning на пальцах 6 - Convolutional Neural Networks

Рет қаралды 26,830

5 жыл бұрын

Курс: dlcourse.ai
Слайды: www.dropbox.co...
Если все еще непонятно, читать: cs231n.github.i... или смотреть: • CS231n Winter 2016: Le...

Пікірлер: 35

@ruslandanila3040 4 жыл бұрын

После просмотра подобных видео всегда сдерживаешься, чтобы тебя не разорвали на части 2 эмоции: радость от крутого материала и сожаление о том, что в университете ни один из преподавателей даже близко не подошел к уровню преподавания, продемонстрированного в видео. Спасибо за курс

@dmitrygrishanovich4298 5 жыл бұрын

Это лучшее из того, что я видел в youtube на эту тему.

@TouchToDream 5 жыл бұрын

Теперь звук в порядке. Спасибо!

@dinarkino 5 жыл бұрын

Спасибо за перезалив!

@Bakuretso Жыл бұрын

19:44 подскажите пожалуйста! Не понимаю, если в тензоре, как я понял, просто выписываются элементы последовательно в матрицу 1 на 8, то по какому принципу разворачиваются веса в матрицу 2 на 8?

@stanislaustankevich5445 Жыл бұрын

тоже не понимаю. вы разобрались? может материал какой подбросите? :)

@sacramentofwilderness6656 4 жыл бұрын

В задании на реализацию самому сверхточного слоя сильно упрощает жизнь np.einsum, хоть не уверен, что это оптимально с точки зрения производительности

@zzzCyberzzz 2 жыл бұрын

почему обычно в конце больших CNN не более двух полносвязных слоев? Чтоб избежать затухания градиента? И BN обычно в них не ставят?

@user-pl8ee9iu3t 4 жыл бұрын

Ребят, не совсем понял про VGG14 момент с макспулом - на каждом очередном макспуле максимум выбирается из окна нейронов размером 2 на 2 с шагом 2 - таким образом результирующее число нейронов в каждом из подслоев макспула уменьшается в 4 раза и результирующий размер должен составить, например на макспуле после первого сверточного слоя, 112х112х64 а не 112х112х128 как указано в описании к архитектуре, потом погуглив нашел картинки, где между группами сверточных слоев нарисованы стрелочки с подписями pool/2. Что значит pool/2 - ? Значит что максимум выбирается из окна 2 на 1? Или как это понимать? Спасибо!

@zzzCyberzzz 2 жыл бұрын

Если у меня на входе не 3, а 28 каналов (ну так получилось осле FFT), то мне доступ к предобученным сетям типа VGG зарыт? Или можно как--то извратиться и свести к 3 каналам?

@dmitrymitrofanov3920 4 жыл бұрын

сдвинули этот экран пленку с него...?

@idiotophobic 5 жыл бұрын

Долго игрался с заданием про распознавание цифр на PyTorch, чтобы наработать интуицию и понять что на что влияет, так особо и не понял :) Но методом научного тыка довёл таки распознавание до 99,5%, что считаю приемлемым для такой простой задачи. Но реальные задачи, что требует больших вычислительных мощностей выглядят пугающе :(

@idiotophobic 5 жыл бұрын

Протупил, это не на той выборке было 99,5%. На тестовой выборке было всего лишь 95.4% :(

@user-nq6ll4fs9t 5 жыл бұрын

Большое спасибо за лекции!!! Извиняюсь за глупый вопрос и тем более запоздалый! Подскажите пожалуйста, как мы выбираем количество каналов для свертки? Правильно ли я понял при свертке мы суммируем значения (произведение веса(для данного канала) на значение пикселя (для данного слоя)) полученные на всех слоях изображения (RGB)

@sim0nsays 5 жыл бұрын

Да, именно так, только каналов на входе может быть больше 3 в середине сети. Количество каналов - это параметр архитектуры, точно так же как количество нейронов в fully connected слоях

@MikeMenshikov 4 жыл бұрын

У меня такой дилетантский вопрос: почему в сети засовывают цветные картинки (3 канала), если можно их перевести в grayscale и на выходе получить в 3 раза меньше набор обучаемых параметров? Ведь, насколько я понимаю, мы не отталкиваемся от цвета когда классифицируем объект на картинке, объекты же могут быть абсолютно любого цвета, в т.ч. серого.

@sim0nsays 4 жыл бұрын

Mike Menshikov во-первых, параметров в три раза меньше будет только на первом слое, а во-вторых в цвете очень много полезного сигнала, т.е. на чернобелых сеть бы научилась распознавать хуже

@MikeMenshikov 4 жыл бұрын

Ясность, спс за быстрый ответ

@idiotophobic 5 жыл бұрын

Вопрос: как сложно прогнать модель в обратном направлении? Чтобы на входе был класс, а на выходе данные изображения (всю инвариантность заполнять рандомом). И есть ли это из коробки в фреймворках?

@sim0nsays 5 жыл бұрын

Это требует совсем другого подхода, но на удивление возможно. Мы об этом поговорим в следующей лекции - kzbin.info/www/bejne/l5uogmRmqJ2LiMk

@Semihal 4 жыл бұрын

Отличное объяснение! Но я так и не понял, как считается градиент для conv-слоев. Для каждого conv-канала существует множество входных данных (если kernel_size ≠ image_size) и как тогда брать градиент? Он просто суммируется по всем "входам" или среднее берется? Или что-то другое...?

@Semihal 4 жыл бұрын

По всей видимости там сумма по входам... но почему именно сумма?

@user-up5fp8nh9g 4 жыл бұрын

В чем преимущество использования 3ех каналов перед одним числом, которым можно выразить цвет? Просто по принципу "чем больше число входов, тем лучше"?

@rizef2166 10 күн бұрын

Если мы скомбинируем информацию из каналов в виде одного числа, то мы потеряем информацию о каждом канале в отдельности - причина потери информации. Также потенциальное число которым мы закодируем цвет может быть очень большим, что может сказаться на стабильности градиента. Хотя 4 года прошло)

@fiftyshadesofgrey1991 2 жыл бұрын

Почему все так гемморойно

@alexanderstepanov6034 5 жыл бұрын

А где ссылки обещанные? :)

@sim0nsays 5 жыл бұрын

В описании!

@konstantinkulagin 5 жыл бұрын

@@sim0nsays нету!

@sim0nsays 5 жыл бұрын

@@konstantinkulagin Как это? Если все еще непонятно, читать: cs231n.github.io/convolutional-networks/ или смотреть: kzbin.info/www/bejne/gqnJhnqeqsxgn7M

@indir935 5 жыл бұрын

Больше хотелось бы увидеть Keras и Tensorflow на практике, а не PyTorch(

@Renat863 5 жыл бұрын

Почему?

@zombie_v 5 жыл бұрын

@@Renat863 в основном из-за простоты(миром правит лень, ну и чуток бабы), ну и микроскопом саморезы забивать в `19 уже... такое... да и тф оптимизирована хоть на радиках, хоть на куды-киных, хоть на лапатафонах...

@cover-band6035 5 жыл бұрын

@@zombie_vоткуда у Вас такие познания, можно поподробнее про достоинства и недостатки разных DL библиотек, может ссылки на бенчи?

@zombie_v 5 жыл бұрын

@@cover-band6035 холивар на тему, круче тф чем кафе торчЪ цнтк или х.з. ещё что-то, для меня не интересен, бенч для продакшена? ну поищите, если найдёте плз поделитесь. а если бенч для обучения, то как-бы сОАвсем не интересно, т.к. ИМХО проще связки питон-юпитер-тф-керас-тензорбоард не придумано пока