Python парсинг динамических страниц сайтов с JavaScript Ajax

  Рет қаралды 43,959

Python Hub Studio

Python Hub Studio

Жыл бұрын

Парсинг динамических сайтов на python, которые подгружают контент при помощи JavaScript ( Ajax ). Т.е. так называемая бесконечная прокрутка (скролл), а также данные подгружаемые через json.
Сайт из видео:
scrapingclub.com/
Курс парсинга (плейлист):
• Курс Парсинга на Python
Гайд по библиотеке requests, с авторизацией, работой с API и post запросами:
• Python requests http, ...
Курс по python (7 часов):
• Учим python за 7 часов...
Курс по HTML и CSS (7 часов):
• Учим HTML и CSS за 7 ч...
-------------------------------------------------------------------------------------------------------------------
Кто хочет, может купить автору кофе, чтоб делать новое видео было веселей:
Доступны функции Спонсорство и Суперспасибо.
При этом весь контент на канале, как был, так и останется в открытом доступе ДЛЯ ВСЕХ!
А спонсосрство и суперспасибо - это способ выразить особую благодарность автору и
мотивировать на создание нового полезного контента!
Кнопки Суперспасибо и Спонсировать под видео(отображаются не во всех странах)
-------------------------------------------------------------------------------------------------------------------
Подписывайтесь на канал!

Пікірлер: 70
@aquabogira
@aquabogira 7 ай бұрын
Python Hub Studio, Ваши простые и понятные объяснения СЛОЖНЫХ ВОПРОСОВ делают обучение настоящим удовольствием. Благодарю за возможность воспользоваться вашим ПРОФЕССИОНАЛИЗМОМ! Спасибо за ценные уроки и поддержку!
@Vladislav_Maliuk
@Vladislav_Maliuk Жыл бұрын
Спасибо за урок! Как всегда информативно и доступным языком👍
@user-je6dz7vz4y
@user-je6dz7vz4y Жыл бұрын
Еще одна огромная благодарность вам. Очень благодарен вам за ваш труд. Бриллиант в океане туториалов! 💎
@igorratnik2357
@igorratnik2357 9 ай бұрын
Спасибо, все четенько, по делу и без лишней воды!
@oleg3141
@oleg3141 Жыл бұрын
Спасибо!! Отличный урок.
@user-iq9sk9wg5e
@user-iq9sk9wg5e Жыл бұрын
Лайк и благодарность по умолчанию 👍
@stradys
@stradys Жыл бұрын
Спасибо за видео! Понятно объясняете, приятно смотреть. Сделайте также пожалуйста урок с использованием Selenium для динамических сайтов. Думаю многим пригодится.
@aleksejborovinskij1155
@aleksejborovinskij1155 Жыл бұрын
Спасибище! Однозначно в закладки видео.
@user-ri1in6rp9y
@user-ri1in6rp9y 2 ай бұрын
Нашёл, что искал. Спсибо, Python Hub Studio!
@fsoky
@fsoky Жыл бұрын
Полезная информация, спасибо ;3
@negonifas
@negonifas Жыл бұрын
Спасибо тебе добрый человек
@raketa12
@raketa12 Жыл бұрын
это чудо. ролик по requests появился через день, после того как я начал изучать эту библиотеку. вчера я столкнулся проблемами в практике по парсингу, и тут это видео! лайк
@alikhanguluzada9576
@alikhanguluzada9576 Жыл бұрын
Спасибо большое!
@short_aliexpress
@short_aliexpress Жыл бұрын
Видео очень понравилось. лайк не забыли поставить)
@trotskijandrew
@trotskijandrew Жыл бұрын
Спасибо ! Много подчерпунул
@iprahka
@iprahka 9 ай бұрын
Супер полезный видос
@mylife-ej8et
@mylife-ej8et Жыл бұрын
Хороший видос
@user-bu3vp4mz4l
@user-bu3vp4mz4l Жыл бұрын
Респект
@BelllLabs
@BelllLabs Жыл бұрын
Здравствуйте, автор канала! Спасибо за контент! Какие источники информации (книги, ютуб.каналы, сайты) по Питону можете посоветовать новичку и вообще что нужно знать начинающему фрилансеру?
@bill8126
@bill8126 Жыл бұрын
Привет, расскажи почему используешь Интернет Експлорер ? В чем плюсы ?
@giftingif7667
@giftingif7667 6 ай бұрын
На 14 минуте вы сказали про код 200 и код 300 с копеечкой и про перенаправление. А если на сайте есть перенаправление и 304 код, то как тогда быть? И если не xhr, а fetch запрос и ещё есть graphql. Будут ли видео про парсинг ещё у вас?
@user-xo2bl2vz3o
@user-xo2bl2vz3o 3 ай бұрын
Пол года назад, начал учить Пайтон язык, по вашим Видео урокам И...? Я стал маленьким программистом) Я успешно сдал свой первый заказ на фрилансе и продолжаю дальше учится!) Но остается много тумана и неясностей В частности, если web разработка не зашла, а именно frontend (backend ещё норм), куда ещё можно посмотреть? На чем ещё можно зарабатывать? За аналитиков данных , или машинное обучение вы что-то знаете? Там интересно?)
@PythonHubStudio
@PythonHubStudio 3 ай бұрын
Я так понимаю автоматизация, вроде парсинга и ботов в портфолио тоже есть... Аналитика и ML очень хорошая тема, но не особо для фриланса с нуля, так как уровень ответственности с точки зрения заказчика намного выше, и разнородность требований/задач больше, а значит количество заказов на старте которые вы сможете взять меньше. Это если про фриланс. А так, то направление максимально перспективное.
@CrazyDark
@CrazyDark Жыл бұрын
Будет ли видео по JS и React ?
@mak32
@mak32 Жыл бұрын
Разберите пожалуйста обновлённый selenium
@user-gh4tl5fu8f
@user-gh4tl5fu8f Жыл бұрын
Добрый день! подскажите пожалуйста, как собрать информацию с сайта вайберриз а именно на каком месте находиться мой товар по различным запросам, возможно ли научиться этому с помощью PYTHON?
@man_with-no_name
@man_with-no_name Жыл бұрын
Можно к вам куда-нибудь лично обратиться по вопросу парсинга?
@alexandrx6449
@alexandrx6449 Жыл бұрын
Спасибо за видео! Подскажите пожалуйста есть ли сейчас возможность парсить avito? что только не использовал, ответ всегда 403 при попытке установить соединение на стартовой странице
@user-wc1kx5zr3k
@user-wc1kx5zr3k 11 ай бұрын
неделю назад написал его на Selenium отлично работает, но для моего случая нужна была авторизация в начале по смс для получения большего числа данных
@reddmon7213
@reddmon7213 5 ай бұрын
давай видео как парсить сайты с каптчей запросами(без селениума) пожалуйста
@aishuu848
@aishuu848 Жыл бұрын
А что делать если на сайте не обновляется page в ссылке?
@Tak0ri
@Tak0ri 4 ай бұрын
Пробовал потренироваться парсить защищенные сайты. Пока не получается вытащить json простым get запросом. Хотя если в браузере на странице посмотреть в инспекторе где XHR там все JSON, которые через API получаются можно найти. Вариант только через selenium? Или может есть какой путь более быстрый?
@alexlogan4678
@alexlogan4678 Жыл бұрын
Хм, а как отработал print(response['title'])? в питоне возвращает ошибку формируется список а не словарь "TypeError: list indices must be integers or slices, not str". Через цикл For работает. for item in response: print(item['title'])
@metanlife9476
@metanlife9476 Жыл бұрын
Можешь сделать видео что нужно знать для data science для устройство на работу)
@luispakvard5681
@luispakvard5681 Жыл бұрын
А помните вы видео записали как сделать Питон флешку а я написал скрипт который парсит мой гитхаб и выводит список менюшку с питон скриптами когда выбираете оно скачивает и запускает я так могу прийти в офис и напоназапускать своих скриптов на любом компе где пайтон не установлен ну и скрипт который ищет питон скрипты на моей флешке и запускает в виртуальном окружении venv
@PythonHubStudio
@PythonHubStudio Жыл бұрын
Круто!
@ivan_lapitski
@ivan_lapitski Жыл бұрын
подскажите пожалуйста, как распарсить сайт Майкрософта? нужно распарсить карточки с играми, а способ с видоса не работает, никак разобраться не моуг (((
@MrBooomsik
@MrBooomsik 8 ай бұрын
Добрый день, а geekjob возможно спарсить? Не будет ролика как это сделать?
@PythonHubStudio
@PythonHubStudio 8 ай бұрын
Ролика не будет как этот ресурс парсить, парсинг на канале есть только в качестве тренинга для начинающих, чтоб была практика по python и понимание в запросах. Это не благодарное дело(парсинг), поэтому хоть и можно спарсить любой сайт и попытаться на этом заработать, как это делать обходя блокировки выпускать видео не буду. Это никому не нужно, это не то чем нужно себя занять в программировании.
@usyf14
@usyf14 Жыл бұрын
Уважаемый автор, я прошел ваш семичасовой курс по Python и хочу поблагодарить вас за проделанную работу, но в моей стране нет функций спасибо. Как бы я смог отправить вам денег?
@Nightmare-sw4nz
@Nightmare-sw4nz Жыл бұрын
описание смотри
@LifterAndy
@LifterAndy Жыл бұрын
Спасибо!
@user-fi3ub4lt1f
@user-fi3ub4lt1f 7 ай бұрын
Здравствуйте. Не могли бы Вы подсказать, почему Chrome не видит "ajaxdetail/" и прочие такие файлы, в чем может быть проблема?
@PythonHubStudio
@PythonHubStudio 7 ай бұрын
Все браузеры это видят, только может называться вкладка по другому xhr, fetch, ajax, и тд
@user-jg9ho5nt1r
@user-jg9ho5nt1r 6 ай бұрын
@@PythonHubStudio У меня тоже в браузере не отображается ajaxdetail/. На вкладке xhr/fetch вместо него стоит: ?sentry_key=547...., у которого статус 200 и POST-запрос, а не GET. На вкладке "Ответ/отклик" - пустой словарь. Можете подсказать почему так?
@user-jg9ho5nt1r
@user-jg9ho5nt1r 6 ай бұрын
Разобрался в чём дело. Надо было кликнуть на другую страницу ("Mimicking Ajax requests") и уже там смотреть html-код.
@ismailagasiev
@ismailagasiev Жыл бұрын
Привет! Как можно задонатить тебе из России?
@fanteam5179
@fanteam5179 4 ай бұрын
Что делать если обрезали доступ к этой ссылке. Когда захожу по по подобной ссылке из url-запроса то мне пишет: 403 Forbidden nginx/1.18.0. Но на сайте можно открыть нужную мне информацию по нажатию кнопки и появится модальное окно, (которое не видно в элементе без нажатия этой кнопки). Можно ли как-то с помощью requests нажать на эту кнопку чтобы потом взять элементы из этого модального окна?
@user-zp4go1nz7n
@user-zp4go1nz7n Жыл бұрын
ошибка TypeError: 'str' object is not callable
@user-yx9mi7xf6g
@user-yx9mi7xf6g Жыл бұрын
Здравствуйте, у меня есть 30 тыс ссылок и мне нужно из каждой ссылки собрать - артикул, описание и картинку. Заметила, что сайт не любит большое количество запросов. Есть ли способ обойти эту защиту используя прокси или что-то другое. Хотела купить прокси, но это дорого
@imeyk
@imeyk Жыл бұрын
Выставить задержку? И есть бесплатные прокси.
@alexbritwa9873
@alexbritwa9873 Жыл бұрын
33 рубля в месяц вовсе не дорого
@eugenex8892
@eugenex8892 9 ай бұрын
Как это без обновления страницы? Страница-же обновилась... Ты имеешь ввиду БЕЗ ЗАГРУЗКИ/ПЕРЕЗАГРУЗКИ страницы....
@PythonHubStudio
@PythonHubStudio 8 ай бұрын
Игра слов
@user-bc5ry6ym2f
@user-bc5ry6ym2f Жыл бұрын
Всем привет! Кто знает, как обойти вот это? Ваш браузер не смог пройтипроверку.Для доступа к веб-ресурсу включите в настройках вашего веб-браузера поддержку JavaScript или воспользуйтесь другим веб-браузером, который поддерживает JavaScript.
@firstandlast4435
@firstandlast4435 Жыл бұрын
Попробуй с помощью selenium загружать страницу, и потом уже сохранять ее и отправллять в bs4. Это может быть не очень хороший совет потому как я сам только учусь, но если я правильно понял твою проблему, то selenium поможет
@user-bc5ry6ym2f
@user-bc5ry6ym2f Жыл бұрын
@@firstandlast4435 Спасибо за комментарий! Да, я как раз и использовал selenium. Но , увидев данный ролик, подумал, что смогу справляться с задачей скроллинга на сайте и без selenium. Протестировал через requests, но сервер не пускает меня, потому что, как понял, не прохожу проверку на "человечность".
@firstandlast4435
@firstandlast4435 Жыл бұрын
@@user-bc5ry6ym2f мне по сообщению показалось что сайт проверяет не на человечеость а на совместимость с яваскрипт, так как использует его для отображения контента. Это логичная проверка и я думаю что отнюдь нередкая
@firstandlast4435
@firstandlast4435 Жыл бұрын
@@user-bc5ry6ym2f просто насколько я знаю когда то не все браузеры поддерживали яваскрипт. Хотя сейчас все популярные браузеры это делают
@user-bc5ry6ym2f
@user-bc5ry6ym2f Жыл бұрын
@@firstandlast4435 Попробую через selenium зайти и в метод get отправлять запросы имитирующие скроллинг. Но почему-то у меня устоявшийся в голове принцип, что селениум чисто для имитации действий пользователя, и что он не может в запросы API.
@ArchieWh1te
@ArchieWh1te Жыл бұрын
почему не использовать Pycharm ? VS Code смотрится фигово
@PythonHubStudio
@PythonHubStudio Жыл бұрын
Или наоборот. И для меня важны преимущества vscode, а VStudio чрезмерно тюнингованая.
@back_to_life0
@back_to_life0 7 ай бұрын
Это не парсинг динамических страниц А парсинг страниц которые присылают json
@PythonHubStudio
@PythonHubStudio 7 ай бұрын
В этом видео парсинг по ajax запросам, которые сайт отрисовывает динамически(без перезагрузки) по средствам JavaScript - json и фрагменты разметки.
@back_to_life0
@back_to_life0 7 ай бұрын
@@PythonHubStudio сайт ничего не отрисовывает, рендерит драйвер.... поэтому как я и сказал это не то, я искал как без этого ссаного хром драйвера + селениум который жрет кучу ресурсов получать уже отрендеренные страницы
@Cyr173
@Cyr173 11 ай бұрын
задержка time.random излишняя.
@user-wc1kx5zr3k
@user-wc1kx5zr3k 11 ай бұрын
вообще не понял зачем она? для обхода антипарсиноговой блокировки?
Парсинг динамических сайтов | selenium python
43:00
Алексей Куличевский
Рет қаралды 2,4 М.
100❤️
00:20
Nonomen ノノメン
Рет қаралды 74 МЛН
Пробую самое сладкое вещество во Вселенной
00:41
Кушать Хочу
Рет қаралды 1,9 МЛН
Python Web Scraping Example: Selenium and Beautiful Soup
7:44
Python ML Daily
Рет қаралды 2,9 М.
Парсинг сайта на языке Python авто тематики | requests,  bs4, csv
42:05
Андрей Андриевский
Рет қаралды 1,5 М.
Простой парсинг сайтов на Python | requests, BeautifulSoup, csv
1:11:50
Андрей Андриевский
Рет қаралды 133 М.
Parsing sites PYTHON - # 2 BEAUTIFUL SOUP, FAKE-USERAGENT
14:45
ZProger [ IT ]
Рет қаралды 64 М.