Бизнес на Парсинге Данных: Подробное Руководство. 47 советов из опыта.

  Рет қаралды 4,476

РУССКИЙ ИТ-БИЗНЕС

РУССКИЙ ИТ-БИЗНЕС

Күн бұрын

Еще больше и чаще пишу в канал t.me/bezsmuzi - подписывайтесь.
Рассказываю о том, как можно зарабатывать 5 млн. в месяц на парсинге сайтов и как построить на этом свой бизнес. Делюсь нашим опытом.
00:00:00 Введение в парсинг
• Автор рассказывает о своем опыте в парсинге, начиная с 2019 года, когда он и его команда начали заниматься этим бизнесом.
• Они зарабатывают на этом около 40-60 миллионов рублей в год, обслуживая клиентов из России, Беларуси и Казахстана.
00:04:48 Инструменты и источники данных
• Парсинг выполняется на стеке дотнет, питоне и других языках программирования.
• Основные источники данных - интернет-магазины, маркет-плейсы, ЦИАН, ДомКлик и другие.
00:09:38 Подводные камни парсинга
• Защита сайтов от парсинга, капчи и другие сложности.
• Парсинг не дешев, но обеспечивает качество данных.
00:10:38 Архитектура парсера
• Парсер пишется с чистого листа, без шаблонов и решений.
• Поддержка парсера осуществляется командой программистов, которые адаптируются к новым задачам и изменениям на сайтах.
00:11:18 Хранение и выгрузка данных
• Парсеры собирают данные, выгружают их на облако, где клиенты могут забрать их вручную или через API.
• Парсеры не хранят данные, так как это физически невозможно для тысяч сайтов в день.
00:12:54 Оценка качества работы и блокировка ботов
• Отчеты о работе парсеров приходят на почту, команда поддержки следит за количеством собираемых данных.
• Парсеры обходят блокировки ботов, используя прокси-серверы.
00:13:50 Автоматизация и обучение
• Парсеры автоматизируют мониторинг цен и сбор контента, но не занимаются аналитикой или оценкой правомерности действий.
• Для парсинга достаточно базовых навыков программирования.
00:14:45 Ускорение работы и оптимизация хранения данных
• Парсеры оптимизируют хранение данных, чтобы избежать перегрузки базы данных.
• Обучение парсингу: начать парсить и учиться на практике.
00:18:04 Успешные коммерческие проекты
• Бренд-монитор с выручкой около миллиарда рублей занимается аналитикой тональности и упоминаемости.
• Парсеры продают данные, а не сам парсинг.
00:19:31 Тестирование и языки программирования
• Парсеры тестируют работу парсеров через техническую поддержку и визуальные инструменты.
• Для парсинга подходят языки программирования, такие как Python.
00:22:22 Парсинг и его использование
• Парсинг - это сбор данных с сайтов, не считается незаконным, если не нарушает авторские права.
• Парсинг может быть использован для анализа данных и создания продуктов на их основе.
00:24:12 Выбор прокси и задачи парсинга
• Используются мобильные прокси для обхода защиты сайтов.
• Задачи парсинга связаны с топовыми ресурсами в каждой сфере (маркетплейсы, строительные магазины, автомобильные сайты).
00:25:24 Потенциал парсинга для бизнеса
• Парсинг может приносить регулярный доход для бизнеса.
• Важно получать регулярные платежи от клиентов.
00:26:53 Рекомендации по парсингу
• Не пытайтесь решать задачи за клиента, пусть клиент приходит к вам.
• Используйте библиотеки для упрощения парсинга, но не делайте его ключевым моментом.
• Важно не навредить сайту при парсинге и не нарушать авторские права.
00:29:47 Защита парсера от блокировки
• Обходить защиту сайта и не нарушать авторские права.
• Не давать гарантий на качество парсинга.
00:33:26 Правовые претензии и парсинг
• Автор рассказывает о том, как компания столкнулась с правовыми претензиями из-за использования товарного знака "Эльдорадо" на своем сайте.
• Он решил проблему, просто изменив название на "Парсинг Эльдорадо".
00:34:28 Книги для парсинга и обучение
• Автор утверждает, что для обучения парсингу достаточно использовать готовые библиотеки и начать парсить сайты.
• Он также отмечает, что в индустрии парсинга растет конкуренция, но объем рынка остается колоссальным.
00:35:27 Будущее парсинга
• Автор считает, что парсинг будет востребован в различных отраслях, и его навыки будут востребованы.
• Он также упоминает о необходимости нанимать команду программистов и поддерживать серверы для выполнения заказов на парсинг.
00:36:19 Заключение
• Автор считает парсинг вечной темой и надеется, что она не станет вне закона в России.
• Он также отмечает, что зарубежные заказчики продолжают обращаться к его компании, несмотря на ограничения в их странах.
Наши проекты:
Защита от скликивания рекламы clickfraud.ru
Мониторинг цен конкурентов xmldatafeed.com/
Разработка мобильных приложений notissimus.com/
Мне можно писать вопросы здесь: t.me/maximkulgin

Пікірлер: 32
@Lukaviskys
@Lukaviskys 3 ай бұрын
Спасибо!
@AlexShataev
@AlexShataev 3 ай бұрын
"Библиотеки сами поищете, прокси команда закупает, сервис для решения капчи не помню как называется" 😂 спасибо, очень информативное видео 😂
@MaximKulgin
@MaximKulgin 3 ай бұрын
Ну извините - надо жопу оторвать и поработать тоже
@user-bw7cn3gu1k
@user-bw7cn3gu1k 3 ай бұрын
По его мнению вы должны были просто отдать свой бизнес ему ) в благодарность за просмотр.
@johnconnor632
@johnconnor632 3 ай бұрын
Вы в защитах акамай забыли упомянуть)
@NikolayServakov
@NikolayServakov 3 ай бұрын
Самый известный, наверное, успешный коммерческий проект - авиасейлз)
@albor7599
@albor7599 3 ай бұрын
Осталось только курсы на Udemy выложить😊
@MaximKulgin
@MaximKulgin 3 ай бұрын
:)
@AlexShataev
@AlexShataev 3 ай бұрын
Подскажите, хороший объём для специалиста, это сколько товаров в сутки на том же я.маркете например? На что ориентироваться примерно?
@MaximKulgin
@MaximKulgin 3 ай бұрын
Ну например 100к в сутки
@johnconnor632
@johnconnor632 3 ай бұрын
2gis через мобильное API парсится, прилу снифать надо
@user-pe8ew9tq8z
@user-pe8ew9tq8z 3 ай бұрын
У вас есть франч? Я бы купил ваш код парсинга и переписал под 1С ))
@MaximKulgin
@MaximKulgin 3 ай бұрын
:) нету
@DreamingDolphing
@DreamingDolphing 3 ай бұрын
Вот вы говорите нет нейронных сетей, а как вы будете обходить защиту, когда некоторые данные на странице генерируются картинкой или как-то через js генерируются в canvas?
@vr29645
@vr29645 3 ай бұрын
а никак. таких заказчиков еще надо поискать, а с учетом того что их мало - смысла инвестировать в сложный мл, полагаю, нет
@MaximKulgin
@MaximKulgin 3 ай бұрын
Верно
@MagicMightNew
@MagicMightNew 3 ай бұрын
Был какой-то зарубежный сайт, где они карточки (чего-то похожего на товары) рендерили в канвас. Вот только у них данные для рендера можно было перехватить)
@email9092
@email9092 3 ай бұрын
такие сайты никто парсить не будет - вывод - в итоге и клиенты с ними полноценно не смогут работать и уйдут. в итоге через время эту защиту сами снимут, так как сами себе делают хуже!
@SergeyBagretsov
@SergeyBagretsov 3 ай бұрын
С какой скоростью желательно парсить ап-ру и все-ин?
@cherkasA
@cherkasA 3 ай бұрын
когда то парсил все инструментыру было у них тогда около 800 000 товаров что бы не банилипарсил в один поток. с применением 100-200 прокси - почти месяц ушел выкачивал всё характеристики, фото. описания и т.д.
@mustizeo760
@mustizeo760 3 ай бұрын
​@@cherkasAна каком яп выполнил задачу ?
@TheDoartLos
@TheDoartLos 2 ай бұрын
Можно ли устроиться к вам в компанию? Стек: python
@ypohut1673
@ypohut1673 3 ай бұрын
Этот еще надо заказчиков искать чтобы парсинг продать?
@MaximKulgin
@MaximKulgin 3 ай бұрын
Да
@RaleXx85
@RaleXx85 3 ай бұрын
Парсинг - штука неоднозначная. Вы в курсе, что многие сайты (напр., торгвые сети) периодически ставят блокировки от парсинга на свои сайты? И то, что работало вчера - сегодня работать перестает и никому не нужно (приходится переписывать код заново, обходя блокировки). Так что больших денег на этом не заработать. Если покажете хоть один достойный пример - можете кинуть в меня камень.
@vyacheslavs5642
@vyacheslavs5642 3 ай бұрын
NextCloud?
@MaximKulgin
@MaximKulgin 3 ай бұрын
да
@your-hater
@your-hater 3 ай бұрын
Снова один и тот же ролик с посылом обо всём и ни о чём. Как вообще можно воспринимать человека всерьёз, когда в прошлых роликах он сначала говорит, что контекстная реклама умерла, а потом идёт эту контекстную рекламу размещать. 🤦🏻‍♂️
@MaximKulgin
@MaximKulgin 3 ай бұрын
у нас нет рекламы
АВДА КЕДАВРАААААА😂
00:11
Romanov BY
Рет қаралды 10 МЛН
How To Learn Algorithms? Why? #codonaft
19:22
codonaft
Рет қаралды 555 М.
Excel Pivot Tables from scratch to an expert for half an hour + dashboard!
34:55
Билял Хасенов – Excel, VBA & More
Рет қаралды 2 МЛН
АВДА КЕДАВРАААААА😂
00:11
Romanov BY
Рет қаралды 10 МЛН