1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Ну тогда наверное можно загнать все сайты в белый список и работать.
Читать полностью…
он и разруливает, через таймаут, но человеку хочется дождаться
Читать полностью…
Все равно придется юзать семафор, так как соединений неользя открыть больше положенного, да и дорого прокачать такой сервка, нужно бюольше железа
Читать полностью…
Если из 15 к сайтов, таких будет 5 к, то время обработки улетает в бесконечность
Читать полностью…
Также усложняет парсинг время ответа сайтов, некторые по 20 секунд отвечают
Читать полностью…
Скрапи может быть очень быстрым в умелых руках. Очень широкая постановка задачи. Известны ли все урлы по которым надо пройтись на момент старта? Куда нужно писать данные? Какой бюджет на прокси? Сколько машин доступно для запуска пауков? Как надо обрабатывать баны/отвалившиеся сайты/рейтлимиты? Какой процент удачно обработанных запросов считается успехом? Какой ответ на самый главный вопрос жизни, вселеной и всего такого?
Читать полностью…
Насколько он быстрый, я слышал что можно развернуть кластер, у меня есть кафка, редис тоже не проблема
Читать полностью…
ок, прокся спасет, скорее всего.
Если вопрос был именно в этом
можешь попробовать puppeteer, там вроде есть возможность обходить клаудфлер
Читать полностью…
Всем привет!
Как вы архитектурно видите парсинг 15 к сайтов, у которых как минимум 1 страница, а как максимум 1000?
Думаю использовать скрапи с ротацией прокси, но мне нужно проверить это все за 4 часа, на каждой странице мне нужен весь текст, никогда не работал с скрапи, насколько это будет эффективно?
Не понял меня походу, имею ввиду, я спршивал, правильно понимаю, что только отвал по таймуту поможет в этой ситуции никак чужой сервак не ускорить
Читать полностью…
Отбой по таймауту и возврат ссылки в базу с пометкой на перезапуск. Но вообще скрапи сам таки ситуации разруливать должен.
Читать полностью…
В скрапи придется для каждого сайта настраивать правила ,чтобы паук не убежал и не собрал лишнего.
Если придумаете, как это сделать, то все реально.
Известны ли все урлы по которым надо пройтись на момент старта?
Куда нужно писать данные?
Какой бюджет на прокси?
Сколько машин доступно для запуска пауков?
Как надо обрабатывать баны/отвалившиеся сайты/рейтлимиты?
Какой процент удачно обработанных запросов считается успехом?
Если не ошибаюсь там скрапи кластер используют. Поднимают кубер и все такое. Там уже не чисто скрапи
Читать полностью…
Я думаю мало кто занимался парсингом кучи разных сайтов. Скорее одного и подробно.
Быстрый? Да.
Хотел просто обсудить, как вы видите это все, буду благодарен, если поделитесь мыслями
Читать полностью…
И я спрашивал не то, насколько у меня есть знаний, а условно, если бы я знал скрапи, то помог бы он мне
Читать полностью…
Имею ввиду, что у меня есть написанный парсер, он в глубину парсит 20 страниц, за 4 часа справляется с 15 к сайтами, но есть как бы минусы иногда улетаю в бан, без прокси
80 процентов сайтов парсятся норм
"никогда не работал с скрапи" - совсем не эффективно.... Зачем браться за то, что в принципе не умеешь.
и, да, половина сайта отвалится по колудфдаре, скорее всего, либо еще по какой хне