Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

scrapy_python | Unsorted

Subscribe to a channel

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

29 January 2025 12:50

Я не уверен, что существует интеграция кафки с скрепи пауками, и тогда ее придеться писать самому, а для редиса существует.
Но можно еще проще поступить, можно просто передавать start_url через параметр запуска
То есть ты читаешь весь список url из файла, а потом запускаешь их последовательно, поддерживая определенное количество одновременно запущенных пауков, для этого нужно объединить 2 этих подхода:
(лучше попроси у chatgpt объединить их, тк код тут не очень чистый😂)

И просто запускай этот скрипт через crontab

Читать полностью…

Scrapy

29 January 2025 12:37

Кол-во рабочих пауков имеется ввиду использовать мультипроцессинг?

Читать полностью…

Scrapy

29 January 2025 12:31

Я бы на твоем месте записал 15к url в redis, а потом просто бы запускал паук, где он start_url берет из redis очереди. В итоге скорость работы можно будет поднять увеличением количества рабочих пауков
(Для этого имеет смысл поднять scrapyd сервер)

Читать полностью…

Scrapy

29 January 2025 12:06

нет, их не так много, я утрировал, скорее всего бан такого типа предполагаю

Читать полностью…

Scrapy

29 January 2025 12:04

вы у нас спрашиваете?

Читать полностью…

Scrapy

29 January 2025 12:03

То есть, если сайт отвечает больше 15 сек, то можно считать его нерабочим?

Читать полностью…

Scrapy

29 January 2025 12:03

конечно, как его ускорить

Читать полностью…

Scrapy

29 January 2025 12:02

Ну тогда наверное можно загнать все сайты в белый список и работать.

Читать полностью…

Scrapy

29 January 2025 12:01

он и разруливает, через таймаут, но человеку хочется дождаться

Читать полностью…

Scrapy

29 January 2025 12:00

Все равно придется юзать семафор, так как соединений неользя открыть больше положенного, да и дорого прокачать такой сервка, нужно бюольше железа

Читать полностью…

Scrapy

29 January 2025 11:59

Если из 15 к сайтов, таких будет 5 к, то время обработки улетает в бесконечность

Читать полностью…

Scrapy

29 January 2025 11:58

зачем это обходить? пусть сидит ждёт

Читать полностью…

Scrapy

29 January 2025 11:57

Также усложняет парсинг время ответа сайтов, некторые по 20 секунд отвечают

Читать полностью…

Scrapy

29 January 2025 11:42

Вы бы хоть написали нужен браузер или нет.

Читать полностью…

Scrapy

29 January 2025 11:31

Скрапи может быть очень быстрым в умелых руках. Очень широкая постановка задачи. Известны ли все урлы по которым надо пройтись на момент старта? Куда нужно писать данные? Какой бюджет на прокси? Сколько машин доступно для запуска пауков? Как надо обрабатывать баны/отвалившиеся сайты/рейтлимиты? Какой процент удачно обработанных запросов считается успехом? Какой ответ на самый главный вопрос жизни, вселеной и всего такого?

Читать полностью…

Scrapy

29 January 2025 12:38

нет, просто отдельные процессы, зачем мультипроцессинг

Читать полностью…

Scrapy

29 January 2025 12:36

А если вместо редиса, брать из кафки? Условно 1 сайт - 1 сообщение в кафке

Читать полностью…

Scrapy

29 January 2025 12:07

страничка про broad crawls в доке буквально предлагает уменьшать таймаут

Читать полностью…

Scrapy

29 January 2025 12:04

если у вас сайты по 20 секунд отвечают и таких треть, наверно они "рабочие"?

Читать полностью…

Scrapy

29 January 2025 12:03

Бывают такие защиты от ботов. Похоже оно.

Читать полностью…

Scrapy

29 January 2025 12:03

но сомнительно что настоящие сайты так долго отвечают

Читать полностью…

Scrapy

29 January 2025 12:02

Не понял меня походу, имею ввиду, я спршивал, правильно понимаю, что только отвал по таймуту поможет в этой ситуции никак чужой сервак не ускорить

Читать полностью…

Scrapy

29 January 2025 12:01

Правило простое, идти только по страницам сайта

Читать полностью…

Scrapy

29 January 2025 12:01

Отбой по таймауту и возврат ссылки в базу с пометкой на перезапуск. Но вообще скрапи сам таки ситуации разруливать должен.

Читать полностью…

Scrapy

29 January 2025 11:59

только если обработка синхронная

Читать полностью…

Scrapy

29 January 2025 11:59

В скрапи придется для каждого сайта настраивать правила ,чтобы паук не убежал и не собрал лишнего.
Если придумаете, как это сделать, то все реально.

Читать полностью…

Scrapy

29 January 2025 11:57

Как я понимаю, это обойти никак не получится?

Читать полностью…

Scrapy

29 January 2025 11:52

Известны ли все урлы по которым надо пройтись на момент старта?

Имеется ввиду главные страницы, да, на вход подается список сайтов, затем нужно пройти по всем страницам этих сайтов и достать текст старниц

Куда нужно писать данные?

отдавать результат в кафку

Какой бюджет на прокси?

100-200 баксов в месяц

Сколько машин доступно для запуска пауков?

А сколько нужно для того, чтобы успешно спарсить и проверить 15 к сайтов за 4 часа? Сейчас у меня только один сервак, справляется вроде бы

Как надо обрабатывать баны/отвалившиеся сайты/рейтлимиты?

Бан - смена прокси?
Отвалившееся или нерабочие счиатются пройденными проверку
рейтлимиты - смена прокси?

Какой процент удачно обработанных запросов считается успехом?

В идеале всех

Читать полностью…

Scrapy

29 January 2025 11:37

Если не ошибаюсь там скрапи кластер используют. Поднимают кубер и все такое. Там уже не чисто скрапи

Читать полностью…

Scrapy

29 January 2025 11:27

Я думаю мало кто занимался парсингом кучи разных сайтов. Скорее одного и подробно.

Быстрый? Да.

Читать полностью…

Subscribe to a channel