Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Нет. Feature request для per request delay актуален уже почти 10 лет.
https://github.com/scrapy/scrapy/issues/802
Всем привет, может кто нибудь подсказать пожалуйста в чем может быть проблема, наследуюсь от SitemapSpider. Подрубаю вот это (github.com/reanalytics-databoutique/advanced-scrapy-proxies) все работает вроде, но в какой то момент
2024-05-19 14:57:22 [scrapy.proxies] DEBUG: Using proxy <172.67.103.190:80>, 5088 proxies left
INFO: Ignoring response <403>: HTTP status code is not handled or not allowed
Не пойму в чем дело, может у кого есть на примете рабочий вариант?
а ты говоришь о том, чтобы создать несколько сеансов куки, которые тут вообще не причем
Читать полностью…когда ты пускаешь на разные домены, окей, мб ты и юзаешь cookiejar, но когда ты в пределах одного домена, для чего это?
Читать полностью…Надо в мете к каждому прописывать специально где хранить куки, в доках об этом есть даже
Читать полностью…У меня была аналогичная(наверно) идея, в два потока запускать паука и браузер чтобы куки лутать.. хз рабочая штука это вообще или нет
Читать полностью…Если паучок кинул запрос на страницу Х и получил 500, а у меня в настройках стоит RETRY_HTTP_CODES = [403, 429, 500, 502] и врублен RetryMiddleware, возможно ли сказать паучку: "Сделай еще один запрос туда же через 5 секунд"?
Читать полностью…всё что сервер прислал паук сохраняет
специально он ничего не делает
так и что там, в итоге можно тупо json'ы красивые получать, что с брендов, что с товаров, что со списков товаров? знай себе тока заголовки ставь (ну по-крайней мере мне эксперименты показывают на свежих куках, дальше особо не ковырял).
params = {
'pushSite': 'storeMobileRU',
'format': 'json',
'locale': 'ru_RU',
}
а, про тот же хэдлесс. У меня напарник, для одного из сайтов, просто в докере подвесил получение куков нонстоп. И, теперь, ему ничего не мешает сотни тыс запросов слать....
А так да, можно было убить пару месяцев на раскуривание кода JS, и понимание, что это нахрена не надо было делать