scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Нет. Feature request для per request delay актуален уже почти 10 лет.
https://github.com/scrapy/scrapy/issues/802

Читать полностью…

Scrapy

Всем привет, может кто нибудь подсказать пожалуйста в чем может быть проблема, наследуюсь от SitemapSpider. Подрубаю вот это (github.com/reanalytics-databoutique/advanced-scrapy-proxies) все работает вроде, но в какой то момент
2024-05-19 14:57:22 [scrapy.proxies] DEBUG: Using proxy <172.67.103.190:80>, 5088 proxies left
INFO: Ignoring response <403>: HTTP status code is not handled or not allowed

Не пойму в чем дело, может у кого есть на примете рабочий вариант?

Читать полностью…

Scrapy

Сорян, не понял до конца вопрос

Читать полностью…

Scrapy

а ты говоришь о том, чтобы создать несколько сеансов куки, которые тут вообще не причем

Читать полностью…

Scrapy

когда ты пускаешь на разные домены, окей, мб ты и юзаешь cookiejar, но когда ты в пределах одного домена, для чего это?

Читать полностью…

Scrapy

Надо в мете к каждому прописывать специально где хранить куки, в доках об этом есть даже

Читать полностью…

Scrapy

пххх (удалил оффтоп)

Читать полностью…

Scrapy

Ну сделал на рутлогер и вроде окей

Читать полностью…

Scrapy

или где хочешь вообще
в чем загвоздка?

Читать полностью…

Scrapy

Очень даже интересно

Читать полностью…

Scrapy

Разворачивание браузера

Читать полностью…

Scrapy

учитывая, что ты имеешь в виду запросы

Читать полностью…

Scrapy

🤣
злобный ты....

Читать полностью…

Scrapy

Согласен. Только нужно их как то связать)

Читать полностью…

Scrapy

У меня была аналогичная(наверно) идея, в два потока запускать паука и браузер чтобы куки лутать.. хз рабочая штука это вообще или нет

Читать полностью…

Scrapy

Если паучок кинул запрос на страницу Х и получил 500, а у меня в настройках стоит RETRY_HTTP_CODES = [403, 429, 500, 502] и врублен RetryMiddleware, возможно ли сказать паучку: "Сделай еще один запрос туда же через 5 секунд"?

Читать полностью…

Scrapy

всё что сервер прислал паук сохраняет
специально он ничего не делает

Читать полностью…

Scrapy

А, куки ж не вечные, точно :D

Читать полностью…

Scrapy

я просто уточнял, так как было неудобно смотреть)

Читать полностью…

Scrapy

Сам по себе он ничего не обновляет, ну максимум реферера

Читать полностью…

Scrapy

паук же сам куки обновляет?

Читать полностью…

Scrapy

так и что там, в итоге можно тупо json'ы красивые получать, что с брендов, что с товаров, что со списков товаров? знай себе тока заголовки ставь (ну по-крайней мере мне эксперименты показывают на свежих куках, дальше особо не ковырял).

params = {
'pushSite': 'storeMobileRU',
'format': 'json',
'locale': 'ru_RU',
}

ЗЫ че прикольно, они каким-то боком юзают (может только представление данных, хотя и не похоже) endeca от oracla, в JSON'e куча херовин аля https://docs.oracle.com/cd/E70265_01/tools.11-3/tools.api/core/com/endeca/infront/site/model/class-use/SiteState.html

Читать полностью…

Scrapy

Да я просто не знал к чему обращаться

Читать полностью…

Scrapy

можно ли к логгеру паучка добавить хендлер?

Читать полностью…

Scrapy

собери 50к с браузером за 15 минут

Читать полностью…

Scrapy

что такое эмуляции

Читать полностью…

Scrapy

+/- час на кодинг +собрать

Читать полностью…

Scrapy

прости, не успел на 30к остановить

Читать полностью…

Scrapy

пока не попробуешь - не узнаешь

Читать полностью…

Scrapy

а, про тот же хэдлесс. У меня напарник, для одного из сайтов, просто в докере подвесил получение куков нонстоп. И, теперь, ему ничего не мешает сотни тыс запросов слать....
А так да, можно было убить пару месяцев на раскуривание кода JS, и понимание, что это нахрена не надо было делать

Читать полностью…
Subscribe to a channel