Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
ну т.е. да, так использовать асинхронные генераторы нельзя
Читать полностью…запускаю через CrawlingProcess. В Settings добавил то, что пишут на сайте "TWISTED_REACTOR" : 'twisted.internet.asyncioreactor.AsyncioSelectorReactor'
Читать полностью…всем привет. Есть вот такой код https://pastebin.com/BJ3KnnXG
В общем я хочу, чтобы yield'ить кортеж из куки и прокси для того, чтобы запихать их в запросы... но проблема в том, что я не понимаю, как мне связать между собой паука и event loop. Все ругается, что StopIteration и прочее, если оставить TWISTED_REACTOR как None, то ругается, что не запущен цикл событий, как быть? Может знает кто?
Да.
Если есть желание продолжать со scrapy, надо использовать custom download handler, заменив стандартный загрузчк основанным на другой библиотеке. Желательно сразу с более правильными tls fingerprint.
Если конечно заголовки прописаны, куки пробовали использовать и т.п.
как выключить мидлварь если не выполнено какое то условие? raise NotConfigured?
Читать полностью…Я расписал что хочу получить, ранее на post запросе получал json.
Читать полностью…Может кто посмотрит, никак не могу составить пост запрос что бы получить json с сбермаркета. Использовал playwright + хром или вебкит. При загрузке пагинации https://sbermarket.ru/globusgiper/c/katalog-globus-02bfb49/ovoshchi-frukti-orekhi/ovoshchi-copy?page=2 улетает запрос Пост запрос с {"store_id":"80963","page":"2","per_page":"24","tenant_id":"sbermarket","filter":[{"key":"brand","values":[]},{"key":"permalinks","values":[]},{"key":"discounted","values":[]}],"ads_identity":{"ads_promo_identity":{}},"category_permalink":"katalog-globus-02bfb49/ovoshchi-frukti-orekhi/ovoshchi-copy"} на https://sbermarket.ru/api/web/v1/products в ответ должен как в браузере прилете json. А в итоге только <script type="text/javascript" src="//cdnjs.cloudflare.com/ajax/ Месяц назад без проблем работало а тут облом.
Читать полностью…Боже, я так ненавижу логгирование в целери, и так обожаю в скрапи
Читать полностью…У меня такое чувство или у всех "менеджеров по продажам" у прокси провайдеров, с которыми так навязчиво просят пообщаться, главная задача: втюхнуть план, лишь бы подороже?
Читать полностью…ты в своей мидлваре мету может переписываешь? типа request.meta = {'a':'b'}? тогда ретрай мидлварь всегда ставит retry_times на 1
Читать полностью…ок, я понял, что на винде несовместимы Playwright и Scrapy. Но, теперь вопрос такой, по кд вылазит ошибка. Это уже никак не обойти и использовать свой генератор я тут не смогу, правильно?
Читать полностью…переносил с браузера на постмен, потом хедерсы на пайчарм
Читать полностью…кто-то стыкался с таким что Scrapy никак не хочет получать нормальные данные от API(пишет javascript disabled)? через requests все четко идет. Пробовал разные версии скрапи и разные версии пайтона, результат один
Читать полностью…Ребят, а я правильно, что чтобы повторить запрос, который в requests выглядел бы: requests.get('https://localhost8000.com', verify='my/speficic/ssl_certificate.crt), в scrapy надо написать свой BrowserLikeContextFactory?
Читать полностью…Наверника кто-то парсит китайские маркетплейсы..
Киньте пожалуйста ссылки на пару сложных сайтов.
Спасибо