Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
да, из хендлера вылетает twisted.internet.error.ConnectionRefusedError
Читать полностью…то есть не могу посмотреть\залогировать хедеры\боди респонса с плохим статус кодом?
Читать полностью…Читать полностью…
def process_request(self, request, spider):
......
spider.crawler.engine.close_spider(self, reason='чего ты там хотел сказать')
(см. https://stackoverflow.com/questions/71903966/using-playwright-for-python-how-can-i-click-a-button)
Читать полностью…Добрый день, у меня стоит задача автоматизации некоторый действий на сайте. Использую Selenium/Playwright. Мне необходимо нажать на кнопку что бы отправить заявку, но при этом нужно подменить некоторые данные которые отправляются. Если бы сайт был на чистом js, я бы через девтулс нашел онклик ивент, и просто раннил через консоль эту функцию с необходимыми мне параметрами. Но проблема в том что сайт использует react + обфускацию, и в итоге через девтулс показывает что при клике на кнопку выполняется пустая функция Bf(). Подскажите, какие варианты решение моей проблемы?
Читать полностью…Привет, может у кого была задача проверить текст на орфографию и отредактировать его, знаете такой сервис?
Читать полностью…Да, можно. При желании и рулить ими можно через самописную морду типа джанги или фласка. Параллельный старт держит, количество параллельных потоков регулируется. Внешние параметры принимает. В докере замечательно крутится
Читать полностью…Да, download delay должен быть 0.
Autothrottle будет вас замедлять (его задача - не перегрузить сайт).
Пароль на гуи установи, а то помню что что-то плохое лазило по инету
Читать полностью…один scrapyd, в конфиге укажи кол-во процессов
https://scrapyd.readthedocs.io/en/stable/config.html#max-proc
народ, кто у нас в scrapyd шарит? Вопрос, надо 100500 пауков параллельно запустить в разных ядрах процессора. Мауки и разные и по несколько инстансов одного паука.
надо 100500 инстансов scrapyd поднимать или все в одном делать?
и еще, есть что то лучше/удобнее чем scrapyd (тут, понятное дело, предвзятое мнение будет)
ConnectionRefusedError действительно звучит как будто респонса нет
Читать полностью…или у вас там работа с прокси так сделана что это из хендлера выпадает?
Читать полностью…ну вот просто бывают дохлые прокси, которые возвращают 111, хочу смотреть что они ещё присылают
Читать полностью…а как можно получить доступ к респонсу в process_exception?
Читать полностью…возможно ли закрыть паука\остановить енджин из мидлвери? при raise CloseSpider('оч важная мидлварь, без неё нельзя запускать'), эксепшн просто вылетает в логи и reason в статах 'finished'
Читать полностью…А чем не подходит page.locator('button:has-text(\"Супер кнопка\")').click()
?
ой, сюда не написали
пару недель назад вышел Scrapy 2.11.2, с бакгфиксами, секьюрити фиксами и одним брейкинг изменением
https://docs.scrapy.org/en/latest/news.html#scrapy-2-11-2-2024-05-14
а возможно ли как нибудь кешировать только определённые реквесты? (у меня например это будут на описание товаров)
Читать полностью…не обязательно. Если, например, стоит DOWNLOAD_DELAY:1, CONCURRENT_REQUESTS_PER_DOMAIN:4 и в start_requests - спланировано 50 запросов и при этом сайт возвращает ответ.. (медленно) через 10 секунд после отправления запроса - тогда пятый запрос отправится на сайт не через секунду после отправки четвертого запроса как может ожидаться из-за DOWNLOAD_DELAY:1, а позже, когда будет получен ответ на первый запрос т.к. ограничение CONCURRENT_REQUESTS_PER_DOMAIN:4 не даст отправить 5й запрос, пока не получен ответ или (Exception/Failure) на первый.
Читать полностью…оно не "было дело", а, "через минуты уже майнер сидит" 😂. Уже поверенный вариант :). Точнее - у меня было уже такое :)
Читать полностью…ишо один тупой вопрос - докер, жеж, мультипроцессорный? :)
Читать полностью…просто в текущем проекте по ~100 инстансов пауков стартую... есть настроение чуть по красивше это сделать :))
Читать полностью…