scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

так что всё ещё не понимаю вопроса

Читать полностью…

Scrapy

да, из хендлера вылетает twisted.internet.error.ConnectionRefusedError

Читать полностью…

Scrapy

тогда не будет process_exception

Читать полностью…

Scrapy

если пришел exception то и распоза же не будет

Читать полностью…

Scrapy

то есть не могу посмотреть\залогировать хедеры\боди респонса с плохим статус кодом?

Читать полностью…

Scrapy


def process_request(self, request, spider):
......
spider.crawler.engine.close_spider(self, reason='чего ты там хотел сказать')

Читать полностью…

Scrapy

(см. https://stackoverflow.com/questions/71903966/using-playwright-for-python-how-can-i-click-a-button)

Читать полностью…

Scrapy

Добрый день, у меня стоит задача автоматизации некоторый действий на сайте. Использую Selenium/Playwright. Мне необходимо нажать на кнопку что бы отправить заявку, но при этом нужно подменить некоторые данные которые отправляются. Если бы сайт был на чистом js, я бы через девтулс нашел онклик ивент, и просто раннил через консоль эту функцию с необходимыми мне параметрами. Но проблема в том что сайт использует react + обфускацию, и в итоге через девтулс показывает что при клике на кнопку выполняется пустая функция Bf(). Подскажите, какие варианты решение моей проблемы?

Читать полностью…

Scrapy

Привет, может у кого была задача проверить текст на орфографию и отредактировать его, знаете такой сервис?

Читать полностью…

Scrapy

воо, точно
спасибо!

Читать полностью…

Scrapy

Да, можно. При желании и рулить ими можно через самописную морду типа джанги или фласка. Параллельный старт держит, количество параллельных потоков регулируется. Внешние параметры принимает. В докере замечательно крутится

Читать полностью…

Scrapy

Да, download delay должен быть 0.

Autothrottle будет вас замедлять (его задача - не перегрузить сайт).

Читать полностью…

Scrapy

Пароль на гуи установи, а то помню что что-то плохое лазило по инету

Читать полностью…

Scrapy

один scrapyd, в конфиге укажи кол-во процессов

https://scrapyd.readthedocs.io/en/stable/config.html#max-proc

Читать полностью…

Scrapy

народ, кто у нас в scrapyd шарит? Вопрос, надо 100500 пауков параллельно запустить в разных ядрах процессора. Мауки и разные и по несколько инстансов одного паука.
надо 100500 инстансов scrapyd поднимать или все в одном делать?

и еще, есть что то лучше/удобнее чем scrapyd (тут, понятное дело, предвзятое мнение будет)

Читать полностью…

Scrapy

ConnectionRefusedError действительно звучит как будто респонса нет

Читать полностью…

Scrapy

или у вас там работа с прокси так сделана что это из хендлера выпадает?

Читать полностью…

Scrapy

ну вот просто бывают дохлые прокси, которые возвращают 111, хочу смотреть что они ещё присылают

Читать полностью…

Scrapy

вы что-то путаете, видимо

Читать полностью…

Scrapy

а как можно получить доступ к респонсу в process_exception?

Читать полностью…

Scrapy

возможно ли закрыть паука\остановить енджин из мидлвери? при raise CloseSpider('оч важная мидлварь, без неё нельзя запускать'), эксепшн просто вылетает в логи и reason в статах 'finished'

Читать полностью…

Scrapy

А чем не подходит page.locator('button:has-text(\"Супер кнопка\")').click() ?

Читать полностью…

Scrapy

https://github.com/scrapy/itemloaders/issues/87

Читать полностью…

Scrapy

ой, сюда не написали
пару недель назад вышел Scrapy 2.11.2, с бакгфиксами, секьюрити фиксами и одним брейкинг изменением
https://docs.scrapy.org/en/latest/news.html#scrapy-2-11-2-2024-05-14

Читать полностью…

Scrapy

а возможно ли как нибудь кешировать только определённые реквесты? (у меня например это будут на описание товаров)

Читать полностью…

Scrapy

не обязательно. Если, например, стоит DOWNLOAD_DELAY:1, CONCURRENT_REQUESTS_PER_DOMAIN:4 и в start_requests - спланировано 50 запросов и при этом сайт возвращает ответ.. (медленно) через 10 секунд после отправления запроса - тогда пятый запрос отправится на сайт не через секунду после отправки четвертого запроса как может ожидаться из-за DOWNLOAD_DELAY:1, а позже, когда будет получен ответ на первый запрос т.к. ограничение CONCURRENT_REQUESTS_PER_DOMAIN:4 не даст отправить 5й запрос, пока не получен ответ или (Exception/Failure) на первый.

Читать полностью…

Scrapy

оно не "было дело", а, "через минуты уже майнер сидит" 😂. Уже поверенный вариант :). Точнее - у меня было уже такое :)

Читать полностью…

Scrapy

ишо один тупой вопрос - докер, жеж, мультипроцессорный? :)

Читать полностью…

Scrapy

просто в текущем проекте по ~100 инстансов пауков стартую... есть настроение чуть по красивше это сделать :))

Читать полностью…

Scrapy

нужен кодер в лс срочно

Читать полностью…
Subscribe to a channel