1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
А еще у нас частый случай, когда данные формы вручную шлют, без извлечения полей из формы в хтмл, а "form2request() requires an HTML form object". Кодировать body и выставлять хэдеры вручную - утомительно.
Читать полностью…
JsonRequest просто json.dumps() делает, а в FormRequest куча логики
Читать полностью…
2.16.0: https://docs.scrapy.org/en/latest/news.html#scrapy-2-16-0-2026-05-19
Читать полностью…
Всем привет! Кто-то занимался парсингом linkedin? Напиши в лс где вы брали Аккаунты для парсинга пожалуйста!
Читать полностью…
Товарищи, а вот как правильнее разбирать вложенные элементы?
Пока у меня вот такой код:
for block in response.css('div.product_block'):
block_loader = GoodItemLoaderDefault(item=dict(), selector=block, urljoin=urljoin)
block_loader.add_css('url_item', 'div.product_block_img > a::attr(href)')
block_loader.add_css('url_img', 'div.product_block_img img::attr(src)')
block_item = block_loader.load_item()
for good in block.css('table.variants tr'):
n += 1
loader = GoodItemLoaderDefault(item=dict(block_item), selector=good)
loader.add_css('title', 'td.name::text')
loader.add_css('artikul', 'td.name::text', re=re_art)
loader.add_css('price', 'td.price::text', re=re_prace)
loader.add_css('valuta', 'td.price::text', re=re_valuta)
loader.add_css(
'code', 'td.to_cart input[type="hidden"]::attr(name)', re=re_code)
item = loader.load_item()
буду отстаивать FormRequest в scrapy/scrapy. Правда там ишью - мильон
Читать полностью…
да нет, напишу. Только вот в сомнении в scrapy/scrapy или scrapy/form2request?
Читать полностью…
Как по мне, так логичнее то, о чем kmike в PR говорил - логика во внешней библиотеке, но оставить хелпер FormRequest в API. У меня вот, например, еще и самописный GraphQLRequest хелпер часто в ходу.
Читать полностью…
Cпорное решение убрать FormRequest. Он вроде как логичен, исходя из того, что есть JsonRequest.
Читать полностью…
у клаудфлаера несколько уровней защиты, параметры браузера, фингер принты, и IP, прокси тоже нужны быть не в блэк листе, ну или подключи антикапчу
Читать полностью…
Всмысле ссылку? Да на любой сайт с CF. Не принципиально. У меня таких сайтов 100. Просто нужен html. Думал может библиотеки какие то есть. А там сам поизучаю
Читать полностью…
Нужен просто html. Есть парсер новостных сайтов, все парсит нормально. Все работает отлично вот нужны заблченные сайт теперь
Читать полностью…
Народ как вы обходите клаудфаер. Я вот пробую через camoufox. Тяжелая какая то. Как будто не стабильная. Делаю что то типа аналога у скрапи сплэш но на плейрайте через фаст апи
Читать полностью…
На странице это выглядит так: блок с картинкой и заголовком, а в нём таблица с конкретными товарами.
И в каждый товар нужно добавить эту картинку, а название сконкатенировать с заголовком блока
ну, пока шутка) но третья версия скрапи имхо гораздо реальнее чем четвертая у питона и первая у фастапи)
Читать полностью…
2.15.0 вышел: https://docs.scrapy.org/en/latest/news.html#scrapy-2-15-0-2026-04-09
Highlights:
* Experimental support for running without a Twisted reactor
* Experimental httpx-based download handler
как бы нам получить какую-нибудь асинхронность не сильно переписывая код
Читать полностью…
из современного знаю они только в асинхронной алхимии остались
Читать полностью…