scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

form2request именно про хтлм формы

Читать полностью…

Scrapy

а это смотря что вы хотите получить

Читать полностью…

Scrapy

А еще у нас частый случай, когда данные формы вручную шлют, без извлечения полей из формы в хтмл, а "form2request() requires an HTML form object". Кодировать body и выставлять хэдеры вручную - утомительно.

Читать полностью…

Scrapy

JsonRequest просто json.dumps() делает, а в FormRequest куча логики

Читать полностью…

Scrapy

2.16.0: https://docs.scrapy.org/en/latest/news.html#scrapy-2-16-0-2026-05-19

Читать полностью…

Scrapy

Всем привет! Кто-то занимался парсингом linkedin? Напиши в лс где вы брали Аккаунты для парсинга пожалуйста!

Читать полностью…

Scrapy

Понятно, посмотрю может с camoufox чет выйдеь

Читать полностью…

Scrapy

все библиотеки рендерят челлендж, большинство браузером

Читать полностью…

Scrapy

ну скинь ссылку гляну что у тебя там

Читать полностью…

Scrapy

попробуй найти origin ip сайта

Читать полностью…

Scrapy

то есть только в названии проблема?

Читать полностью…

Scrapy

Товарищи, а вот как правильнее разбирать вложенные элементы?
Пока у меня вот такой код:

    for block in response.css('div.product_block'):
block_loader = GoodItemLoaderDefault(item=dict(), selector=block, urljoin=urljoin)
block_loader.add_css('url_item', 'div.product_block_img > a::attr(href)')
block_loader.add_css('url_img', 'div.product_block_img img::attr(src)')
block_item = block_loader.load_item()
for good in block.css('table.variants tr'):
n += 1
loader = GoodItemLoaderDefault(item=dict(block_item), selector=good)
loader.add_css('title', 'td.name::text')
loader.add_css('artikul', 'td.name::text', re=re_art)
loader.add_css('price', 'td.price::text', re=re_prace)
loader.add_css('valuta', 'td.price::text', re=re_valuta)
loader.add_css(
'code', 'td.to_cart input[type="hidden"]::attr(name)', re=re_code)
item = loader.load_item()

И вроде напрашивается .nested_* - но нельзя.
Может ввести для подобного использования какое нибудь .nested_copy_* ?

Читать полностью…

Scrapy

Чет кажется кидалово какой-то 🤔

Читать полностью…

Scrapy

Это шутка такая или анонс? Не улавливаю

Читать полностью…

Scrapy

мне кажется это всё было от бедности

Читать полностью…

Scrapy

буду отстаивать FormRequest в scrapy/scrapy. Правда там ишью - мильон

Читать полностью…

Scrapy

да нет, напишу. Только вот в сомнении в scrapy/scrapy или scrapy/form2request?

Читать полностью…

Scrapy

Как по мне, так логичнее то, о чем kmike в PR говорил - логика во внешней библиотеке, но оставить хелпер FormRequest в API. У меня вот, например, еще и самописный GraphQLRequest хелпер часто в ходу.

Читать полностью…

Scrapy

Cпорное решение убрать FormRequest. Он вроде как логичен, исходя из того, что есть JsonRequest.

Читать полностью…

Scrapy

Вот этим
https://github.com/divtiply/scrapy-curl-cffi

Читать полностью…

Scrapy

у клаудфлаера несколько уровней защиты, параметры браузера, фингер принты, и IP, прокси тоже нужны быть не в блэк листе, ну или подключи антикапчу

Читать полностью…

Scrapy

быстро это не бывает

Читать полностью…

Scrapy

Всмысле ссылку? Да на любой сайт с CF. Не принципиально. У меня таких сайтов 100. Просто нужен html. Думал может библиотеки какие то есть. А там сам поизучаю

Читать полностью…

Scrapy

Нужен просто html. Есть парсер новостных сайтов, все парсит нормально. Все работает отлично вот нужны заблченные сайт теперь

Читать полностью…

Scrapy

Народ как вы обходите клаудфаер. Я вот пробую через camoufox. Тяжелая какая то. Как будто не стабильная. Делаю что то типа аналога у скрапи сплэш но на плейрайте через фаст апи

Читать полностью…

Scrapy

На странице это выглядит так: блок с картинкой и заголовком, а в нём таблица с конкретными товарами.
И в каждый товар нужно добавить эту картинку, а название сконкатенировать с заголовком блока

Читать полностью…

Scrapy

ну, пока шутка) но третья версия скрапи имхо гораздо реальнее чем четвертая у питона и первая у фастапи)

Читать полностью…

Scrapy

2.15.0 вышел: https://docs.scrapy.org/en/latest/news.html#scrapy-2-15-0-2026-04-09
Highlights:
* Experimental support for running without a Twisted reactor
* Experimental httpx-based download handler

Читать полностью…

Scrapy

как бы нам получить какую-нибудь асинхронность не сильно переписывая код

Читать полностью…

Scrapy

из современного знаю они только в асинхронной алхимии остались

Читать полностью…
Subscribe to a channel