1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
у клаудфлаера несколько уровней защиты, параметры браузера, фингер принты, и IP, прокси тоже нужны быть не в блэк листе, ну или подключи антикапчу
Читать полностью…
Всмысле ссылку? Да на любой сайт с CF. Не принципиально. У меня таких сайтов 100. Просто нужен html. Думал может библиотеки какие то есть. А там сам поизучаю
Читать полностью…
Нужен просто html. Есть парсер новостных сайтов, все парсит нормально. Все работает отлично вот нужны заблченные сайт теперь
Читать полностью…
Народ как вы обходите клаудфаер. Я вот пробую через camoufox. Тяжелая какая то. Как будто не стабильная. Делаю что то типа аналога у скрапи сплэш но на плейрайте через фаст апи
Читать полностью…
На странице это выглядит так: блок с картинкой и заголовком, а в нём таблица с конкретными товарами.
И в каждый товар нужно добавить эту картинку, а название сконкатенировать с заголовком блока
ну, пока шутка) но третья версия скрапи имхо гораздо реальнее чем четвертая у питона и первая у фастапи)
Читать полностью…
2.15.0 вышел: https://docs.scrapy.org/en/latest/news.html#scrapy-2-15-0-2026-04-09
Highlights:
* Experimental support for running without a Twisted reactor
* Experimental httpx-based download handler
как бы нам получить какую-нибудь асинхронность не сильно переписывая код
Читать полностью…
из современного знаю они только в асинхронной алхимии остались
Читать полностью…
в итоге у них аж целых два джита, а у нас только половина)
правда юзверей у них прям мало, чисто как dsl для шопифая остался))
всмысле был ли в стандартной десктопной установке? не знаю
но в репозиториях-то был
первую версию google кста на питоне и джаве написали, в 94 примерно
Читать полностью…
в линуксах он при этом был и ставился, но я не вспомню что его вообще там использовало
Читать полностью…
Всем привет! Кто-то занимался парсингом linkedin? Напиши в лс где вы брали Аккаунты для парсинга пожалуйста!
Читать полностью…
Товарищи, а вот как правильнее разбирать вложенные элементы?
Пока у меня вот такой код:
for block in response.css('div.product_block'):
block_loader = GoodItemLoaderDefault(item=dict(), selector=block, urljoin=urljoin)
block_loader.add_css('url_item', 'div.product_block_img > a::attr(href)')
block_loader.add_css('url_img', 'div.product_block_img img::attr(src)')
block_item = block_loader.load_item()
for good in block.css('table.variants tr'):
n += 1
loader = GoodItemLoaderDefault(item=dict(block_item), selector=good)
loader.add_css('title', 'td.name::text')
loader.add_css('artikul', 'td.name::text', re=re_art)
loader.add_css('price', 'td.price::text', re=re_prace)
loader.add_css('valuta', 'td.price::text', re=re_valuta)
loader.add_css(
'code', 'td.to_cart input[type="hidden"]::attr(name)', re=re_code)
item = loader.load_item()
а раньше часто кстати гевентами/гринлетами баловались? просто уже год почти прошел с обсуждения добавления виртуальных потоков в питон
пока никак не двигается, но к обсуждению возвращаются)
так то было бы прикольно асинхронщину бесцветную иметь
ещё рубисты ходили и рассказывали что питон ваш отстой, надо на руби писать, вот рельсы смотрите, а ещё у нас символы есть как в лиспе
Читать полностью…
в эпоху питона 2.3-2.5 на нём реально почти ничего не было
Читать полностью…