Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
ну да, но как то оверкил целый гпт для своих задач подключать
Читать полностью…https://github.com/scrapinghub/article-extraction-benchmark
Читать полностью…Как оказалось playwright + webkit вообще без каких либо проблем обходит cf примерно за 6 секунд.
Читать полностью…а как учитывать?
удобно было бы, если парсишь апи с одним эндпойнтом, который хедеры смотрит
https://github.com/scrapy/scrapy/blob/master/scrapy/dupefilters.py#L28
https://github.com/scrapy/scrapy/blob/master/scrapy/utils/request.py#L122
в дупфильтре хедеры не учитывются?
обычно дупфильтр это хорошо, потому что обычно не надо делать дублирующиеся запросы
Читать полностью…недавно видел видос как чатгпт, клод опус, гемини строят домики в майнкрафте)
Читать полностью…есть большая тема с сованием скриншота страницы в computer vision
Читать полностью…есть догптшные претрейнед модели всякие, например для статей есть сразу пачка
Читать полностью…какие знаете приколы с использованием ml в парсинге? я знаю autopager, а ещё есть какие нибудь решения? от zyte вроде да, но они кажись платные и не опенсорс
Читать полностью…всем привет, у кого нибудь есть опыт подключения asocks в playwrite ?
пытаюсь подключиться к ним разными путями, ничего не выходит
написать свой фингерпринтер, который передаёт в fingerprint() имена нужных хедеров
Читать полностью…вы не видите что сайт отправляет или не знаете откуда это взять? а то на картинке боди-то не видно
Читать полностью…Здравствуйте помогите распарсить сайт, проблема в том что я не пойму что отправлять в post request. Я пересмотрел все javascript теги не нашёл там ничего, искал csrf тоже ничего.
Вопрос что нужно передать в post запрос?
https://realtylink.org/en/properties~for-rent?view=Thumbnail&uc=2
типа там артикул товара, который берется с каждой страницы
Читать полностью…