Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
я щас изучаю парсер на гитхабе обновленный 14 дней назад и ничего не могу понять что там такого, чего нет у меня
Читать полностью…подскажите пожалуйста, куда копать или как это отладить (найти причину бана по 403)?
библиотека crawlee, сайт ozon.ru
конфиг запуска дефолтный, разве что хедеры передал частичные
Окей, а как aiohttp справляется с ним или что происходит?)
Читать полностью…https://youtube.com/shorts/Q1tez3uVaUs?si=M89atTlSyIt4MESJ
Читать полностью…Смотрите какая штука прикольная https://github.com/Integuru-AI/Integuru
Читать полностью…всем привет. подскажите пожалуйста, можно ведь в одном пауке юзать и scrapy-playwright и обычные хендлеры? я в meta не прописываю чтобы pw юзать, но не работает ничего((
Читать полностью…Hello everyone.
I am scrapping export.
who needs me?
Please DM
вообще парсить регуляркой html или js/json звучит как дорога в ад)
Читать полностью…А известна максимальная вложенность? А то мб подобие такого прокатит:
find_str = "*.c"Читать полностью…
while True:
jmespath.search(find_str, data)
find_str = "*." + find_str
js2xml + xpath, угу
может конкуренты jmespath умеют, не силён (не удивлюсь если нет)
jq наверняка сумеет, но через разворачивание ключей в вектор и прочую байду
Всем привет. Кто может подсказать или объяснить почему когда используешь разные библиотеки то получаешь разные статус код от бекенда ?
Читать полностью…Прикольна! Правда чот я демку посмотрел, не очень понял чем это отличается (особенно генерируемый код) от условного https://curlconverter.com/
Они там говорят про то, что генерится граф из пяти действий на одно действие скачки файла и определяет где его скачали и динамические части, но по-факту динамические части оно (если я правильно понял) берет из предыдущих запросов, а запрос на скачку файла - ну он происходит тупо по нажатии "скачать файл", а в динамических частях стоит чему-то поменяться (той же дате) и все, кирдык этому коду.
Наверное, это стоит попробовать на каких-то более сложных штуках. Вон тот же шейн к примеру, как он с этим справится...)
Всем привет! Куплю парсер th.shein.com
Нужно собрать товары и обновлять цены.
запрос на получение полного описания объявления. Он раньше работал а сейчас нет.
Читать полностью…Всем привет, кто-нить знает рабочий запрос формата m.avito.ru/api/15/items/ ?
Читать полностью…странный js попадается, но я его регуляркой чищу и через chompjs прогоняю
в нём например вместо запятых в некоторых местах слеш, внутри строчек неэкранированные кавычки
тут регулярки тема
пока 7 нашёл, надеюсь больше не будет)
а так да, проще выходит просто по словарю как по дереву ходить
всем спасибо!
ну и всегда можно json.loads() и под конкретный случай написать обход конечно
Читать полностью…