Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
а вот стоковый crawlee - нет. сделал все то же самое
видимо, он ему свой конфиг проставляет при запуске
или что скорее всего он на любой чих (403) просто дропает страницу так и не дождавшись проверки
спасибо, резонно
но попробую все таки поднять сначала... питоновский вариант
как накопаю в чем дело было - напишу сюда, что б другие не мучались (если найду конечно))
так флаг-то относится к браузеру, как я понимаю, вот например
Читать полностью…я щас изучаю парсер на гитхабе обновленный 14 дней назад и ничего не могу понять что там такого, чего нет у меня
Читать полностью…подскажите пожалуйста, куда копать или как это отладить (найти причину бана по 403)?
библиотека crawlee, сайт ozon.ru
конфиг запуска дефолтный, разве что хедеры передал частичные
Окей, а как aiohttp справляется с ним или что происходит?)
Читать полностью…https://youtube.com/shorts/Q1tez3uVaUs?si=M89atTlSyIt4MESJ
Читать полностью…Смотрите какая штука прикольная https://github.com/Integuru-AI/Integuru
Читать полностью…всем привет. подскажите пожалуйста, можно ведь в одном пауке юзать и scrapy-playwright и обычные хендлеры? я в meta не прописываю чтобы pw юзать, но не работает ничего((
Читать полностью…Hello everyone.
I am scrapping export.
who needs me?
Please DM
хм, забавно получается
дефолтный (!!!) селениум проходит антибот проверку
ну условно, я все хедеры с клиентского браузера передал
а вот если смотреть на код выше, то не хватает только —no-sandbox и —disable-gpu
Всем привет. Кто может подсказать или объяснить почему когда используешь разные библиотеки то получаешь разные статус код от бекенда ?
Читать полностью…Прикольна! Правда чот я демку посмотрел, не очень понял чем это отличается (особенно генерируемый код) от условного https://curlconverter.com/
Они там говорят про то, что генерится граф из пяти действий на одно действие скачки файла и определяет где его скачали и динамические части, но по-факту динамические части оно (если я правильно понял) берет из предыдущих запросов, а запрос на скачку файла - ну он происходит тупо по нажатии "скачать файл", а в динамических частях стоит чему-то поменяться (той же дате) и все, кирдык этому коду.
Наверное, это стоит попробовать на каких-то более сложных штуках. Вон тот же шейн к примеру, как он с этим справится...)
Всем привет! Куплю парсер th.shein.com
Нужно собрать товары и обновлять цены.
запрос на получение полного описания объявления. Он раньше работал а сейчас нет.
Читать полностью…Всем привет, кто-нить знает рабочий запрос формата m.avito.ru/api/15/items/ ?
Читать полностью…странный js попадается, но я его регуляркой чищу и через chompjs прогоняю
в нём например вместо запятых в некоторых местах слеш, внутри строчек неэкранированные кавычки
тут регулярки тема