а вот стоковый crawlee - нет. сделал все то же самое
видимо, он ему свой конфиг проставляет при запуске
или что скорее всего он на любой чих (403) просто дропает страницу так и не дождавшись проверки
спасибо, резонно
но попробую все таки поднять сначала... питоновский вариант
как накопаю в чем дело было - напишу сюда, что б другие не мучались (если найду конечно))
я щас изучаю парсер на гитхабе обновленный 14 дней назад и ничего не могу понять что там такого, чего нет у меня
Читать полностью…подскажите пожалуйста, куда копать или как это отладить (найти причину бана по 403)?
библиотека crawlee, сайт ozon.ru
конфиг запуска дефолтный, разве что хедеры передал частичные
всем привет. подскажите пожалуйста, можно ведь в одном пауке юзать и scrapy-playwright и обычные хендлеры? я в meta не прописываю чтобы pw юзать, но не работает ничего((
Читать полностью…ну условно, я все хедеры с клиентского браузера передал
а вот если смотреть на код выше, то не хватает только —no-sandbox и —disable-gpu
Всем привет. Кто может подсказать или объяснить почему когда используешь разные библиотеки то получаешь разные статус код от бекенда ?
Читать полностью…Прикольна! Правда чот я демку посмотрел, не очень понял чем это отличается (особенно генерируемый код) от условного https://curlconverter.com/
Они там говорят про то, что генерится граф из пяти действий на одно действие скачки файла и определяет где его скачали и динамические части, но по-факту динамические части оно (если я правильно понял) берет из предыдущих запросов, а запрос на скачку файла - ну он происходит тупо по нажатии "скачать файл", а в динамических частях стоит чему-то поменяться (той же дате) и все, кирдык этому коду.
Наверное, это стоит попробовать на каких-то более сложных штуках. Вон тот же шейн к примеру, как он с этим справится...)
странный js попадается, но я его регуляркой чищу и через chompjs прогоняю
в нём например вместо запятых в некоторых местах слеш, внутри строчек неэкранированные кавычки
тут регулярки тема