Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Я отдельно вытащил плейрайт в фаст апи и упаковал в докер. А в скрапи просто сделал запросы на этот апи и все. Не стал парится пихать плейрайт в скрапи, не все заросы делаю через плейрайт. И все это работает на кубеон
Читать полностью…Это, я так понимаю, нужно посмотреть схему взаимодействия самого скрапи и плейврайта. Т.к. стелз применяется уже к самой Пейдж.
А в мидлваре мы получим доступ только к метадате.
Это менеджить надо на уровне хендлера
нет никакого "Подключение фингрепринта", вы всё перепутали видимо
Читать полностью…Ребят, пытаюсь в scrapy, scrapy-playwright и tf-playwright-stealth.
Пробовал обернуть в мидлвару через 'evaluate' в process_request(). Работает не корректно, при попытке ходить на bot.sannysoft через хромиум и фф видит вебдрайвер плюс:
- в хроме варнинг на 264 кодек
- в фф половина полей связанных с видео - фейл
Не пойму, моя мидлвара отрабатывает уже после запроса чтоле?
Или фингерпинт как-то по другому имплементировать? Или есть ещё какие-нибудь технические решения?
Вот оно что, за день сменился сайт. Теперь никаких таблиц. И можно пагинацию брать сразу с каталога. Начал вчера запускать паука. А выдачи - 0. Ещё раз спасибо за помощь.
Читать полностью…если ты про то, что не можешь получить больше 100 итемов за один пажинированный запрос, то это нормально
значит у них есть потолок, больше которого они на одну страницу итемов не дадут, чтоб респонсы огромными не были
на некоторых сайтах возвращают ошибку 429 по типу «кол-во должно быть от 1 до n», а на некоторых, как в твоем случае, просто отдают максимально разрешенное
Может стоит еще ссылку добавить, а то выходит гадание на кофейной гуще)
Читать полностью…это всё спайдермоном делается конечно, но спайдермон про прод, а не про тесты
Читать полностью…https://docs.scrapy.org/en/latest/topics/contracts.html возможно
Читать полностью…(наша ошибка была в отсутствии тестов на сниппеты с CrawlerRunner)
Читать полностью…Сначала ж надо сломать все пальцы, а потом пойти, как большинство))
Читать полностью…но вы уже код написали, запустили и спросили почему он не работает (кстати его не показав)
я думаю вам надо идти и смотреть исходники, ну либо создавать страницу самому и передавать её в реквесте
Есть пакет tf-playwright-stealth. На сколько я понимаю, то он с коробки подкидывает красивый фингерпинт.
Код отрабатывает, но сайт сервис по определению ботов показывает, что проверку (chromium) не прохожу. Сервис видит, что это вебдрайвер.
Подключение фингрепринта осуществляется с помощью download midlware или нужно писать свой кастомный download handler?
Или есть ещё какие-нибудь готовые технические решения?
«Человека легче обмануть, чем убедить, что его обманули».
Марк Твен
здесь тоже должно быть 288
а по факту отдается только 100
а вот пагинацию я нашел)))
пользуйся
или если запрос без параметров/qs, то на их стороне по дефолту 100 может стоять
Читать полностью…Доброго времени суток. Подскажите куда глядеть. На сайте 10 категорий, в каждой разное количество товаров. Если меньше 100, получаю все, если больше, то только 100. 🫤
Читать полностью…типа получить данные и проверить значения в определенных полях .
например поля которые проверяю должны быть int или строка или json строка. или диапазон инта 10 - 100
Доброго. Кто пишет тесты для пауков ? Толкните в нужном направлении)
Читать полностью…Более правильно было бы ставить вручную именно asyncio реактор, а не дефолтный
В мастере это всё уже неактуально, если будет 2.13.2 то попробую не забыть