1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Есть пакет tf-playwright-stealth. На сколько я понимаю, то он с коробки подкидывает красивый фингерпинт.
Код отрабатывает, но сайт сервис по определению ботов показывает, что проверку (chromium) не прохожу. Сервис видит, что это вебдрайвер.
Подключение фингрепринта осуществляется с помощью download midlware или нужно писать свой кастомный download handler?
Или есть ещё какие-нибудь готовые технические решения?
«Человека легче обмануть, чем убедить, что его обманули».
Марк Твен
здесь тоже должно быть 288
а по факту отдается только 100
а вот пагинацию я нашел)))
пользуйся
или если запрос без параметров/qs, то на их стороне по дефолту 100 может стоять
Читать полностью…
Доброго времени суток. Подскажите куда глядеть. На сайте 10 категорий, в каждой разное количество товаров. Если меньше 100, получаю все, если больше, то только 100. 🫤
Читать полностью…
типа получить данные и проверить значения в определенных полях .
например поля которые проверяю должны быть int или строка или json строка. или диапазон инта 10 - 100
Доброго. Кто пишет тесты для пауков ? Толкните в нужном направлении)
Читать полностью…
Более правильно было бы ставить вручную именно asyncio реактор, а не дефолтный
В мастере это всё уже неактуально, если будет 2.13.2 то попробую не забыть
да ни в каком, это прототип, один под своим ип второй через впн
Читать полностью…
А как ее решать селениумом?
Вот вижу капчу, могу сохранить скриншот, как правильно прокрутить ее)
Ребят, пытаюсь в scrapy, scrapy-playwright и tf-playwright-stealth.
Пробовал обернуть в мидлвару через 'evaluate' в process_request(). Работает не корректно, при попытке ходить на bot.sannysoft через хромиум и фф видит вебдрайвер плюс:
- в хроме варнинг на 264 кодек
- в фф половина полей связанных с видео - фейл
Не пойму, моя мидлвара отрабатывает уже после запроса чтоле?
Или фингерпинт как-то по другому имплементировать? Или есть ещё какие-нибудь технические решения?
Вот оно что, за день сменился сайт. Теперь никаких таблиц. И можно пагинацию брать сразу с каталога. Начал вчера запускать паука. А выдачи - 0. Ещё раз спасибо за помощь.
Читать полностью…
если ты про то, что не можешь получить больше 100 итемов за один пажинированный запрос, то это нормально
значит у них есть потолок, больше которого они на одну страницу итемов не дадут, чтоб респонсы огромными не были
на некоторых сайтах возвращают ошибку 429 по типу «кол-во должно быть от 1 до n», а на некоторых, как в твоем случае, просто отдают максимально разрешенное
Может стоит еще ссылку добавить, а то выходит гадание на кофейной гуще)
Читать полностью…
это всё спайдермоном делается конечно, но спайдермон про прод, а не про тесты
Читать полностью…
https://docs.scrapy.org/en/latest/topics/contracts.html возможно
Читать полностью…
(наша ошибка была в отсутствии тестов на сниппеты с CrawlerRunner)
Читать полностью…
Поменять бы код в доках https://doc.scrapy.org/en/latest/topics/practices.html для Same example but running the spiders sequentially by chaining the deferreds на более правильный, или заметку какую приписать, а то если начиная со scrapy 2.13.0 не выставить в TWISTED_REACTOR=None (из-за теперешнего The asyncio reactor is now enabled by default), все ломается с этими @defer.inlineCallbacks и reactor.run(), reactor.stop() (как минимум под win10, но думаю os тут не особо влияет).
Яндух кроме всего прочего генерацию canvas проверят. У серверов, обычно, нет видюх, значит canvas CPUшный. Соответственно, он легко отличимый от среднестатистического компа пользователя. Рашать капчу - нет никаких проблем.
Читать полностью…