scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Есть пакет tf-playwright-stealth. На сколько я понимаю, то он с коробки подкидывает красивый фингерпинт.
Код отрабатывает, но сайт сервис по определению ботов показывает, что проверку (chromium) не прохожу. Сервис видит, что это вебдрайвер.

Подключение фингрепринта осуществляется с помощью download midlware или нужно писать свой кастомный download handler?
Или есть ещё какие-нибудь готовые технические решения?

Читать полностью…

Scrapy

«Человека легче обмануть, чем убедить, что его обманули».

Марк Твен

Читать полностью…

Scrapy

здесь тоже должно быть 288
а по факту отдается только 100

а вот пагинацию я нашел)))
пользуйся

Читать полностью…

Scrapy

никак:^)
получай и обрабатывай страницу за страницей

Читать полностью…

Scrapy

или если запрос без параметров/qs, то на их стороне по дефолту 100 может стоять

Читать полностью…

Scrapy

https://him-tech.ru/

Читать полностью…

Scrapy

Доброго времени суток. Подскажите куда глядеть. На сайте 10 категорий, в каждой разное количество товаров. Если меньше 100, получаю все, если больше, то только 100. 🫤

Читать полностью…

Scrapy

Pydantic, json schema?

Читать полностью…

Scrapy

из реального запроса. не кеш не мок

Читать полностью…

Scrapy

типа получить данные и проверить значения в определенных полях .
например поля которые проверяю должны быть int или строка или json строка. или диапазон инта 10 - 100

Читать полностью…

Scrapy

Доброго. Кто пишет тесты для пауков ? Толкните в нужном направлении)

Читать полностью…

Scrapy

Более правильно было бы ставить вручную именно asyncio реактор, а не дефолтный
В мастере это всё уже неактуально, если будет 2.13.2 то попробую не забыть

Читать полностью…

Scrapy

да ни в каком, это прототип, один под своим ип второй через впн

Читать полностью…

Scrapy

а так чисто технически в апи отдавать код(?)

Читать полностью…

Scrapy

А как ее решать селениумом?
Вот вижу капчу, могу сохранить скриншот, как правильно прокрутить ее)

Читать полностью…

Scrapy

Ребят, пытаюсь в scrapy, scrapy-playwright и tf-playwright-stealth.
Пробовал обернуть в мидлвару через 'evaluate' в process_request(). Работает не корректно, при попытке ходить на bot.sannysoft через хромиум и фф видит вебдрайвер плюс:
- в хроме варнинг на 264 кодек
- в фф половина полей связанных с видео - фейл

Не пойму, моя мидлвара отрабатывает уже после запроса чтоле?

Или фингерпинт как-то по другому имплементировать? Или есть ещё какие-нибудь технические решения?

Читать полностью…

Scrapy

Вот оно что, за день сменился сайт. Теперь никаких таблиц. И можно пагинацию брать сразу с каталога. Начал вчера запускать паука. А выдачи - 0. Ещё раз спасибо за помощь.

Читать полностью…

Scrapy

так сам сайт и браузеру не дает больше 100 позиций

Читать полностью…

Scrapy

Спасибо, это я и предполагал. А как обойти то?

Читать полностью…

Scrapy

если ты про то, что не можешь получить больше 100 итемов за один пажинированный запрос, то это нормально

значит у них есть потолок, больше которого они на одну страницу итемов не дадут, чтоб респонсы огромными не были

на некоторых сайтах возвращают ошибку 429 по типу «кол-во должно быть от 1 до n», а на некоторых, как в твоем случае, просто отдают максимально разрешенное

Читать полностью…

Scrapy

Может стоит еще ссылку добавить, а то выходит гадание на кофейной гуще)

Читать полностью…

Scrapy

это всё спайдермоном делается конечно, но спайдермон про прод, а не про тесты

Читать полностью…

Scrapy

https://docs.scrapy.org/en/latest/topics/contracts.html возможно

Читать полностью…

Scrapy

получить из чего, из страницы которую тест скачает?

Читать полностью…

Scrapy

тесты разные бывают, опишите цель тестирования

Читать полностью…

Scrapy

(наша ошибка была в отсутствии тестов на сниппеты с CrawlerRunner)

Читать полностью…

Scrapy

Поменять бы код в доках https://doc.scrapy.org/en/latest/topics/practices.html для Same example but running the spiders sequentially by chaining the deferreds на более правильный, или заметку какую приписать, а то если начиная со scrapy 2.13.0 не выставить в TWISTED_REACTOR=None (из-за теперешнего The asyncio reactor is now enabled by default), все ломается с этими @defer.inlineCallbacks и reactor.run(), reactor.stop() (как минимум под win10, но думаю os тут не особо влияет).

Читать полностью…

Scrapy

А на каком сервсисе ты прокси покупал?

Читать полностью…

Scrapy

я у себя просто релоадил страницу под другим прокси

Читать полностью…

Scrapy

Яндух кроме всего прочего генерацию canvas проверят. У серверов, обычно, нет видюх, значит canvas CPUшный. Соответственно, он легко отличимый от среднестатистического компа пользователя. Рашать капчу - нет никаких проблем.

Читать полностью…
Subscribe to a channel