scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

здесь тоже должно быть 288
а по факту отдается только 100

а вот пагинацию я нашел)))
пользуйся

Читать полностью…

Scrapy

никак:^)
получай и обрабатывай страницу за страницей

Читать полностью…

Scrapy

или если запрос без параметров/qs, то на их стороне по дефолту 100 может стоять

Читать полностью…

Scrapy

https://him-tech.ru/

Читать полностью…

Scrapy

Доброго времени суток. Подскажите куда глядеть. На сайте 10 категорий, в каждой разное количество товаров. Если меньше 100, получаю все, если больше, то только 100. 🫤

Читать полностью…

Scrapy

Pydantic, json schema?

Читать полностью…

Scrapy

из реального запроса. не кеш не мок

Читать полностью…

Scrapy

типа получить данные и проверить значения в определенных полях .
например поля которые проверяю должны быть int или строка или json строка. или диапазон инта 10 - 100

Читать полностью…

Scrapy

Доброго. Кто пишет тесты для пауков ? Толкните в нужном направлении)

Читать полностью…

Scrapy

Более правильно было бы ставить вручную именно asyncio реактор, а не дефолтный
В мастере это всё уже неактуально, если будет 2.13.2 то попробую не забыть

Читать полностью…

Scrapy

да ни в каком, это прототип, один под своим ип второй через впн

Читать полностью…

Scrapy

а так чисто технически в апи отдавать код(?)

Читать полностью…

Scrapy

А как ее решать селениумом?
Вот вижу капчу, могу сохранить скриншот, как правильно прокрутить ее)

Читать полностью…

Scrapy

Судя по всему это играет не маловажную роль. Избавится навряд ли получится потому что засрать можно любую белую прокси

Читать полностью…

Scrapy

cap.guru решает. А дальше смотрите частоту выскакивания / профит от парсинга

Читать полностью…

Scrapy

так сам сайт и браузеру не дает больше 100 позиций

Читать полностью…

Scrapy

Спасибо, это я и предполагал. А как обойти то?

Читать полностью…

Scrapy

если ты про то, что не можешь получить больше 100 итемов за один пажинированный запрос, то это нормально

значит у них есть потолок, больше которого они на одну страницу итемов не дадут, чтоб респонсы огромными не были

на некоторых сайтах возвращают ошибку 429 по типу «кол-во должно быть от 1 до n», а на некоторых, как в твоем случае, просто отдают максимально разрешенное

Читать полностью…

Scrapy

Может стоит еще ссылку добавить, а то выходит гадание на кофейной гуще)

Читать полностью…

Scrapy

это всё спайдермоном делается конечно, но спайдермон про прод, а не про тесты

Читать полностью…

Scrapy

https://docs.scrapy.org/en/latest/topics/contracts.html возможно

Читать полностью…

Scrapy

получить из чего, из страницы которую тест скачает?

Читать полностью…

Scrapy

тесты разные бывают, опишите цель тестирования

Читать полностью…

Scrapy

(наша ошибка была в отсутствии тестов на сниппеты с CrawlerRunner)

Читать полностью…

Scrapy

Поменять бы код в доках https://doc.scrapy.org/en/latest/topics/practices.html для Same example but running the spiders sequentially by chaining the deferreds на более правильный, или заметку какую приписать, а то если начиная со scrapy 2.13.0 не выставить в TWISTED_REACTOR=None (из-за теперешнего The asyncio reactor is now enabled by default), все ломается с этими @defer.inlineCallbacks и reactor.run(), reactor.stop() (как минимум под win10, но думаю os тут не особо влияет).

Читать полностью…

Scrapy

А на каком сервсисе ты прокси покупал?

Читать полностью…

Scrapy

я у себя просто релоадил страницу под другим прокси

Читать полностью…

Scrapy

Яндух кроме всего прочего генерацию canvas проверят. У серверов, обычно, нет видюх, значит canvas CPUшный. Соответственно, он легко отличимый от среднестатистического компа пользователя. Рашать капчу - нет никаких проблем.

Читать полностью…

Scrapy

Спасибо, но вопрос скорее про то, как модифицировать селениум скрипт/какое прокси купить, чтобы такая капча не выскакивала (или выскакивала редко)
на моем компе ее нет (тестировал скрипт больше часа)

Читать полностью…

Scrapy

Да, возможно
Уже покупал прокси на сайте proxy-seller.io
но сатло еще хуже - даже на моем компе сразу вылезает сложная капча

Читать полностью…
Subscribe to a channel