есть скрапер, каждый запрос на категорию я паршу json ответ с которого получаю масив в 50 юзеров
Читать полностью…подскажите как понять будет кеширование полезным? уже есть готовый парсер но скорость не очень, я думаю стоит ли делать кеш функцию которая будет неподходящие результаты сохранять, чтоб в дальнейшем не тратить время на проверку юзеров
Читать полностью…а что насчет вот базовых таких моментов, которые в соо? (или это коммерческая тайна?)
Читать полностью…эти юзеры должны фильтроваться по количеству подписчиков, если у юзера больше 700 подпищиков то он невалидный
Читать полностью…Хз о каком клиенте речь, но иногда можно запустить с другой проксей
P.S: curl? Серьёзно?
здравствуйте, я немного не по стеку группы, но меня интересуют люди, у которых был опыт скрапинга веб магазинов и маркетплейсов
мне хотелось бы узнать про ключевые моменты, какие-то общие рекомендации и правила
делаю бота для телеги, с питоном не дружу, это что-то по типу "обобщенного" поисковика чисто в локальной задаче (поиск наилучшего совпадения в зависимости от региона и по выгодной цене)
не раз сталкивался с явлением бана типичных скраперов (вроде из-за TLS Handshake, если не ошибаюсь), хотелось бы услышать как вообще с этим делать, возможно, есть аналоги Scrapy (под дотнет)
В общем просто получить рекомендации при решении такого рода задач
сформулировал основные вопросы
1) использовать id или css селекторы? что наименее хрупкое? мб это xpath даже, не знаю
2) стандартный HttpClient банится, нормальная ли практика запускать другой процесс (тот же curl) для получения данных?
3) если нужно нажимать на кнопки чтобы куда-то попасть особенно в случае динамических страниц, то как быть тут? selenium only или можно как-то по-проще?
4) представим, что кейс реализуем только через эмуляцию действий юзера, с кучей задержек и прочего, кто-то использует селениум в параллель? Много ресурсов уходит?
5) Какой основной инструментарий стоит знать в этой области (я имею в виду общий. мб IaaS какие-нибудь, хз), может кто-то знает под .NET?
когда включены httpcache с rfc2616 и imagepipeline, респонсы с картинками тоже кешируются? в should_cache_response нет ведь проверки на mime type
мб стоит добавить и в настройки вынести?
просто сейчас новый сайт парсить начал, после получаса охренел что папка с кешом стала 10гб весить…