1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
невалидных из 50 юзеров где то 95% то есть большая часть не подходит
Читать полностью…
есть скрапер, каждый запрос на категорию я паршу json ответ с которого получаю масив в 50 юзеров
Читать полностью…
подскажите как понять будет кеширование полезным? уже есть готовый парсер но скорость не очень, я думаю стоит ли делать кеш функцию которая будет неподходящие результаты сохранять, чтоб в дальнейшем не тратить время на проверку юзеров
Читать полностью…
если б оно одноразово было... а тут надо сервис замутить
Читать полностью…
бегло просмотрел, где-то на 70% того что нужно там точно нашел
Читать полностью…
точно, я чето не обратил внимание что он есть, извиняюсь
Читать полностью…
а что насчет вот базовых таких моментов, которые в соо? (или это коммерческая тайна?)
Читать полностью…
если не стоит, то почему? это не проблема, просто интересно
Читать полностью…
Контент даунлоадер тебе в помощь, если питон не хочешь учить...)
Читать полностью…
эти юзеры должны фильтроваться по количеству подписчиков, если у юзера больше 700 подпищиков то он невалидный
Читать полностью…
остальная часть сервиса на нем проще реализуема мне
Читать полностью…
да, дотнет стек, придется искать проекты и как-то анализировать по факту
Читать полностью…
5-й вопрос довольно странный, но наверно фак разъяснит
Читать полностью…
Хз о каком клиенте речь, но иногда можно запустить с другой проксей
P.S: curl? Серьёзно?
Мне нравится этот чувак, раздает приветствия, пишет аккорды
Читать полностью…
здравствуйте, я немного не по стеку группы, но меня интересуют люди, у которых был опыт скрапинга веб магазинов и маркетплейсов
мне хотелось бы узнать про ключевые моменты, какие-то общие рекомендации и правила
делаю бота для телеги, с питоном не дружу, это что-то по типу "обобщенного" поисковика чисто в локальной задаче (поиск наилучшего совпадения в зависимости от региона и по выгодной цене)
не раз сталкивался с явлением бана типичных скраперов (вроде из-за TLS Handshake, если не ошибаюсь), хотелось бы услышать как вообще с этим делать, возможно, есть аналоги Scrapy (под дотнет)
В общем просто получить рекомендации при решении такого рода задач
сформулировал основные вопросы
1) использовать id или css селекторы? что наименее хрупкое? мб это xpath даже, не знаю
2) стандартный HttpClient банится, нормальная ли практика запускать другой процесс (тот же curl) для получения данных?
3) если нужно нажимать на кнопки чтобы куда-то попасть особенно в случае динамических страниц, то как быть тут? selenium only или можно как-то по-проще?
4) представим, что кейс реализуем только через эмуляцию действий юзера, с кучей задержек и прочего, кто-то использует селениум в параллель? Много ресурсов уходит?
5) Какой основной инструментарий стоит знать в этой области (я имею в виду общий. мб IaaS какие-нибудь, хз), может кто-то знает под .NET?
когда включены httpcache с rfc2616 и imagepipeline, респонсы с картинками тоже кешируются? в should_cache_response нет ведь проверки на mime type
мб стоит добавить и в настройки вынести?
просто сейчас новый сайт парсить начал, после получаса охренел что папка с кешом стала 10гб весить…