scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

то есть кеширование будет иметь смысл?

Читать полностью…

Scrapy

невалидных из 50 юзеров где то 95% то есть большая часть не подходит

Читать полностью…

Scrapy

есть скрапер, каждый запрос на категорию я паршу json ответ с которого получаю масив в 50 юзеров

Читать полностью…

Scrapy

подскажите как понять будет кеширование полезным? уже есть готовый парсер но скорость не очень, я думаю стоит ли делать кеш функцию которая будет неподходящие результаты сохранять, чтоб в дальнейшем не тратить время на проверку юзеров

Читать полностью…

Scrapy

А зачем дотнет именно?

Читать полностью…

Scrapy

если б оно одноразово было... а тут надо сервис замутить

Читать полностью…

Scrapy

бегло просмотрел, где-то на 70% того что нужно там точно нашел

Читать полностью…

Scrapy

А, ты вообще не собираешься питон юзать 😁

Читать полностью…

Scrapy

точно, я чето не обратил внимание что он есть, извиняюсь

Читать полностью…

Scrapy

Что работает, то и используй

Читать полностью…

Scrapy

а что насчет вот базовых таких моментов, которые в соо? (или это коммерческая тайна?)

Читать полностью…

Scrapy

погугли либы под дотнет и всё

Читать полностью…

Scrapy

高 You can write in English if you prefer :)

Читать полностью…

Scrapy

если не стоит, то почему? это не проблема, просто интересно

Читать полностью…

Scrapy

Контент даунлоадер тебе в помощь, если питон не хочешь учить...)

Читать полностью…

Scrapy

Ну конечно стоит хранить прямо в памяти это

Читать полностью…

Scrapy

эти юзеры должны фильтроваться по количеству подписчиков, если у юзера больше 700 подпищиков то он невалидный

Читать полностью…

Scrapy

Ничо не понял, каких юзеров

Читать полностью…

Scrapy

остальная часть сервиса на нем проще реализуема мне

Читать полностью…

Scrapy

Одноразово можно и руками качнуть 😂

Читать полностью…

Scrapy

да, дотнет стек, придется искать проекты и как-то анализировать по факту

Читать полностью…

Scrapy

А я уже тут расписался

Читать полностью…

Scrapy

5-й вопрос довольно странный, но наверно фак разъяснит

Читать полностью…

Scrapy

Хз о каком клиенте речь, но иногда можно запустить с другой проксей
P.S: curl? Серьёзно?

Читать полностью…

Scrapy

Мне нравится этот чувак, раздает приветствия, пишет аккорды

Читать полностью…

Scrapy

я на js pippeteer Юзал

Читать полностью…

Scrapy

здравствуйте, я немного не по стеку группы, но меня интересуют люди, у которых был опыт скрапинга веб магазинов и маркетплейсов

мне хотелось бы узнать про ключевые моменты, какие-то общие рекомендации и правила

делаю бота для телеги, с питоном не дружу, это что-то по типу "обобщенного" поисковика чисто в локальной задаче (поиск наилучшего совпадения в зависимости от региона и по выгодной цене)

не раз сталкивался с явлением бана типичных скраперов (вроде из-за TLS Handshake, если не ошибаюсь), хотелось бы услышать как вообще с этим делать, возможно, есть аналоги Scrapy (под дотнет)

В общем просто получить рекомендации при решении такого рода задач

сформулировал основные вопросы
1) использовать id или css селекторы? что наименее хрупкое? мб это xpath даже, не знаю
2) стандартный HttpClient банится, нормальная ли практика запускать другой процесс (тот же curl) для получения данных?
3) если нужно нажимать на кнопки чтобы куда-то попасть особенно в случае динамических страниц, то как быть тут? selenium only или можно как-то по-проще?
4) представим, что кейс реализуем только через эмуляцию действий юзера, с кучей задержек и прочего, кто-то использует селениум в параллель? Много ресурсов уходит?
5) Какой основной инструментарий стоит знать в этой области (я имею в виду общий. мб IaaS какие-нибудь, хз), может кто-то знает под .NET?

Читать полностью…

Scrapy

Без контекста забавно читать 😂

Читать полностью…

Scrapy

когда включены httpcache с rfc2616 и imagepipeline, респонсы с картинками тоже кешируются? в should_cache_response нет ведь проверки на mime type
мб стоит добавить и в настройки вынести?
просто сейчас новый сайт парсить начал, после получаса охренел что папка с кешом стала 10гб весить…

Читать полностью…

Scrapy

https://github.com/scrapinghub/shub-workflow

Читать полностью…
Subscribe to a channel