Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

17 Sep 2024 07:45

то есть кеширование будет иметь смысл?

Читать полностью…

Scrapy

17 Sep 2024 07:45

невалидных из 50 юзеров где то 95% то есть большая часть не подходит

Читать полностью…

Scrapy

17 Sep 2024 07:44

есть скрапер, каждый запрос на категорию я паршу json ответ с которого получаю масив в 50 юзеров

Читать полностью…

Scrapy

17 Sep 2024 06:38

подскажите как понять будет кеширование полезным? уже есть готовый парсер но скорость не очень, я думаю стоит ли делать кеш функцию которая будет неподходящие результаты сохранять, чтоб в дальнейшем не тратить время на проверку юзеров

Читать полностью…

Scrapy

15 Sep 2024 01:34

А зачем дотнет именно?

Читать полностью…

Scrapy

15 Sep 2024 01:30

если б оно одноразово было... а тут надо сервис замутить

Читать полностью…

Scrapy

15 Sep 2024 01:29

бегло просмотрел, где-то на 70% того что нужно там точно нашел

Читать полностью…

Scrapy

15 Sep 2024 01:29

А, ты вообще не собираешься питон юзать 😁

Читать полностью…

Scrapy

15 Sep 2024 01:26

точно, я чето не обратил внимание что он есть, извиняюсь

Читать полностью…

Scrapy

15 Sep 2024 01:24

Что работает, то и используй

Читать полностью…

Scrapy

14 Sep 2024 23:45

а что насчет вот базовых таких моментов, которые в соо? (или это коммерческая тайна?)

Читать полностью…

Scrapy

14 Sep 2024 23:45

погугли либы под дотнет и всё

Читать полностью…

Scrapy

12 Sep 2024 08:53

高 You can write in English if you prefer :)

Читать полностью…

Scrapy

11 Sep 2024 19:35

если не стоит, то почему? это не проблема, просто интересно

Читать полностью…

Scrapy

11 Sep 2024 07:48

Контент даунлоадер тебе в помощь, если питон не хочешь учить...)

Читать полностью…

Scrapy

17 Sep 2024 07:45

Ну конечно стоит хранить прямо в памяти это

Читать полностью…

Scrapy

17 Sep 2024 07:44

эти юзеры должны фильтроваться по количеству подписчиков, если у юзера больше 700 подпищиков то он невалидный

Читать полностью…

Scrapy

17 Sep 2024 07:41

Ничо не понял, каких юзеров

Читать полностью…

Scrapy

15 Sep 2024 07:05

остальная часть сервиса на нем проще реализуема мне

Читать полностью…

Scrapy

15 Sep 2024 01:31

Одноразово можно и руками качнуть 😂

Читать полностью…

Scrapy

15 Sep 2024 01:30

да, дотнет стек, придется искать проекты и как-то анализировать по факту

Читать полностью…

Scrapy

15 Sep 2024 01:29

А я уже тут расписался

Читать полностью…

Scrapy

15 Sep 2024 01:27

5-й вопрос довольно странный, но наверно фак разъяснит

Читать полностью…

Scrapy

15 Sep 2024 01:24

Хз о каком клиенте речь, но иногда можно запустить с другой проксей
P.S: curl? Серьёзно?

Читать полностью…

Scrapy

15 Sep 2024 01:22

Мне нравится этот чувак, раздает приветствия, пишет аккорды

Читать полностью…

Scrapy

14 Sep 2024 23:45

я на js pippeteer Юзал

Читать полностью…

Scrapy

13 Sep 2024 17:55

здравствуйте, я немного не по стеку группы, но меня интересуют люди, у которых был опыт скрапинга веб магазинов и маркетплейсов

мне хотелось бы узнать про ключевые моменты, какие-то общие рекомендации и правила

делаю бота для телеги, с питоном не дружу, это что-то по типу "обобщенного" поисковика чисто в локальной задаче (поиск наилучшего совпадения в зависимости от региона и по выгодной цене)

не раз сталкивался с явлением бана типичных скраперов (вроде из-за TLS Handshake, если не ошибаюсь), хотелось бы услышать как вообще с этим делать, возможно, есть аналоги Scrapy (под дотнет)

В общем просто получить рекомендации при решении такого рода задач

сформулировал основные вопросы
1) использовать id или css селекторы? что наименее хрупкое? мб это xpath даже, не знаю
2) стандартный HttpClient банится, нормальная ли практика запускать другой процесс (тот же curl) для получения данных?
3) если нужно нажимать на кнопки чтобы куда-то попасть особенно в случае динамических страниц, то как быть тут? selenium only или можно как-то по-проще?
4) представим, что кейс реализуем только через эмуляцию действий юзера, с кучей задержек и прочего, кто-то использует селениум в параллель? Много ресурсов уходит?
5) Какой основной инструментарий стоит знать в этой области (я имею в виду общий. мб IaaS какие-нибудь, хз), может кто-то знает под .NET?

Читать полностью…

Scrapy

11 Sep 2024 21:34

Без контекста забавно читать 😂

Читать полностью…

Scrapy

11 Sep 2024 19:30

когда включены httpcache с rfc2616 и imagepipeline, респонсы с картинками тоже кешируются? в should_cache_response нет ведь проверки на mime type
мб стоит добавить и в настройки вынести?
просто сейчас новый сайт парсить начал, после получаса охренел что папка с кешом стала 10гб весить…

Читать полностью…

Scrapy

11 Sep 2024 07:22

https://github.com/scrapinghub/shub-workflow

Читать полностью…