Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

scrapy_python | Unsorted

Subscribe to a channel

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

17 Sep 2024 07:57

описанная задача напоминает теорему про сферического коня в вакууме. И да, по моему, идет подмена понятия, что такое кэш. Речь то идет про что то вроде "храним старых данных что бы проверять что то"
но, если абстрагироваться, то
если надо тупо чекать имя юзверя, обрабатывали или нет раньше - то и 10 000 есть смысл хранить в памяти. Да, сколько угодно можно хранить в памяти, пока она не кончится. Только надо понимать, что это будет хранится только пока скрипт работает. Стопнулся скрипт - очистилась память.
Если надо что то независимое, то, есть смысл посмотреть на что то вроде Redis. У меня есть реализация фильтра дублей, 1 млрд ID'шек на 40 символов каждая весит 68 Гб. Проверка на дубли идет со скоростью, что то около 5 тыс проверок в секунду....

Читать полностью…

Scrapy

17 Sep 2024 07:48

чат гпт говорит что если хранить кеш в оперативной памяти и проверять есть ли кто-то из 50 юзеров в кеше будет быстрее

Читать полностью…

Scrapy

17 Sep 2024 07:47

на самом деле пофиг как главное чтоб оно работало и давало перфоманс

Читать полностью…

Scrapy

17 Sep 2024 07:46

Я б не назвал хранение результата функции громким словом кеширование

Читать полностью…

Scrapy

17 Sep 2024 07:45

то есть кеширование будет иметь смысл?

Читать полностью…

Scrapy

17 Sep 2024 07:45

невалидных из 50 юзеров где то 95% то есть большая часть не подходит

Читать полностью…

Scrapy

17 Sep 2024 07:44

есть скрапер, каждый запрос на категорию я паршу json ответ с которого получаю масив в 50 юзеров

Читать полностью…

Scrapy

17 Sep 2024 06:38

подскажите как понять будет кеширование полезным? уже есть готовый парсер но скорость не очень, я думаю стоит ли делать кеш функцию которая будет неподходящие результаты сохранять, чтоб в дальнейшем не тратить время на проверку юзеров

Читать полностью…

Scrapy

15 Sep 2024 01:34

А зачем дотнет именно?

Читать полностью…

Scrapy

15 Sep 2024 01:30

если б оно одноразово было... а тут надо сервис замутить

Читать полностью…

Scrapy

15 Sep 2024 01:29

бегло просмотрел, где-то на 70% того что нужно там точно нашел

Читать полностью…

Scrapy

15 Sep 2024 01:29

А, ты вообще не собираешься питон юзать 😁

Читать полностью…

Scrapy

15 Sep 2024 01:26

точно, я чето не обратил внимание что он есть, извиняюсь

Читать полностью…

Scrapy

15 Sep 2024 01:24

Что работает, то и используй

Читать полностью…

Scrapy

14 Sep 2024 23:45

а что насчет вот базовых таких моментов, которые в соо? (или это коммерческая тайна?)

Читать полностью…

Scrapy

17 Sep 2024 07:48

но я не привык ему доверять

Читать полностью…

Scrapy

17 Sep 2024 07:47

вопрос будет ли это быстрее того что у меня сейчас

Читать полностью…

Scrapy

17 Sep 2024 07:47

Как проверка чего-то в памяти может быть дольше запроса в сеть, и уж тем более через браузер

Читать полностью…

Scrapy

17 Sep 2024 07:45

я чет думал что проверка юзернейма в кеше будет дольше чем запрос через puppeter и парсинг количества подпищиков

Читать полностью…

Scrapy

17 Sep 2024 07:45

Ну конечно стоит хранить прямо в памяти это

Читать полностью…

Scrapy

17 Sep 2024 07:44

эти юзеры должны фильтроваться по количеству подписчиков, если у юзера больше 700 подпищиков то он невалидный

Читать полностью…

Scrapy

17 Sep 2024 07:41

Ничо не понял, каких юзеров

Читать полностью…

Scrapy

15 Sep 2024 07:05

остальная часть сервиса на нем проще реализуема мне

Читать полностью…

Scrapy

15 Sep 2024 01:31

Одноразово можно и руками качнуть 😂

Читать полностью…

Scrapy

15 Sep 2024 01:30

да, дотнет стек, придется искать проекты и как-то анализировать по факту

Читать полностью…

Scrapy

15 Sep 2024 01:29

А я уже тут расписался

Читать полностью…

Scrapy

15 Sep 2024 01:27

5-й вопрос довольно странный, но наверно фак разъяснит

Читать полностью…

Scrapy

15 Sep 2024 01:24

Хз о каком клиенте речь, но иногда можно запустить с другой проксей
P.S: curl? Серьёзно?

Читать полностью…

Scrapy

15 Sep 2024 01:22

Мне нравится этот чувак, раздает приветствия, пишет аккорды

Читать полностью…

Scrapy

14 Sep 2024 23:45

я на js pippeteer Юзал

Читать полностью…

Subscribe to a channel