Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
описанная задача напоминает теорему про сферического коня в вакууме. И да, по моему, идет подмена понятия, что такое кэш. Речь то идет про что то вроде "храним старых данных что бы проверять что то"
но, если абстрагироваться, то
если надо тупо чекать имя юзверя, обрабатывали или нет раньше - то и 10 000 есть смысл хранить в памяти. Да, сколько угодно можно хранить в памяти, пока она не кончится. Только надо понимать, что это будет хранится только пока скрипт работает. Стопнулся скрипт - очистилась память.
Если надо что то независимое, то, есть смысл посмотреть на что то вроде Redis. У меня есть реализация фильтра дублей, 1 млрд ID'шек на 40 символов каждая весит 68 Гб. Проверка на дубли идет со скоростью, что то около 5 тыс проверок в секунду....
чат гпт говорит что если хранить кеш в оперативной памяти и проверять есть ли кто-то из 50 юзеров в кеше будет быстрее
Читать полностью…на самом деле пофиг как главное чтоб оно работало и давало перфоманс
Читать полностью…Я б не назвал хранение результата функции громким словом кеширование
Читать полностью…невалидных из 50 юзеров где то 95% то есть большая часть не подходит
Читать полностью…есть скрапер, каждый запрос на категорию я паршу json ответ с которого получаю масив в 50 юзеров
Читать полностью…подскажите как понять будет кеширование полезным? уже есть готовый парсер но скорость не очень, я думаю стоит ли делать кеш функцию которая будет неподходящие результаты сохранять, чтоб в дальнейшем не тратить время на проверку юзеров
Читать полностью…бегло просмотрел, где-то на 70% того что нужно там точно нашел
Читать полностью…а что насчет вот базовых таких моментов, которые в соо? (или это коммерческая тайна?)
Читать полностью…Как проверка чего-то в памяти может быть дольше запроса в сеть, и уж тем более через браузер
Читать полностью…я чет думал что проверка юзернейма в кеше будет дольше чем запрос через puppeter и парсинг количества подпищиков
Читать полностью…эти юзеры должны фильтроваться по количеству подписчиков, если у юзера больше 700 подпищиков то он невалидный
Читать полностью…да, дотнет стек, придется искать проекты и как-то анализировать по факту
Читать полностью…Хз о каком клиенте речь, но иногда можно запустить с другой проксей
P.S: curl? Серьёзно?
Мне нравится этот чувак, раздает приветствия, пишет аккорды
Читать полностью…