Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
ну и? в чем проблема в оперативке хранить?
а как именно в оперативка - дерис или просто список, похрен
а, если что, редис из стока надо настраивать, отключать частые сохранения, а то тормозить будет
посмотрите про алгоритмы кеширования, я думаю это поможет в решении вопроса (их там много - LRU, MRU и т.д)
на ютубе есть отличное видео объясняющее что к чему
Как проверка чего-то в памяти может быть дольше запроса в сеть, и уж тем более через браузер
Читать полностью…я чет думал что проверка юзернейма в кеше будет дольше чем запрос через puppeter и парсинг количества подпищиков
Читать полностью…эти юзеры должны фильтроваться по количеству подписчиков, если у юзера больше 700 подпищиков то он невалидный
Читать полностью…да, дотнет стек, придется искать проекты и как-то анализировать по факту
Читать полностью…Хз о каком клиенте речь, но иногда можно запустить с другой проксей
P.S: curl? Серьёзно?
у меня цифры по скормнее будут) трафик на маркетплейсе всего 15 лямов пользователей, и ежедневно активных хз сколько, думаю не больше 1 млн а то и меньше
Читать полностью…описанная задача напоминает теорему про сферического коня в вакууме. И да, по моему, идет подмена понятия, что такое кэш. Речь то идет про что то вроде "храним старых данных что бы проверять что то"
но, если абстрагироваться, то
если надо тупо чекать имя юзверя, обрабатывали или нет раньше - то и 10 000 есть смысл хранить в памяти. Да, сколько угодно можно хранить в памяти, пока она не кончится. Только надо понимать, что это будет хранится только пока скрипт работает. Стопнулся скрипт - очистилась память.
Если надо что то независимое, то, есть смысл посмотреть на что то вроде Redis. У меня есть реализация фильтра дублей, 1 млрд ID'шек на 40 символов каждая весит 68 Гб. Проверка на дубли идет со скоростью, что то около 5 тыс проверок в секунду....
чат гпт говорит что если хранить кеш в оперативной памяти и проверять есть ли кто-то из 50 юзеров в кеше будет быстрее
Читать полностью…на самом деле пофиг как главное чтоб оно работало и давало перфоманс
Читать полностью…Я б не назвал хранение результата функции громким словом кеширование
Читать полностью…невалидных из 50 юзеров где то 95% то есть большая часть не подходит
Читать полностью…есть скрапер, каждый запрос на категорию я паршу json ответ с которого получаю масив в 50 юзеров
Читать полностью…подскажите как понять будет кеширование полезным? уже есть готовый парсер но скорость не очень, я думаю стоит ли делать кеш функцию которая будет неподходящие результаты сохранять, чтоб в дальнейшем не тратить время на проверку юзеров
Читать полностью…бегло просмотрел, где-то на 70% того что нужно там точно нашел
Читать полностью…