scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

описанная задача напоминает теорему про сферического коня в вакууме. И да, по моему, идет подмена понятия, что такое кэш. Речь то идет про что то вроде "храним старых данных что бы проверять что то"
но, если абстрагироваться, то
если надо тупо чекать имя юзверя, обрабатывали или нет раньше - то и 10 000 есть смысл хранить в памяти. Да, сколько угодно можно хранить в памяти, пока она не кончится. Только надо понимать, что это будет хранится только пока скрипт работает. Стопнулся скрипт - очистилась память.
Если надо что то независимое, то, есть смысл посмотреть на что то вроде Redis. У меня есть реализация фильтра дублей, 1 млрд ID'шек на 40 символов каждая весит 68 Гб. Проверка на дубли идет со скоростью, что то около 5 тыс проверок в секунду....

Читать полностью…

Scrapy

чат гпт говорит что если хранить кеш в оперативной памяти и проверять есть ли кто-то из 50 юзеров в кеше будет быстрее

Читать полностью…

Scrapy

на самом деле пофиг как главное чтоб оно работало и давало перфоманс

Читать полностью…

Scrapy

Я б не назвал хранение результата функции громким словом кеширование

Читать полностью…

Scrapy

то есть кеширование будет иметь смысл?

Читать полностью…

Scrapy

невалидных из 50 юзеров где то 95% то есть большая часть не подходит

Читать полностью…

Scrapy

есть скрапер, каждый запрос на категорию я паршу json ответ с которого получаю масив в 50 юзеров

Читать полностью…

Scrapy

подскажите как понять будет кеширование полезным? уже есть готовый парсер но скорость не очень, я думаю стоит ли делать кеш функцию которая будет неподходящие результаты сохранять, чтоб в дальнейшем не тратить время на проверку юзеров

Читать полностью…

Scrapy

А зачем дотнет именно?

Читать полностью…

Scrapy

если б оно одноразово было... а тут надо сервис замутить

Читать полностью…

Scrapy

бегло просмотрел, где-то на 70% того что нужно там точно нашел

Читать полностью…

Scrapy

А, ты вообще не собираешься питон юзать 😁

Читать полностью…

Scrapy

точно, я чето не обратил внимание что он есть, извиняюсь

Читать полностью…

Scrapy

Что работает, то и используй

Читать полностью…

Scrapy

а что насчет вот базовых таких моментов, которые в соо? (или это коммерческая тайна?)

Читать полностью…

Scrapy

но я не привык ему доверять

Читать полностью…

Scrapy

вопрос будет ли это быстрее того что у меня сейчас

Читать полностью…

Scrapy

Как проверка чего-то в памяти может быть дольше запроса в сеть, и уж тем более через браузер

Читать полностью…

Scrapy

я чет думал что проверка юзернейма в кеше будет дольше чем запрос через puppeter и парсинг количества подпищиков

Читать полностью…

Scrapy

Ну конечно стоит хранить прямо в памяти это

Читать полностью…

Scrapy

эти юзеры должны фильтроваться по количеству подписчиков, если у юзера больше 700 подпищиков то он невалидный

Читать полностью…

Scrapy

Ничо не понял, каких юзеров

Читать полностью…

Scrapy

остальная часть сервиса на нем проще реализуема мне

Читать полностью…

Scrapy

Одноразово можно и руками качнуть 😂

Читать полностью…

Scrapy

да, дотнет стек, придется искать проекты и как-то анализировать по факту

Читать полностью…

Scrapy

А я уже тут расписался

Читать полностью…

Scrapy

5-й вопрос довольно странный, но наверно фак разъяснит

Читать полностью…

Scrapy

Хз о каком клиенте речь, но иногда можно запустить с другой проксей
P.S: curl? Серьёзно?

Читать полностью…

Scrapy

Мне нравится этот чувак, раздает приветствия, пишет аккорды

Читать полностью…

Scrapy

я на js pippeteer Юзал

Читать полностью…
Subscribe to a channel