Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

17 Sep 2024 10:02

запросы на 50 обьяв каждые 20-30 сек

Читать полностью…

Scrapy

17 Sep 2024 10:01

он постоянно ищет новые обьявы

Читать полностью…

Scrapy

17 Sep 2024 10:00

ну вот смотри, у тебя условно 16 лямов или сколько там юзеров, парсер их за сколько пробегает? он в одно рыло это делает, или там какие-то у тебя конты туда-сюда создаются и бороздят просторы космосы?

Читать полностью…

Scrapy

17 Sep 2024 09:56

последнее не сильно понял

Читать полностью…

Scrapy

17 Sep 2024 09:55

там их апи максимум 50 юзеров отдает вроде

Читать полностью…

Scrapy

17 Sep 2024 09:53

откуда в тапле О(1)?

Читать полностью…

Scrapy

17 Sep 2024 08:29

крч пока всё сложно, будто пока не затестишь не поймёшь

Читать полностью…

Scrapy

17 Sep 2024 08:27

я планировал из оперативы кеш записывать на диск периодически

Читать полностью…

Scrapy

17 Sep 2024 08:26

либо их можно сбрасывать на диск при завершении, если всегда штатно завершается

Читать полностью…

Scrapy

17 Sep 2024 08:23

не планировал бд подключать вообще, кажется для моего кейса это будет излишним

Читать полностью…

Scrapy

17 Sep 2024 08:03

у меня цифры по скормнее будут) трафик на маркетплейсе всего 15 лямов пользователей, и ежедневно активных хз сколько, думаю не больше 1 млн а то и меньше

Читать полностью…

Scrapy

17 Sep 2024 07:57

описанная задача напоминает теорему про сферического коня в вакууме. И да, по моему, идет подмена понятия, что такое кэш. Речь то идет про что то вроде "храним старых данных что бы проверять что то"
но, если абстрагироваться, то
если надо тупо чекать имя юзверя, обрабатывали или нет раньше - то и 10 000 есть смысл хранить в памяти. Да, сколько угодно можно хранить в памяти, пока она не кончится. Только надо понимать, что это будет хранится только пока скрипт работает. Стопнулся скрипт - очистилась память.
Если надо что то независимое, то, есть смысл посмотреть на что то вроде Redis. У меня есть реализация фильтра дублей, 1 млрд ID'шек на 40 символов каждая весит 68 Гб. Проверка на дубли идет со скоростью, что то около 5 тыс проверок в секунду....

Читать полностью…

Scrapy

17 Sep 2024 07:48

чат гпт говорит что если хранить кеш в оперативной памяти и проверять есть ли кто-то из 50 юзеров в кеше будет быстрее

Читать полностью…

Scrapy

17 Sep 2024 07:47

на самом деле пофиг как главное чтоб оно работало и давало перфоманс

Читать полностью…

Scrapy

17 Sep 2024 07:46

Я б не назвал хранение результата функции громким словом кеширование

Читать полностью…

Scrapy

17 Sep 2024 10:01

если юзер подходит по количеству подпищиков, он парсит его обьяву

Читать полностью…

Scrapy

17 Sep 2024 10:01

парсер не парсит 16 лямов

Читать полностью…

Scrapy

17 Sep 2024 10:00

если решено будет выбрать скрапи, то первым делом читать
https://docs.scrapy.org/en/latest/topics/dynamic-content.html
вторым - если делать реализацию с браузером, то забиваем болт на интеграцию с селениумом-puppeteer (если тока кто-то прям собаку съел на селене, тогда может быть, и то не факт) и берем https://github.com/scrapy-plugins/scrapy-playwright

первым делом надо искать API подобных магазов для мобилок/всяких заказ-систем аля тбанк-город или условного мегамаркета.

если бан - смотрим кто qrator или cloudfare, ищем либы обхода.

1) что такое id? сначала css, потом xpath, тока не в тупую до nth element, а примерно уровня как selectorgadget генерит
2) можно и так, но лучше найти что отличается и скормить нормальные заголовки, UA и прочее чтобы не банился.
3) см. сверху сообщения
4) можно отталкиваться от верхней границы аля гигабайта оперативы на процесс.

Читать полностью…

Scrapy

17 Sep 2024 09:56

маркетплейс американский по типу ebay или amazon

Читать полностью…

Scrapy

17 Sep 2024 09:54

хотя емнип там и в set в worst case O(n), но все же лучше это чем в листе)

Читать полностью…

Scrapy

17 Sep 2024 09:52

100% в запросе нет функции отфильтровать как-то по количеству юзеров? что за сайт, если не секрет? парсер без проблем пробегается за 1 раз? тогда подсчитать память и хранить в условном set (чтобы поиск был за O(1) ), тока не в list

Читать полностью…

Scrapy

17 Sep 2024 08:27

и потом при запуске скрапера подтягивать оттуда кеш снова

Читать полностью…

Scrapy

17 Sep 2024 08:26

пока чисто по моим вымышленным вычислениям даже если в кеше будет 50 000к + юзеров , если это всё будет в оперативке то скорость реально бустанется

Читать полностью…

Scrapy

17 Sep 2024 08:26

без бд данные будут жить только пока живёт процесс, если это нормально то ок

Читать полностью…

Scrapy

17 Sep 2024 08:19

ну и? в чем проблема в оперативке хранить?
а как именно в оперативка - дерис или просто список, похрен

а, если что, редис из стока надо настраивать, отключать частые сохранения, а то тормозить будет

Читать полностью…

Scrapy

17 Sep 2024 08:01

посмотрите про алгоритмы кеширования, я думаю это поможет в решении вопроса (их там много - LRU, MRU и т.д)
на ютубе есть отличное видео объясняющее что к чему

Читать полностью…