Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

17 Sep 2024 10:04

да не, сервис ничего не задает

Читать полностью…

Scrapy

17 Sep 2024 10:04

ну вот, я так и предполагал

Читать полностью…

Scrapy

17 Sep 2024 10:03

по-моему ответ очевиден

Читать полностью…

Scrapy

17 Sep 2024 10:02

а "глубина" просмотра примерно какая, как ты отбриваешь дубликаты?

Читать полностью…

Scrapy

17 Sep 2024 10:02

запросы на 50 обьяв каждые 20-30 сек

Читать полностью…

Scrapy

17 Sep 2024 10:01

он постоянно ищет новые обьявы

Читать полностью…

Scrapy

17 Sep 2024 10:00

ну вот смотри, у тебя условно 16 лямов или сколько там юзеров, парсер их за сколько пробегает? он в одно рыло это делает, или там какие-то у тебя конты туда-сюда создаются и бороздят просторы космосы?

Читать полностью…

Scrapy

17 Sep 2024 09:56

последнее не сильно понял

Читать полностью…

Scrapy

17 Sep 2024 09:55

там их апи максимум 50 юзеров отдает вроде

Читать полностью…

Scrapy

17 Sep 2024 09:53

откуда в тапле О(1)?

Читать полностью…

Scrapy

17 Sep 2024 08:29

крч пока всё сложно, будто пока не затестишь не поймёшь

Читать полностью…

Scrapy

17 Sep 2024 08:27

я планировал из оперативы кеш записывать на диск периодически

Читать полностью…

Scrapy

17 Sep 2024 08:26

либо их можно сбрасывать на диск при завершении, если всегда штатно завершается

Читать полностью…

Scrapy

17 Sep 2024 08:23

не планировал бд подключать вообще, кажется для моего кейса это будет излишним

Читать полностью…

Scrapy

17 Sep 2024 08:03

у меня цифры по скормнее будут) трафик на маркетплейсе всего 15 лямов пользователей, и ежедневно активных хз сколько, думаю не больше 1 млн а то и меньше

Читать полностью…

Scrapy

17 Sep 2024 10:04

потому-что у тебя сервис задает скорость. или ты ее там по 5 минут обрабатываешь одну объяву?

Читать полностью…

Scrapy

17 Sep 2024 10:03

в текущей конфигурации из того что ты описал зная то, что мы знаем, никак не ускорит.

Читать полностью…

Scrapy

17 Sep 2024 10:02

я реально до сих пор не понимаю вопроса

Читать полностью…

Scrapy

17 Sep 2024 10:02

и тут вопрос ускорит ли процес поиска нужных аккаунтов если я сделаю что-то типо кеширования

Читать полностью…

Scrapy

17 Sep 2024 10:01

если юзер подходит по количеству подпищиков, он парсит его обьяву

Читать полностью…

Scrapy

17 Sep 2024 10:01

парсер не парсит 16 лямов

Читать полностью…

Scrapy

17 Sep 2024 10:00

если решено будет выбрать скрапи, то первым делом читать
https://docs.scrapy.org/en/latest/topics/dynamic-content.html
вторым - если делать реализацию с браузером, то забиваем болт на интеграцию с селениумом-puppeteer (если тока кто-то прям собаку съел на селене, тогда может быть, и то не факт) и берем https://github.com/scrapy-plugins/scrapy-playwright

первым делом надо искать API подобных магазов для мобилок/всяких заказ-систем аля тбанк-город или условного мегамаркета.

если бан - смотрим кто qrator или cloudfare, ищем либы обхода.

1) что такое id? сначала css, потом xpath, тока не в тупую до nth element, а примерно уровня как selectorgadget генерит
2) можно и так, но лучше найти что отличается и скормить нормальные заголовки, UA и прочее чтобы не банился.
3) см. сверху сообщения
4) можно отталкиваться от верхней границы аля гигабайта оперативы на процесс.

Читать полностью…

Scrapy

17 Sep 2024 09:56

маркетплейс американский по типу ebay или amazon

Читать полностью…

Scrapy

17 Sep 2024 09:54

хотя емнип там и в set в worst case O(n), но все же лучше это чем в листе)

Читать полностью…

Scrapy

17 Sep 2024 09:52

100% в запросе нет функции отфильтровать как-то по количеству юзеров? что за сайт, если не секрет? парсер без проблем пробегается за 1 раз? тогда подсчитать память и хранить в условном set (чтобы поиск был за O(1) ), тока не в list

Читать полностью…

Scrapy

17 Sep 2024 08:27

и потом при запуске скрапера подтягивать оттуда кеш снова

Читать полностью…

Scrapy

17 Sep 2024 08:26

пока чисто по моим вымышленным вычислениям даже если в кеше будет 50 000к + юзеров , если это всё будет в оперативке то скорость реально бустанется

Читать полностью…

Scrapy

17 Sep 2024 08:26

без бд данные будут жить только пока живёт процесс, если это нормально то ок

Читать полностью…

Scrapy

17 Sep 2024 08:19

ну и? в чем проблема в оперативке хранить?
а как именно в оперативка - дерис или просто список, похрен

а, если что, редис из стока надо настраивать, отключать частые сохранения, а то тормозить будет

Читать полностью…

Scrapy

17 Sep 2024 08:01

посмотрите про алгоритмы кеширования, я думаю это поможет в решении вопроса (их там много - LRU, MRU и т.д)
на ютубе есть отличное видео объясняющее что к чему

Читать полностью…