scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

да не, сервис ничего не задает

Читать полностью…

Scrapy

ну вот, я так и предполагал

Читать полностью…

Scrapy

по-моему ответ очевиден

Читать полностью…

Scrapy

а "глубина" просмотра примерно какая, как ты отбриваешь дубликаты?

Читать полностью…

Scrapy

запросы на 50 обьяв каждые 20-30 сек

Читать полностью…

Scrapy

он постоянно ищет новые обьявы

Читать полностью…

Scrapy

ну вот смотри, у тебя условно 16 лямов или сколько там юзеров, парсер их за сколько пробегает? он в одно рыло это делает, или там какие-то у тебя конты туда-сюда создаются и бороздят просторы космосы?

Читать полностью…

Scrapy

последнее не сильно понял

Читать полностью…

Scrapy

там их апи максимум 50 юзеров отдает вроде

Читать полностью…

Scrapy

откуда в тапле О(1)?

Читать полностью…

Scrapy

крч пока всё сложно, будто пока не затестишь не поймёшь

Читать полностью…

Scrapy

я планировал из оперативы кеш записывать на диск периодически

Читать полностью…

Scrapy

либо их можно сбрасывать на диск при завершении, если всегда штатно завершается

Читать полностью…

Scrapy

не планировал бд подключать вообще, кажется для моего кейса это будет излишним

Читать полностью…

Scrapy

у меня цифры по скормнее будут) трафик на маркетплейсе всего 15 лямов пользователей, и ежедневно активных хз сколько, думаю не больше 1 млн а то и меньше

Читать полностью…

Scrapy

потому-что у тебя сервис задает скорость. или ты ее там по 5 минут обрабатываешь одну объяву?

Читать полностью…

Scrapy

в текущей конфигурации из того что ты описал зная то, что мы знаем, никак не ускорит.

Читать полностью…

Scrapy

я реально до сих пор не понимаю вопроса

Читать полностью…

Scrapy

и тут вопрос ускорит ли процес поиска нужных аккаунтов если я сделаю что-то типо кеширования

Читать полностью…

Scrapy

если юзер подходит по количеству подпищиков, он парсит его обьяву

Читать полностью…

Scrapy

парсер не парсит 16 лямов

Читать полностью…

Scrapy

если решено будет выбрать скрапи, то первым делом читать
https://docs.scrapy.org/en/latest/topics/dynamic-content.html
вторым - если делать реализацию с браузером, то забиваем болт на интеграцию с селениумом-puppeteer (если тока кто-то прям собаку съел на селене, тогда может быть, и то не факт) и берем https://github.com/scrapy-plugins/scrapy-playwright

первым делом надо искать API подобных магазов для мобилок/всяких заказ-систем аля тбанк-город или условного мегамаркета.

если бан - смотрим кто qrator или cloudfare, ищем либы обхода.

1) что такое id? сначала css, потом xpath, тока не в тупую до nth element, а примерно уровня как selectorgadget генерит
2) можно и так, но лучше найти что отличается и скормить нормальные заголовки, UA и прочее чтобы не банился.
3) см. сверху сообщения
4) можно отталкиваться от верхней границы аля гигабайта оперативы на процесс.

Читать полностью…

Scrapy

маркетплейс американский по типу ebay или amazon

Читать полностью…

Scrapy

хотя емнип там и в set в worst case O(n), но все же лучше это чем в листе)

Читать полностью…

Scrapy

100% в запросе нет функции отфильтровать как-то по количеству юзеров? что за сайт, если не секрет? парсер без проблем пробегается за 1 раз? тогда подсчитать память и хранить в условном set (чтобы поиск был за O(1) ), тока не в list

Читать полностью…

Scrapy

и потом при запуске скрапера подтягивать оттуда кеш снова

Читать полностью…

Scrapy

пока чисто по моим вымышленным вычислениям даже если в кеше будет 50 000к + юзеров , если это всё будет в оперативке то скорость реально бустанется

Читать полностью…

Scrapy

без бд данные будут жить только пока живёт процесс, если это нормально то ок

Читать полностью…

Scrapy

ну и? в чем проблема в оперативке хранить?
а как именно в оперативка - дерис или просто список, похрен

а, если что, редис из стока надо настраивать, отключать частые сохранения, а то тормозить будет

Читать полностью…

Scrapy

посмотрите про алгоритмы кеширования, я думаю это поможет в решении вопроса (их там много - LRU, MRU и т.д)
на ютубе есть отличное видео объясняющее что к чему

Читать полностью…
Subscribe to a channel