Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
а это надо тестить) я хз по идеи дубликаты могут быть ну или рано или поздно будут появляться
Читать полностью…потому-что у тебя сервис задает скорость. или ты ее там по 5 минут обрабатываешь одну объяву?
Читать полностью…в текущей конфигурации из того что ты описал зная то, что мы знаем, никак не ускорит.
Читать полностью…и тут вопрос ускорит ли процес поиска нужных аккаунтов если я сделаю что-то типо кеширования
Читать полностью…если юзер подходит по количеству подпищиков, он парсит его обьяву
Читать полностью…если решено будет выбрать скрапи, то первым делом читать
https://docs.scrapy.org/en/latest/topics/dynamic-content.html
вторым - если делать реализацию с браузером, то забиваем болт на интеграцию с селениумом-puppeteer (если тока кто-то прям собаку съел на селене, тогда может быть, и то не факт) и берем https://github.com/scrapy-plugins/scrapy-playwright
первым делом надо искать API подобных магазов для мобилок/всяких заказ-систем аля тбанк-город или условного мегамаркета.
если бан - смотрим кто qrator или cloudfare, ищем либы обхода.
1) что такое id? сначала css, потом xpath, тока не в тупую до nth element, а примерно уровня как selectorgadget генерит
2) можно и так, но лучше найти что отличается и скормить нормальные заголовки, UA и прочее чтобы не банился.
3) см. сверху сообщения
4) можно отталкиваться от верхней границы аля гигабайта оперативы на процесс.
хотя емнип там и в set в worst case O(n), но все же лучше это чем в листе)
Читать полностью…100% в запросе нет функции отфильтровать как-то по количеству юзеров? что за сайт, если не секрет? парсер без проблем пробегается за 1 раз? тогда подсчитать память и хранить в условном set (чтобы поиск был за O(1) ), тока не в list
Читать полностью…и потом при запуске скрапера подтягивать оттуда кеш снова
Читать полностью…пока чисто по моим вымышленным вычислениям даже если в кеше будет 50 000к + юзеров , если это всё будет в оперативке то скорость реально бустанется
Читать полностью…без бд данные будут жить только пока живёт процесс, если это нормально то ок
Читать полностью…смотри, мысленный эксперимент, если бы сервис был ОЧЕНЬ быстрым, и ты бы задал за минуту где-то 100500 запросов - то в ответах по 50 чанков были бы разные данные, или в целом дубликатов бы тебе навалило?
Читать полностью…а "глубина" просмотра примерно какая, как ты отбриваешь дубликаты?
Читать полностью…ну вот смотри, у тебя условно 16 лямов или сколько там юзеров, парсер их за сколько пробегает? он в одно рыло это делает, или там какие-то у тебя конты туда-сюда создаются и бороздят просторы космосы?
Читать полностью…я планировал из оперативы кеш записывать на диск периодически
Читать полностью…либо их можно сбрасывать на диск при завершении, если всегда штатно завершается
Читать полностью…не планировал бд подключать вообще, кажется для моего кейса это будет излишним
Читать полностью…