Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
я посмотрел скорость появления обьв примерно 5-10 в секунду, учитывая что сейчас не прайм тайм для америки, их будет 50-100 в секунду, дубликатов я особо не наблюдаю
Читать полностью…вдруг их там дохера, тогда тебе имеет смысл перед тем как парсить весь json посылая на парсинг объяву, создать уже ids=set() и отправлять на "расширенный" парсинг только if current_id not in ids
Читать полностью…ну там трафик большой, каждую секунду +- в одной и той же категории уже новых 50 обьяв
Читать полностью…ну ты же смотришь НОВЫЕ объявы только из того что я понял выше. С какой скоростью на сервисе генерятся новые объявы?
Читать полностью…тут надо понимать специфику работы площадки и как она продвигает обьявления
Читать полностью…смотри, мысленный эксперимент, если бы сервис был ОЧЕНЬ быстрым, и ты бы задал за минуту где-то 100500 запросов - то в ответах по 50 чанков были бы разные данные, или в целом дубликатов бы тебе навалило?
Читать полностью…PS в твоем случае вероятнее это надо делать не с id объяв, а именно с creator id. лично я бы посмотрел обе хрени чтоб поприкидывать
ЗЗЫ что ты используешь для парсинга json?
ну вот смотри - сделай там себе для примера ids=[], и добавляй пока парсишь в него все id'шники. как соберешь тыщ 10 запросов, сделай len(set(ids)) - таким макаром ты сможешь хотя б примерно оценить встречаются ли у тебя дубликаты.
Читать полностью…не зависит там странно от даты (а то бывают акселераты и такие...)
Читать полностью…дубликаты не то, что юзеры дубликатом подают, а то что в json'e отдается
Читать полностью…я не удивлюсь, если там условный пул из 5000 объяв и оно его крутит отдавая по 50 пока новые поступают
Читать полностью…и тогда ты хошь расшибешься выше RPS сервиса не прыгнешь.
Читать полностью…ну, так проверь это. может там в пределе допустим 500 объяв в минуту в среднем у сервиса.
Читать полностью…а это надо тестить) я хз по идеи дубликаты могут быть ну или рано или поздно будут появляться
Читать полностью…