1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
PS в твоем случае вероятнее это надо делать не с id объяв, а именно с creator id. лично я бы посмотрел обе хрени чтоб поприкидывать
ЗЗЫ что ты используешь для парсинга json?
ну вот смотри - сделай там себе для примера ids=[], и добавляй пока парсишь в него все id'шники. как соберешь тыщ 10 запросов, сделай len(set(ids)) - таким макаром ты сможешь хотя б примерно оценить встречаются ли у тебя дубликаты.
Читать полностью…
не зависит там странно от даты (а то бывают акселераты и такие...)
Читать полностью…
дубликаты не то, что юзеры дубликатом подают, а то что в json'e отдается
Читать полностью…
я не удивлюсь, если там условный пул из 5000 объяв и оно его крутит отдавая по 50 пока новые поступают
Читать полностью…
и тогда ты хошь расшибешься выше RPS сервиса не прыгнешь.
Читать полностью…
ну, так проверь это. может там в пределе допустим 500 объяв в минуту в среднем у сервиса.
Читать полностью…
а это надо тестить) я хз по идеи дубликаты могут быть ну или рано или поздно будут появляться
Читать полностью…
вдруг их там дохера, тогда тебе имеет смысл перед тем как парсить весь json посылая на парсинг объяву, создать уже ids=set() и отправлять на "расширенный" парсинг только if current_id not in ids
Читать полностью…
ну если обновить страницу то уже будут новые обьявления)
Читать полностью…
ну там трафик большой, каждую секунду +- в одной и той же категории уже новых 50 обьяв
Читать полностью…
ну ты же смотришь НОВЫЕ объявы только из того что я понял выше. С какой скоростью на сервисе генерятся новые объявы?
Читать полностью…
тут надо понимать специфику работы площадки и как она продвигает обьявления
Читать полностью…
смотри, мысленный эксперимент, если бы сервис был ОЧЕНЬ быстрым, и ты бы задал за минуту где-то 100500 запросов - то в ответах по 50 чанков были бы разные данные, или в целом дубликатов бы тебе навалило?
Читать полностью…