scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

я посмотрел скорость появления обьв примерно 5-10 в секунду, учитывая что сейчас не прайм тайм для америки, их будет 50-100 в секунду, дубликатов я особо не наблюдаю

Читать полностью…

Scrapy

вдруг их там дохера, тогда тебе имеет смысл перед тем как парсить весь json посылая на парсинг объяву, создать уже ids=set() и отправлять на "расширенный" парсинг только if current_id not in ids

Читать полностью…

Scrapy

ну каждая обьява - отдельный айди

Читать полностью…

Scrapy

у конкретной объявы имеется в виду

Читать полностью…

Scrapy

id обьявы, id криейтора

Читать полностью…

Scrapy

там же есть какое-то id объявы?

Читать полностью…

Scrapy

в jsone точно нет их

Читать полностью…

Scrapy

возможно) я хз если честно, надо проверять всё

Читать полностью…

Scrapy

как я понял площадка сама их откидывает

Читать полностью…

Scrapy

они не попадаются практически

Читать полностью…

Scrapy

ну если обновить страницу то уже будут новые обьявления)

Читать полностью…

Scrapy

ну там трафик большой, каждую секунду +- в одной и той же категории уже новых 50 обьяв

Читать полностью…

Scrapy

ну ты же смотришь НОВЫЕ объявы только из того что я понял выше. С какой скоростью на сервисе генерятся новые объявы?

Читать полностью…

Scrapy

тут надо понимать специфику работы площадки и как она продвигает обьявления

Читать полностью…

Scrapy

смотри, мысленный эксперимент, если бы сервис был ОЧЕНЬ быстрым, и ты бы задал за минуту где-то 100500 запросов - то в ответах по 50 чанков были бы разные данные, или в целом дубликатов бы тебе навалило?

Читать полностью…

Scrapy

PS в твоем случае вероятнее это надо делать не с id объяв, а именно с creator id. лично я бы посмотрел обе хрени чтоб поприкидывать
ЗЗЫ что ты используешь для парсинга json?

Читать полностью…

Scrapy

ну вот смотри - сделай там себе для примера ids=[], и добавляй пока парсишь в него все id'шники. как соберешь тыщ 10 запросов, сделай len(set(ids)) - таким макаром ты сможешь хотя б примерно оценить встречаются ли у тебя дубликаты.

Читать полностью…

Scrapy

не зависит там странно от даты (а то бывают акселераты и такие...)

Читать полностью…

Scrapy

не, оно вроде меняется с каждым обьявлением

Читать полностью…

Scrapy

оно всегда одинаковое?

Читать полностью…

Scrapy

могу демку показать как оно работает

Читать полностью…

Scrapy

дубликаты не то, что юзеры дубликатом подают, а то что в json'e отдается

Читать полностью…

Scrapy

а твоя шарманка молотит

Читать полностью…

Scrapy

я не удивлюсь, если там условный пул из 5000 объяв и оно его крутит отдавая по 50 пока новые поступают

Читать полностью…

Scrapy

а дубликаты ты никак не проверяешь?

Читать полностью…

Scrapy

и тогда ты хошь расшибешься выше RPS сервиса не прыгнешь.

Читать полностью…

Scrapy

ну, так проверь это. может там в пределе допустим 500 объяв в минуту в среднем у сервиса.

Читать полностью…

Scrapy

у меня фильтр стоит just in (только поступившие)

Читать полностью…

Scrapy

а это надо тестить) я хз по идеи дубликаты могут быть ну или рано или поздно будут появляться

Читать полностью…

Scrapy

проверка 1 ака где то 3-6 сек

Читать полностью…
Subscribe to a channel