1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
делеи не делают, делают expected conditions в селене или его аналоги в playwright
Читать полностью…
получение нужной информации. допустим, я когда работал с сайтом по поиску лекарств (у него бан на обычных клиентов), приходилось кучу делеев втыкать и прокси наворачивать, потому что детектили один и тот же ип, уходила как раз минута
Читать полностью…
реально ли скрапперы так долго выполняются? (минута+)
Читать полностью…
Ну там вроде особо париться не надо - по 2 листа, по 2 сета (на юзеров/id объяв), раз в 1000 объяв куда-нить печатаешь их и смотришь есть ли в итоге дубликаты и сколько их.
Читать полностью…
та куда быстрее чистого жса, там парсинг этого jsona вообще фигню занимает
Читать полностью…
ну я к тому что попробуй поискать реализацию какой-нить резкой-дерзкой либы, чтоб она быстро json парсила
Читать полностью…
я посмотрел скорость появления обьв примерно 5-10 в секунду, учитывая что сейчас не прайм тайм для америки, их будет 50-100 в секунду, дубликатов я особо не наблюдаю
Читать полностью…
вдруг их там дохера, тогда тебе имеет смысл перед тем как парсить весь json посылая на парсинг объяву, создать уже ids=set() и отправлять на "расширенный" парсинг только if current_id not in ids
Читать полностью…
вряд ли, но с другой стороны я и не стал бы это на браузере делать
Читать полностью…
условно дожидаешься, что кнопка стала нажимабельной
Читать полностью…
тыкнуть на поиск, ввести, подождать загрузку страницы, выбрать препарат, открыть карточку, развернуть блоки с описанием
Читать полностью…
надо резать все, картинки, шрифты, 3rd-party, без которых эта хрень все еще пашет
Читать полностью…
если на странице рисовать потртрет монализы то да минута
Читать полностью…
в целом, которые основаны на эмуляции действий юзера с браузера
Читать полностью…
спасибо большое. наверное, остался только вопрос со временем
Читать полностью…
ну какая-нить либа у которой унутре неонка rust/c++/c - правда тут может дольше займет в неё IO сделать...
если это не имеет смысла то мне надо доказать заказчикам что это бесполезная хуйня и я не буду это делать
а если имеет то сказать что это поднимент ефективность но очень дорого
кароч надо просто запариться, замерить все показатели и подбить математику
Читать полностью…
PS в твоем случае вероятнее это надо делать не с id объяв, а именно с creator id. лично я бы посмотрел обе хрени чтоб поприкидывать
ЗЗЫ что ты используешь для парсинга json?
ну вот смотри - сделай там себе для примера ids=[], и добавляй пока парсишь в него все id'шники. как соберешь тыщ 10 запросов, сделай len(set(ids)) - таким макаром ты сможешь хотя б примерно оценить встречаются ли у тебя дубликаты.
Читать полностью…
не зависит там странно от даты (а то бывают акселераты и такие...)
Читать полностью…