scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

https://www.selenium.dev/selenium/docs/api/java/org/openqa/selenium/support/ui/ExpectedConditions.html

Читать полностью…

Scrapy

вы неправильно готовили селен значит))

Читать полностью…

Scrapy

я образно. на селене так и было

Читать полностью…

Scrapy

делеи не делают, делают expected conditions в селене или его аналоги в playwright

Читать полностью…

Scrapy

всё равно непонятно, какой именно информации

Читать полностью…

Scrapy

получение нужной информации. допустим, я когда работал с сайтом по поиску лекарств (у него бан на обычных клиентов), приходилось кучу делеев втыкать и прокси наворачивать, потому что детектили один и тот же ип, уходила как раз минута

Читать полностью…

Scrapy

на одну страницу? вряд ли

Читать полностью…

Scrapy

реально ли скрапперы так долго выполняются? (минута+)

Читать полностью…

Scrapy

Ну там вроде особо париться не надо - по 2 листа, по 2 сета (на юзеров/id объяв), раз в 1000 объяв куда-нить печатаешь их и смотришь есть ли в итоге дубликаты и сколько их.

Читать полностью…

Scrapy

та куда быстрее чистого жса, там парсинг этого jsona вообще фигню занимает

Читать полностью…

Scrapy

ну я к тому что попробуй поискать реализацию какой-нить резкой-дерзкой либы, чтоб она быстро json парсила

Читать полностью…

Scrapy

я посмотрел скорость появления обьв примерно 5-10 в секунду, учитывая что сейчас не прайм тайм для америки, их будет 50-100 в секунду, дубликатов я особо не наблюдаю

Читать полностью…

Scrapy

вдруг их там дохера, тогда тебе имеет смысл перед тем как парсить весь json посылая на парсинг объяву, создать уже ids=set() и отправлять на "расширенный" парсинг только if current_id not in ids

Читать полностью…

Scrapy

ну каждая обьява - отдельный айди

Читать полностью…

Scrapy

у конкретной объявы имеется в виду

Читать полностью…

Scrapy

вряд ли, но с другой стороны я и не стал бы это на браузере делать

Читать полностью…

Scrapy

условно дожидаешься, что кнопка стала нажимабельной

Читать полностью…

Scrapy

тыкнуть на поиск, ввести, подождать загрузку страницы, выбрать препарат, открыть карточку, развернуть блоки с описанием

Читать полностью…

Scrapy

зависит всё от антифрода сайта

Читать полностью…

Scrapy

надо резать все, картинки, шрифты, 3rd-party, без которых эта хрень все еще пашет

Читать полностью…

Scrapy

если на странице рисовать потртрет монализы то да минута

Читать полностью…

Scrapy

в целом, которые основаны на эмуляции действий юзера с браузера

Читать полностью…

Scrapy

спасибо большое. наверное, остался только вопрос со временем

Читать полностью…

Scrapy

ну какая-нить либа у которой унутре неонка rust/c++/c - правда тут может дольше займет в неё IO сделать...

Читать полностью…

Scrapy

если это не имеет смысла то мне надо доказать заказчикам что это бесполезная хуйня и я не буду это делать
а если имеет то сказать что это поднимент ефективность но очень дорого

Читать полностью…

Scrapy

кароч надо просто запариться, замерить все показатели и подбить математику

Читать полностью…

Scrapy

PS в твоем случае вероятнее это надо делать не с id объяв, а именно с creator id. лично я бы посмотрел обе хрени чтоб поприкидывать
ЗЗЫ что ты используешь для парсинга json?

Читать полностью…

Scrapy

ну вот смотри - сделай там себе для примера ids=[], и добавляй пока парсишь в него все id'шники. как соберешь тыщ 10 запросов, сделай len(set(ids)) - таким макаром ты сможешь хотя б примерно оценить встречаются ли у тебя дубликаты.

Читать полностью…

Scrapy

не зависит там странно от даты (а то бывают акселераты и такие...)

Читать полностью…

Scrapy

не, оно вроде меняется с каждым обьявлением

Читать полностью…
Subscribe to a channel