Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

17 Sep 2024 11:35

https://www.selenium.dev/selenium/docs/api/java/org/openqa/selenium/support/ui/ExpectedConditions.html

Читать полностью…

Scrapy

17 Sep 2024 11:34

вы неправильно готовили селен значит))

Читать полностью…

Scrapy

17 Sep 2024 11:34

я образно. на селене так и было

Читать полностью…

Scrapy

17 Sep 2024 11:34

делеи не делают, делают expected conditions в селене или его аналоги в playwright

Читать полностью…

Scrapy

17 Sep 2024 11:33

всё равно непонятно, какой именно информации

Читать полностью…

Scrapy

17 Sep 2024 11:33

получение нужной информации. допустим, я когда работал с сайтом по поиску лекарств (у него бан на обычных клиентов), приходилось кучу делеев втыкать и прокси наворачивать, потому что детектили один и тот же ип, уходила как раз минута

Читать полностью…

Scrapy

17 Sep 2024 11:33

на одну страницу? вряд ли

Читать полностью…

Scrapy

17 Sep 2024 11:31

реально ли скрапперы так долго выполняются? (минута+)

Читать полностью…

Scrapy

17 Sep 2024 10:30

Ну там вроде особо париться не надо - по 2 листа, по 2 сета (на юзеров/id объяв), раз в 1000 объяв куда-нить печатаешь их и смотришь есть ли в итоге дубликаты и сколько их.

Читать полностью…

Scrapy

17 Sep 2024 10:26

та куда быстрее чистого жса, там парсинг этого jsona вообще фигню занимает

Читать полностью…

Scrapy

17 Sep 2024 10:26

ну я к тому что попробуй поискать реализацию какой-нить резкой-дерзкой либы, чтоб она быстро json парсила

Читать полностью…

Scrapy

17 Sep 2024 10:24

я посмотрел скорость появления обьв примерно 5-10 в секунду, учитывая что сейчас не прайм тайм для америки, их будет 50-100 в секунду, дубликатов я особо не наблюдаю

Читать полностью…

Scrapy

17 Sep 2024 10:16

вдруг их там дохера, тогда тебе имеет смысл перед тем как парсить весь json посылая на парсинг объяву, создать уже ids=set() и отправлять на "расширенный" парсинг только if current_id not in ids

Читать полностью…

Scrapy

17 Sep 2024 10:11

ну каждая обьява - отдельный айди

Читать полностью…

Scrapy

17 Sep 2024 10:11

у конкретной объявы имеется в виду

Читать полностью…

Scrapy

17 Sep 2024 11:35

вряд ли, но с другой стороны я и не стал бы это на браузере делать

Читать полностью…

Scrapy

17 Sep 2024 11:34

условно дожидаешься, что кнопка стала нажимабельной

Читать полностью…

Scrapy

17 Sep 2024 11:34

тыкнуть на поиск, ввести, подождать загрузку страницы, выбрать препарат, открыть карточку, развернуть блоки с описанием

Читать полностью…

Scrapy

17 Sep 2024 11:33

зависит всё от антифрода сайта

Читать полностью…

Scrapy

17 Sep 2024 11:33

надо резать все, картинки, шрифты, 3rd-party, без которых эта хрень все еще пашет

Читать полностью…

Scrapy

17 Sep 2024 11:33

если на странице рисовать потртрет монализы то да минута

Читать полностью…

Scrapy

17 Sep 2024 11:32

в целом, которые основаны на эмуляции действий юзера с браузера

Читать полностью…

Scrapy

17 Sep 2024 11:31

спасибо большое. наверное, остался только вопрос со временем

Читать полностью…

Scrapy

17 Sep 2024 10:28

ну какая-нить либа у которой унутре ~~неонка~~ rust/c++/c - правда тут может дольше займет в неё IO сделать...

Читать полностью…

Scrapy

17 Sep 2024 10:26

если это не имеет смысла то мне надо доказать заказчикам что это бесполезная хуйня и я не буду это делать
а если имеет то сказать что это поднимент ефективность но очень дорого

Читать полностью…

Scrapy

17 Sep 2024 10:25

кароч надо просто запариться, замерить все показатели и подбить математику

Читать полностью…

Scrapy

17 Sep 2024 10:24

PS в твоем случае вероятнее это надо делать не с id объяв, а именно с creator id. лично я бы посмотрел обе хрени чтоб поприкидывать
ЗЗЫ что ты используешь для парсинга json?

Читать полностью…

Scrapy

17 Sep 2024 10:14

ну вот смотри - сделай там себе для примера ids=[], и добавляй пока парсишь в него все id'шники. как соберешь тыщ 10 запросов, сделай len(set(ids)) - таким макаром ты сможешь хотя б примерно оценить встречаются ли у тебя дубликаты.

Читать полностью…

Scrapy

17 Sep 2024 10:11

не зависит там странно от даты (а то бывают акселераты и такие...)

Читать полностью…

Scrapy

17 Sep 2024 10:11

не, оно вроде меняется с каждым обьявлением

Читать полностью…