scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

придется или порт искать или на пайтоне писать...

Читать полностью…

Scrapy

ну короче общий совет - читайте там линк выше по dynamic content

Читать полностью…

Scrapy

щас скажу точно с чем работал

Читать полностью…

Scrapy

;) мне нужна до 30с на запрос максимум по 4-5 сайтам

Читать полностью…

Scrapy

вово. хотя, если ресурсов дохрена, а сроки горят. и при этом скорость сбора норм типа раз в неделю

Читать полностью…

Scrapy

в условном playwright тоже есть аналоги, даже лучше и чуть более автоматизированно

Читать полностью…

Scrapy

вряд ли, но с другой стороны я и не стал бы это на браузере делать

Читать полностью…

Scrapy

условно дожидаешься, что кнопка стала нажимабельной

Читать полностью…

Scrapy

тыкнуть на поиск, ввести, подождать загрузку страницы, выбрать препарат, открыть карточку, развернуть блоки с описанием

Читать полностью…

Scrapy

зависит всё от антифрода сайта

Читать полностью…

Scrapy

надо резать все, картинки, шрифты, 3rd-party, без которых эта хрень все еще пашет

Читать полностью…

Scrapy

если на странице рисовать потртрет монализы то да минута

Читать полностью…

Scrapy

в целом, которые основаны на эмуляции действий юзера с браузера

Читать полностью…

Scrapy

спасибо большое. наверное, остался только вопрос со временем

Читать полностью…

Scrapy

ну какая-нить либа у которой унутре неонка rust/c++/c - правда тут может дольше займет в неё IO сделать...

Читать полностью…

Scrapy

вот она, самая первая версия, древняя и кое как работающая

Читать полностью…

Scrapy

это немного не то, он там тупой и многое не отслеживает, в частности часто еще 2/3 страницы догружаются пока нужная кнопка уже готова к нажатию, а этот дуремар ждет (и ждет, и ждет)

Читать полностью…

Scrapy

и в параллель с несколькими юзерами...

Читать полностью…

Scrapy

бесило даже не время, а то, что оно было крайне нестабильным и в среднем 2 запуска из 7 сыпались

Читать полностью…

Scrapy

не, я знаю, у меня WebDriverWait был на эти вещи

Читать полностью…

Scrapy

https://www.selenium.dev/selenium/docs/api/java/org/openqa/selenium/support/ui/ExpectedConditions.html

Читать полностью…

Scrapy

вы неправильно готовили селен значит))

Читать полностью…

Scrapy

я образно. на селене так и было

Читать полностью…

Scrapy

делеи не делают, делают expected conditions в селене или его аналоги в playwright

Читать полностью…

Scrapy

всё равно непонятно, какой именно информации

Читать полностью…

Scrapy

получение нужной информации. допустим, я когда работал с сайтом по поиску лекарств (у него бан на обычных клиентов), приходилось кучу делеев втыкать и прокси наворачивать, потому что детектили один и тот же ип, уходила как раз минута

Читать полностью…

Scrapy

на одну страницу? вряд ли

Читать полностью…

Scrapy

реально ли скрапперы так долго выполняются? (минута+)

Читать полностью…

Scrapy

Ну там вроде особо париться не надо - по 2 листа, по 2 сета (на юзеров/id объяв), раз в 1000 объяв куда-нить печатаешь их и смотришь есть ли в итоге дубликаты и сколько их.

Читать полностью…

Scrapy

та куда быстрее чистого жса, там парсинг этого jsona вообще фигню занимает

Читать полностью…
Subscribe to a channel