1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
ну короче общий совет - читайте там линк выше по dynamic content
Читать полностью…
;) мне нужна до 30с на запрос максимум по 4-5 сайтам
Читать полностью…
вово. хотя, если ресурсов дохрена, а сроки горят. и при этом скорость сбора норм типа раз в неделю
Читать полностью…
в условном playwright тоже есть аналоги, даже лучше и чуть более автоматизированно
Читать полностью…
вряд ли, но с другой стороны я и не стал бы это на браузере делать
Читать полностью…
условно дожидаешься, что кнопка стала нажимабельной
Читать полностью…
тыкнуть на поиск, ввести, подождать загрузку страницы, выбрать препарат, открыть карточку, развернуть блоки с описанием
Читать полностью…
надо резать все, картинки, шрифты, 3rd-party, без которых эта хрень все еще пашет
Читать полностью…
если на странице рисовать потртрет монализы то да минута
Читать полностью…
в целом, которые основаны на эмуляции действий юзера с браузера
Читать полностью…
спасибо большое. наверное, остался только вопрос со временем
Читать полностью…
ну какая-нить либа у которой унутре неонка rust/c++/c - правда тут может дольше займет в неё IO сделать...
вот она, самая первая версия, древняя и кое как работающая
Читать полностью…
это немного не то, он там тупой и многое не отслеживает, в частности часто еще 2/3 страницы догружаются пока нужная кнопка уже готова к нажатию, а этот дуремар ждет (и ждет, и ждет)
Читать полностью…
бесило даже не время, а то, что оно было крайне нестабильным и в среднем 2 запуска из 7 сыпались
Читать полностью…
делеи не делают, делают expected conditions в селене или его аналоги в playwright
Читать полностью…
получение нужной информации. допустим, я когда работал с сайтом по поиску лекарств (у него бан на обычных клиентов), приходилось кучу делеев втыкать и прокси наворачивать, потому что детектили один и тот же ип, уходила как раз минута
Читать полностью…
реально ли скрапперы так долго выполняются? (минута+)
Читать полностью…
Ну там вроде особо париться не надо - по 2 листа, по 2 сета (на юзеров/id объяв), раз в 1000 объяв куда-нить печатаешь их и смотришь есть ли в итоге дубликаты и сколько их.
Читать полностью…
та куда быстрее чистого жса, там парсинг этого jsona вообще фигню занимает
Читать полностью…