Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Пацыки, как считаете, платить 21$ в месяц за прокси это норм? (5 айпишек это)
Читать полностью…если вы хотите драйвить инстанс браузера руками в синхронном режиме то скрапи может даже мешать
Читать полностью…ну тут два варианта, либо достаточно селекторов, либо надо что-то ещё
Читать полностью…https://docs.scrapy.org/en/latest/intro/overview.html#what-s-next
Читать полностью…ну как бест практика что ль..
не знаю как по-другому вопрос поставить. вдруг скрапи дает некие абстракции универсальные в принципе даже для множества простых задач
я так постоянно делаю в оффе, озвучиваю то, что другие стесняются сказать 😆
Читать полностью…а вот стоковый crawlee - нет. сделал все то же самое
видимо, он ему свой конфиг проставляет при запуске
или что скорее всего он на любой чих (403) просто дропает страницу так и не дождавшись проверки
спасибо, резонно
но попробую все таки поднять сначала... питоновский вариант
как накопаю в чем дело было - напишу сюда, что б другие не мучались (если найду конечно))
так флаг-то относится к браузеру, как я понимаю, вот например
Читать полностью…о как получается. а так скрапи больше про некие автономные "юниты" для сервисов по типу apify получается?
Читать полностью…селекторов достаточно, а вот самих запросов может быть много (в пределах одной сессии с браузером) - второе про ситуацию с поиском по тексту
Читать полностью…ммм... у меня это будет интероп с шарповским бекендом
т.е из кода на беке, вызывается пайтонскрипт и дальше по ipc дергаю результаты
почему сразу не на шарпе - на нем многословно писать локаторы/квери к DOMу
а так задач несколько: информация с разных маркетплейсов по одному и тому же лоту
поиск по маркетплейсу с применением фильтров
в обоих случаях нужно менять геолокацию
т.е мне тут не просто страничку скачать
если всё что надо это страницу скачать то селениума хватит
Читать полностью…а могу уточнить: обязательно ли скрапи подтягивать? или бывает резонно на чистом селене все реализовать?
Читать полностью…Надеюсь это рофл. Я сюда зашел чтобы решить проблемы так то 😁
Читать полностью…А мне плейрайт не понравился. Я скрапи юзаю и кастомный мидлвар поставил на селениуме, пока еще не попадался сайты которые не пропускали бы. Парсю только новости.
Читать полностью…так что ну его нахрен, возьму стоковый playwright, а надо будет докручу proxy rotation или что там еще нужно
Читать полностью…хм, забавно получается
дефолтный (!!!) селениум проходит антибот проверку
ну условно, я все хедеры с клиентского браузера передал
а вот если смотреть на код выше, то не хватает только —no-sandbox и —disable-gpu