1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
ок, прокся спасет, скорее всего.
Если вопрос был именно в этом
можешь попробовать puppeteer, там вроде есть возможность обходить клаудфлер
Читать полностью…
Всем привет!
Как вы архитектурно видите парсинг 15 к сайтов, у которых как минимум 1 страница, а как максимум 1000?
Думаю использовать скрапи с ротацией прокси, но мне нужно проверить это все за 4 часа, на каждой странице мне нужен весь текст, никогда не работал с скрапи, насколько это будет эффективно?
доброго утра, подскажите пожалуйста в чем может быть проблема с Playwright? Все работало, а тут резко бац и перестало - браузеры обновил, библиотеку тоже
Запускается только с headless=false аргументом, впн отключен
Не уверен 100%, но в доке они пишут channel chromium, а вы chrome используете:
https://playwright.dev/python/docs/chrome-extensions#headless-mode
Всем привет
Кому-то доводилось поднимать в docker + playwright с использованием расширения для браузера chrome ?
У меня такой простой код для теста.
Id Extensions находит успешно, но при открытие chrome-extension:// ошибка тайм-аута (проблема явно не во времени)
Буду благодарен за любую помощь.
export DISPLAY=:0
Xvfb :0 -screen 0 1024x768x24 & poetry run python check.py
возможно, эвристически вычислить промежутки пауз, если время не критично
но я бы возможно попробовал завести кучу аккаунтов и под разными инстансами просто проглядывать с них, возможно и без прокси получится
и тут, извините, не чат для рассказывания что в питоне импорт делает
Читать полностью…
Имею ввиду, что у меня есть написанный парсер, он в глубину парсит 20 страниц, за 4 часа справляется с 15 к сайтами, но есть как бы минусы иногда улетаю в бан, без прокси
80 процентов сайтов парсятся норм
"никогда не работал с скрапи" - совсем не эффективно.... Зачем браться за то, что в принципе не умеешь.
и, да, половина сайта отвалится по колудфдаре, скорее всего, либо еще по какой хне
Hello everyone
I have code to signup at https://www.irctc.co.in/ automatically.
Of course, can pass the captcha.
Who interested?
Only DM
Ребят, всем привет.
Кто-нибудь парсит Леруа через мобильное API после обновления?
Тоже самое, через докер не захотел запуститься, просто перешел на selenium
Читать полностью…
Hey guys please dm me if you have issues with cloudflare
Читать полностью…
Найдите какой нибудь ролик основы python или python за x часов или книгу, их очень много. Опыт с программированием у всех очень разный, кому то достаточно совсем база языка и потом уже будет способность задавать гуглу или gpt разумные вопросы как сделать это, как сделать то, что непонятно. Кому то для старта надо будет несколько месячный курс пройти с выполнением заданий и только тогда уже приступить к парсингу браузером. Кроме того браузером это не такой уж и простой путь, там много неочевидных нюансов...
Ну и да, этот чат про конкретную библиотеку scrapy, а не про python или про парсинг браузером.
если вы хотите писать что-то на питоне, вам нужно изучить питон
Читать полностью…