Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

scrapy_python | Unsorted

Subscribe to a channel

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

02 Jun 2025 03:46

Поменять бы код в доках https://doc.scrapy.org/en/latest/topics/practices.html для Same example but running the spiders sequentially by chaining the deferreds на более правильный, или заметку какую приписать, а то если начиная со scrapy 2.13.0 не выставить в TWISTED_REACTOR=None (из-за теперешнего The asyncio reactor is now enabled by default), все ломается с этими @defer.inlineCallbacks и reactor.run(), reactor.stop() (как минимум под win10, но думаю os тут не особо влияет).

Читать полностью…

Scrapy

19 May 2025 19:32

А на каком сервсисе ты прокси покупал?

Читать полностью…

Scrapy

19 May 2025 19:32

я у себя просто релоадил страницу под другим прокси

Читать полностью…

Scrapy

19 May 2025 00:49

Яндух кроме всего прочего генерацию canvas проверят. У серверов, обычно, нет видюх, значит canvas CPUшный. Соответственно, он легко отличимый от среднестатистического компа пользователя. Рашать капчу - нет никаких проблем.

Читать полностью…

Scrapy

18 May 2025 23:28

Спасибо, но вопрос скорее про то, как модифицировать селениум скрипт/какое прокси купить, чтобы такая капча не выскакивала (или выскакивала редко)
на моем компе ее нет (тестировал скрипт больше часа)

Читать полностью…

Scrapy

18 May 2025 23:25

Да, возможно
Уже покупал прокси на сайте proxy-seller.io
но сатло еще хуже - даже на моем компе сразу вылезает сложная капча

Читать полностью…

Scrapy

18 May 2025 23:21

Привет посоветуйте, пожалуйста, настройки селениума / сервсис прокси, чтобы парсить яндекс
https://stackoverflow.com/questions/79626509/how-to-improve-selenium-script-so-that-the-captcha-does-not-appear

На моей ноутбуке скрипт работает прекрасно (в headless режиме) - выскакивает только чекбокс "Я не робот", успешно его решаю

Но на сервере скрипт получает вот такую капчу (приложил фото)

Читать полностью…

Scrapy

11 May 2025 19:00

Все привет
Делаю небольшую автоматизацию scrapy и playwright.
Мне нужно открыть страницу с капчей DadaDome я использую сервис 2captcha для её решения. Результат куков я вставляю таким образом.


async def _apply_solution(self, data: dict, captcha_url: str) -> None:
    cookie_str = data['code']
    name, rest = cookie_str.split("=", 1)
    value = rest.split(";", 1)[0]
    print(cookie_str)
    # парсим Max-Age
    m = re.search(r"Max-Age=(\d+)", cookie_str, re.IGNORECASE)
    max_age = int(m.group(1)) if m else None
    # вычисляем UNIX-время истечения
    expires = int(time.time()) + max_age if max_age is not None else None

    host = urlparse(self._page.url).hostname
    domain = "." + ".".join(host.split(".")[-2:])

    cookie = {
        "name": name.strip(),
        "value": value.strip(),
        "domain": domain,
        "path": "/",
        "httpOnly": False,
        "secure": True,
        "sameSite": "Lax",
    }
    # только если парсинг Max-Age удался — добавляем expires
    if expires is not None:
        cookie["expires"] = expires
    geo_cookie = cookie.copy()
    geo_cookie["domain"] = "geo.captcha-delivery.com"
    # await asyncio.sleep(1000)
    await self._page.context.add_cookies([cookie, geo_cookie])
    # 3) теперь вернуться/перезагрузить исходную страницу — DataDome пропустит вас
    await self._page.goto(self._page.url, wait_until="networkidle")

Но проблема в том что
Я постоянно получаю такое сообщение и не могу понять что не так.
Проверяю куки в хромиум и те что получил от 2captcha те и вставил, но после

их сбрасывает и получаю «скрин».
Буду благодарен за любую помощь.

Читать полностью…

Scrapy

11 May 2025 17:53

Хотя сейчас может и всегда, я не уверен в этом

Читать полностью…

Scrapy

11 May 2025 16:10

Кажется нету, как я понял клаудфаер требует js скрипт чтобы выполнялся. А без вебдвижка не получится это сделать.

Читать полностью…

Scrapy

11 May 2025 15:37

Всем привет. Не существует способов обойти клаудфлеер в формате http запросов?
Не интересует обход с помощью обнаружения айпи сервера, веб движков(селениум и прочее)

Читать полностью…

Scrapy

10 May 2025 12:51

если задача реальная, пиши в личку

Читать полностью…

Scrapy

10 May 2025 12:46

видел в доке что никак нельзя, но может есть какой то способ

Читать полностью…

Scrapy

08 May 2025 14:47

потому что он скоро умрёт
https://github.com/scrapy/scrapy/pull/6729#discussion_r2012115159

Читать полностью…

Scrapy

08 May 2025 14:08

Выпустили 2.13.0: https://docs.scrapy.org/en/latest/news.html#scrapy-2-13-0-2025-05-08

Читать полностью…

Scrapy

19 May 2025 19:33

да ни в каком, это прототип, один под своим ип второй через впн

Читать полностью…

Scrapy

19 May 2025 19:32

а так чисто технически в апи отдавать код(?)

Читать полностью…

Scrapy

19 May 2025 19:30

А как ее решать селениумом?
Вот вижу капчу, могу сохранить скриншот, как правильно прокрутить ее)

Читать полностью…

Scrapy

18 May 2025 23:29

Судя по всему это играет не маловажную роль. Избавится навряд ли получится потому что засрать можно любую белую прокси

Читать полностью…

Scrapy

18 May 2025 23:26

cap.guru решает. А дальше смотрите частоту выскакивания / профит от парсинга

Читать полностью…

Scrapy

18 May 2025 23:23

Так может дело в IP-адресе сервера?

Читать полностью…

Scrapy

13 May 2025 14:27

попробовал ради прикола прогнать w3lib через mypyc, всё с первого раза скомпилилось, но прироста в скорости, по крайней мере в тестах, никакого)

Читать полностью…

Scrapy

11 May 2025 17:59

Я новости парсю, покрайне мере требует в моих сайтах.

Читать полностью…

Scrapy

11 May 2025 17:53

js он не всегда требует. Только если определенные условия не соблюдены

Читать полностью…

Scrapy

11 May 2025 15:42

да же если и есть, их в паблике не раскроют

Читать полностью…

Scrapy

10 May 2025 14:43

Через JS можно, если iframe с одного домена или есть разрешение CORS. Иначе только через снимок, но без взаимодействия.
Для взаимодействия при запрете CORS только эмуляция или копирование NODE с iframe + убивание оригинала.
Т.е. ответ - Да, можно ВСЁ.

Читать полностью…

Scrapy

10 May 2025 12:50

ну через интерфейс, да можно, если это технически возможно

т.е. нажимаем на кнопку по координатам
эмулируем перемещение мышки и реальный клик

Читать полностью…

Scrapy

10 May 2025 12:46

привет, возможно ли на playwright либо селениуме добраться к элементам в shadow root closed?

Читать полностью…

Scrapy

08 May 2025 14:44

а почему slot теперь protected?

Читать полностью…

Scrapy

07 May 2025 10:33

Здравствуйте, нужен парсер срочно, работа на долгосрочное сотрудничество пишите в лс

Читать полностью…

Subscribe to a channel