Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

scrapy_python | Unsorted

Subscribe to a channel

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

18 May 2025 23:23

Так может дело в IP-адресе сервера?

Читать полностью…

Scrapy

13 May 2025 14:27

попробовал ради прикола прогнать w3lib через mypyc, всё с первого раза скомпилилось, но прироста в скорости, по крайней мере в тестах, никакого)

Читать полностью…

Scrapy

11 May 2025 17:59

Я новости парсю, покрайне мере требует в моих сайтах.

Читать полностью…

Scrapy

11 May 2025 17:53

js он не всегда требует. Только если определенные условия не соблюдены

Читать полностью…

Scrapy

11 May 2025 15:42

да же если и есть, их в паблике не раскроют

Читать полностью…

Scrapy

10 May 2025 14:43

Через JS можно, если iframe с одного домена или есть разрешение CORS. Иначе только через снимок, но без взаимодействия.
Для взаимодействия при запрете CORS только эмуляция или копирование NODE с iframe + убивание оригинала.
Т.е. ответ - Да, можно ВСЁ.

Читать полностью…

Scrapy

10 May 2025 12:50

ну через интерфейс, да можно, если это технически возможно

т.е. нажимаем на кнопку по координатам
эмулируем перемещение мышки и реальный клик

Читать полностью…

Scrapy

10 May 2025 12:46

привет, возможно ли на playwright либо селениуме добраться к элементам в shadow root closed?

Читать полностью…

Scrapy

08 May 2025 14:44

а почему slot теперь protected?

Читать полностью…

Scrapy

07 May 2025 10:33

Здравствуйте, нужен парсер срочно, работа на долгосрочное сотрудничество пишите в лс

Читать полностью…

Scrapy

04 May 2025 20:49

Я пытался это внедрить. Просто все ноды в курбере падают. Кажется чет не то делаю. Думаю сервис с браузером отдельно вытащить. Но спасибо еще раз посмотрю

Читать полностью…

Scrapy

04 May 2025 19:48

если "просто требуют браузер" то конечно надо запускать браузер, и конечно он тяжёлый

Читать полностью…

Scrapy

04 May 2025 19:47

Все работает на селениуме или плейрате. Они тяжёлые. Постоянно падают. Либо не хватает цп либо рам либо не понятно что

Читать полностью…

Scrapy

04 May 2025 19:45

Большинство сайтов нормально. Но маленький процент который нозят и бесят

Читать полностью…

Scrapy

04 May 2025 19:43

Смотрел откуда данные приходят? Обычно можно найти открытую апишку.

Читать полностью…

Scrapy

18 May 2025 23:21

Привет посоветуйте, пожалуйста, настройки селениума / сервсис прокси, чтобы парсить яндекс
https://stackoverflow.com/questions/79626509/how-to-improve-selenium-script-so-that-the-captcha-does-not-appear

На моей ноутбуке скрипт работает прекрасно (в headless режиме) - выскакивает только чекбокс "Я не робот", успешно его решаю

Но на сервере скрипт получает вот такую капчу (приложил фото)

Читать полностью…

Scrapy

11 May 2025 19:00

Все привет
Делаю небольшую автоматизацию scrapy и playwright.
Мне нужно открыть страницу с капчей DadaDome я использую сервис 2captcha для её решения. Результат куков я вставляю таким образом.


async def _apply_solution(self, data: dict, captcha_url: str) -> None:
    cookie_str = data['code']
    name, rest = cookie_str.split("=", 1)
    value = rest.split(";", 1)[0]
    print(cookie_str)
    # парсим Max-Age
    m = re.search(r"Max-Age=(\d+)", cookie_str, re.IGNORECASE)
    max_age = int(m.group(1)) if m else None
    # вычисляем UNIX-время истечения
    expires = int(time.time()) + max_age if max_age is not None else None

    host = urlparse(self._page.url).hostname
    domain = "." + ".".join(host.split(".")[-2:])

    cookie = {
        "name": name.strip(),
        "value": value.strip(),
        "domain": domain,
        "path": "/",
        "httpOnly": False,
        "secure": True,
        "sameSite": "Lax",
    }
    # только если парсинг Max-Age удался — добавляем expires
    if expires is not None:
        cookie["expires"] = expires
    geo_cookie = cookie.copy()
    geo_cookie["domain"] = "geo.captcha-delivery.com"
    # await asyncio.sleep(1000)
    await self._page.context.add_cookies([cookie, geo_cookie])
    # 3) теперь вернуться/перезагрузить исходную страницу — DataDome пропустит вас
    await self._page.goto(self._page.url, wait_until="networkidle")

Но проблема в том что
Я постоянно получаю такое сообщение и не могу понять что не так.
Проверяю куки в хромиум и те что получил от 2captcha те и вставил, но после

их сбрасывает и получаю «скрин».
Буду благодарен за любую помощь.

Читать полностью…

Scrapy

11 May 2025 17:53

Хотя сейчас может и всегда, я не уверен в этом

Читать полностью…

Scrapy

11 May 2025 16:10

Кажется нету, как я понял клаудфаер требует js скрипт чтобы выполнялся. А без вебдвижка не получится это сделать.

Читать полностью…

Scrapy

11 May 2025 15:37

Всем привет. Не существует способов обойти клаудфлеер в формате http запросов?
Не интересует обход с помощью обнаружения айпи сервера, веб движков(селениум и прочее)

Читать полностью…

Scrapy

10 May 2025 12:51

если задача реальная, пиши в личку

Читать полностью…

Scrapy

10 May 2025 12:46

видел в доке что никак нельзя, но может есть какой то способ

Читать полностью…

Scrapy

08 May 2025 14:47

потому что он скоро умрёт
https://github.com/scrapy/scrapy/pull/6729#discussion_r2012115159

Читать полностью…

Scrapy

08 May 2025 14:08

Выпустили 2.13.0: https://docs.scrapy.org/en/latest/news.html#scrapy-2-13-0-2025-05-08

Читать полностью…

Scrapy

06 May 2025 15:13

Знаете как купить прокси на webshare?

Читать полностью…

Scrapy

04 May 2025 20:46

а вы используете https://github.com/scrapy-plugins/scrapy-playwright ? и отключаете там картинки, сторонние запросы, ну и всякие шрифты и css ненужные? Там емнип можно статистику по-памяти прикрутить, вот насчет того, чтобы все пауки с этой либой использовали один и тот же пул из какого-то количества только браузеров - вот это не знаю, можно ли такое сделать, но я бы смотрел в этом направлении.
Жпт говорит мол прям такого нет, но можно написать и накидывает про Persistent Contexts, Limit Contexts and Pages

Читать полностью…

Scrapy

04 May 2025 19:48

непонятно что именно вы хотите, универсальное решение, обход капч или не учиться скрейпить апи

Читать полностью…

Scrapy

04 May 2025 19:46

Ну кроме как ручками писать для каждого такого свое решение я особо выхода не вижу. Обычно серебряные пули на поверку не такие уж серебряные

Читать полностью…

Scrapy

04 May 2025 19:44

Я парсю разные сайты. Рсс ленту или просто страничку с помощью xpath, css, trafilatura или вообще регекс

Читать полностью…

Scrapy

04 May 2025 19:36

Всем добрый вечер.Может кто то знает тут, как парсить сайты с js или которые просто требуют браузер. У меня скрапи кластер который на кубере. Туда внедрить плейрат тяжело. Чет пока тыкаю browserless. Парсю новости, много новостей

Читать полностью…

Subscribe to a channel