scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Так может дело в IP-адресе сервера?

Читать полностью…

Scrapy

попробовал ради прикола прогнать w3lib через mypyc, всё с первого раза скомпилилось, но прироста в скорости, по крайней мере в тестах, никакого)

Читать полностью…

Scrapy

Я новости парсю, покрайне мере требует в моих сайтах.

Читать полностью…

Scrapy

js он не всегда требует. Только если определенные условия не соблюдены

Читать полностью…

Scrapy

да же если и есть, их в паблике не раскроют

Читать полностью…

Scrapy

Через JS можно, если iframe с одного домена или есть разрешение CORS. Иначе только через снимок, но без взаимодействия.
Для взаимодействия при запрете CORS только эмуляция или копирование NODE с iframe + убивание оригинала.
Т.е. ответ - Да, можно ВСЁ.

Читать полностью…

Scrapy

ну через интерфейс, да можно, если это технически возможно

т.е. нажимаем на кнопку по координатам
эмулируем перемещение мышки и реальный клик

Читать полностью…

Scrapy

привет, возможно ли на playwright либо селениуме добраться к элементам в shadow root closed?

Читать полностью…

Scrapy

а почему slot теперь protected?

Читать полностью…

Scrapy

Здравствуйте, нужен парсер срочно, работа на долгосрочное сотрудничество пишите в лс

Читать полностью…

Scrapy

Я пытался это внедрить. Просто все ноды в курбере падают. Кажется чет не то делаю. Думаю сервис с браузером отдельно вытащить. Но спасибо еще раз посмотрю

Читать полностью…

Scrapy

если "просто требуют браузер" то конечно надо запускать браузер, и конечно он тяжёлый

Читать полностью…

Scrapy

Все работает на селениуме или плейрате. Они тяжёлые. Постоянно падают. Либо не хватает цп либо рам либо не понятно что

Читать полностью…

Scrapy

Большинство сайтов нормально. Но маленький процент который нозят и бесят

Читать полностью…

Scrapy

Смотрел откуда данные приходят? Обычно можно найти открытую апишку.

Читать полностью…

Scrapy

Привет посоветуйте, пожалуйста, настройки селениума / сервсис прокси, чтобы парсить яндекс
https://stackoverflow.com/questions/79626509/how-to-improve-selenium-script-so-that-the-captcha-does-not-appear

На моей ноутбуке скрипт работает прекрасно (в headless режиме) - выскакивает только чекбокс "Я не робот", успешно его решаю

Но на сервере скрипт получает вот такую капчу (приложил фото)

Читать полностью…

Scrapy

Все привет
Делаю небольшую автоматизацию scrapy и playwright.
Мне нужно открыть страницу с капчей DadaDome я использую сервис 2captcha для её решения. Результат куков я вставляю таким образом.


async def _apply_solution(self, data: dict, captcha_url: str) -> None:
cookie_str = data['code']
name, rest = cookie_str.split("=", 1)
value = rest.split(";", 1)[0]
print(cookie_str)
# парсим Max-Age
m = re.search(r"Max-Age=(\d+)", cookie_str, re.IGNORECASE)
max_age = int(m.group(1)) if m else None
# вычисляем UNIX-время истечения
expires = int(time.time()) + max_age if max_age is not None else None

host = urlparse(self._page.url).hostname
domain = "." + ".".join(host.split(".")[-2:])

cookie = {
"name": name.strip(),
"value": value.strip(),
"domain": domain,
"path": "/",
"httpOnly": False,
"secure": True,
"sameSite": "Lax",
}
# только если парсинг Max-Age удался — добавляем expires
if expires is not None:
cookie["expires"] = expires
geo_cookie = cookie.copy()
geo_cookie["domain"] = "geo.captcha-delivery.com"
# await asyncio.sleep(1000)
await self._page.context.add_cookies([cookie, geo_cookie])
# 3) теперь вернуться/перезагрузить исходную страницу — DataDome пропустит вас
await self._page.goto(self._page.url, wait_until="networkidle")


Но проблема в том что
Я постоянно получаю такое сообщение и не могу понять что не так.
Проверяю куки в хромиум и те что получил от 2captcha те и вставил, но после

их сбрасывает и получаю «скрин».
Буду благодарен за любую помощь.

Читать полностью…

Scrapy

Хотя сейчас может и всегда, я не уверен в этом

Читать полностью…

Scrapy

Кажется нету, как я понял клаудфаер требует js скрипт чтобы выполнялся. А без вебдвижка не получится это сделать.

Читать полностью…

Scrapy

Всем привет. Не существует способов обойти клаудфлеер в формате http запросов?
Не интересует обход с помощью обнаружения айпи сервера, веб движков(селениум и прочее)

Читать полностью…

Scrapy

если задача реальная, пиши в личку

Читать полностью…

Scrapy

видел в доке что никак нельзя, но может есть какой то способ

Читать полностью…

Scrapy

потому что он скоро умрёт
https://github.com/scrapy/scrapy/pull/6729#discussion_r2012115159

Читать полностью…

Scrapy

Выпустили 2.13.0: https://docs.scrapy.org/en/latest/news.html#scrapy-2-13-0-2025-05-08

Читать полностью…

Scrapy

Знаете как купить прокси на webshare?

Читать полностью…

Scrapy

а вы используете https://github.com/scrapy-plugins/scrapy-playwright ? и отключаете там картинки, сторонние запросы, ну и всякие шрифты и css ненужные? Там емнип можно статистику по-памяти прикрутить, вот насчет того, чтобы все пауки с этой либой использовали один и тот же пул из какого-то количества только браузеров - вот это не знаю, можно ли такое сделать, но я бы смотрел в этом направлении.
Жпт говорит мол прям такого нет, но можно написать и накидывает про Persistent Contexts, Limit Contexts and Pages

Читать полностью…

Scrapy

непонятно что именно вы хотите, универсальное решение, обход капч или не учиться скрейпить апи

Читать полностью…

Scrapy

Ну кроме как ручками писать для каждого такого свое решение я особо выхода не вижу. Обычно серебряные пули на поверку не такие уж серебряные

Читать полностью…

Scrapy

Я парсю разные сайты. Рсс ленту или просто страничку с помощью xpath, css, trafilatura или вообще регекс

Читать полностью…

Scrapy

Всем добрый вечер.Может кто то знает тут, как парсить сайты с js или которые просто требуют браузер. У меня скрапи кластер который на кубере. Туда внедрить плейрат тяжело. Чет пока тыкаю browserless. Парсю новости, много новостей

Читать полностью…
Subscribe to a channel