Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

11 May 2025 17:53

js он не всегда требует. Только если определенные условия не соблюдены

Читать полностью…

Scrapy

11 May 2025 15:42

да же если и есть, их в паблике не раскроют

Читать полностью…

Scrapy

10 May 2025 14:43

Через JS можно, если iframe с одного домена или есть разрешение CORS. Иначе только через снимок, но без взаимодействия.
Для взаимодействия при запрете CORS только эмуляция или копирование NODE с iframe + убивание оригинала.
Т.е. ответ - Да, можно ВСЁ.

Читать полностью…

Scrapy

10 May 2025 12:50

ну через интерфейс, да можно, если это технически возможно

т.е. нажимаем на кнопку по координатам
эмулируем перемещение мышки и реальный клик

Читать полностью…

Scrapy

10 May 2025 12:46

привет, возможно ли на playwright либо селениуме добраться к элементам в shadow root closed?

Читать полностью…

Scrapy

08 May 2025 14:44

а почему slot теперь protected?

Читать полностью…

Scrapy

07 May 2025 10:33

Здравствуйте, нужен парсер срочно, работа на долгосрочное сотрудничество пишите в лс

Читать полностью…

Scrapy

04 May 2025 20:49

Я пытался это внедрить. Просто все ноды в курбере падают. Кажется чет не то делаю. Думаю сервис с браузером отдельно вытащить. Но спасибо еще раз посмотрю

Читать полностью…

Scrapy

04 May 2025 19:48

если "просто требуют браузер" то конечно надо запускать браузер, и конечно он тяжёлый

Читать полностью…

Scrapy

04 May 2025 19:47

Все работает на селениуме или плейрате. Они тяжёлые. Постоянно падают. Либо не хватает цп либо рам либо не понятно что

Читать полностью…

Scrapy

04 May 2025 19:45

Большинство сайтов нормально. Но маленький процент который нозят и бесят

Читать полностью…

Scrapy

04 May 2025 19:43

Смотрел откуда данные приходят? Обычно можно найти открытую апишку.

Читать полностью…

Scrapy

04 May 2025 18:58

Im new here and looking for hot twitter accounts

Читать полностью…

Scrapy

03 May 2025 14:40

на самом деле скомпиленный scrapy.core не работает, например судя по всему inlineCallbacks не умеет mypyc
так что ещё вопрос какая часть кодовой базы вообще компилится

Читать полностью…

Scrapy

03 May 2025 14:29

То есть условно сделать общую очередь для ответов, ей повесить например 5 слушателей, которые будут набирать себе батчи и процессить их?

Читать полностью…

Scrapy

11 May 2025 16:10

Кажется нету, как я понял клаудфаер требует js скрипт чтобы выполнялся. А без вебдвижка не получится это сделать.

Читать полностью…

Scrapy

11 May 2025 15:37

Всем привет. Не существует способов обойти клаудфлеер в формате http запросов?
Не интересует обход с помощью обнаружения айпи сервера, веб движков(селениум и прочее)

Читать полностью…

Scrapy

10 May 2025 12:51

если задача реальная, пиши в личку

Читать полностью…

Scrapy

10 May 2025 12:46

видел в доке что никак нельзя, но может есть какой то способ

Читать полностью…

Scrapy

08 May 2025 14:47

потому что он скоро умрёт
https://github.com/scrapy/scrapy/pull/6729#discussion_r2012115159

Читать полностью…

Scrapy

08 May 2025 14:08

Выпустили 2.13.0: https://docs.scrapy.org/en/latest/news.html#scrapy-2-13-0-2025-05-08

Читать полностью…

Scrapy

06 May 2025 15:13

Знаете как купить прокси на webshare?

Читать полностью…

Scrapy

04 May 2025 20:46

а вы используете https://github.com/scrapy-plugins/scrapy-playwright ? и отключаете там картинки, сторонние запросы, ну и всякие шрифты и css ненужные? Там емнип можно статистику по-памяти прикрутить, вот насчет того, чтобы все пауки с этой либой использовали один и тот же пул из какого-то количества только браузеров - вот это не знаю, можно ли такое сделать, но я бы смотрел в этом направлении.
Жпт говорит мол прям такого нет, но можно написать и накидывает про Persistent Contexts, Limit Contexts and Pages

Читать полностью…

Scrapy

04 May 2025 19:48

непонятно что именно вы хотите, универсальное решение, обход капч или не учиться скрейпить апи

Читать полностью…

Scrapy

04 May 2025 19:46

Ну кроме как ручками писать для каждого такого свое решение я особо выхода не вижу. Обычно серебряные пули на поверку не такие уж серебряные

Читать полностью…

Scrapy

04 May 2025 19:44

Я парсю разные сайты. Рсс ленту или просто страничку с помощью xpath, css, trafilatura или вообще регекс

Читать полностью…

Scrapy

04 May 2025 19:36

Всем добрый вечер.Может кто то знает тут, как парсить сайты с js или которые просто требуют браузер. У меня скрапи кластер который на кубере. Туда внедрить плейрат тяжело. Чет пока тыкаю browserless. Парсю новости, много новостей

Читать полностью…

Scrapy

03 May 2025 14:55

скорее всего которая не асинхронная и с объектами со статичной структурой (без добавления\удаления\создания атрибутов в рантайме)

Читать полностью…

Scrapy

03 May 2025 14:31

тип того
можно упороться как большие дяди с распределенными вычислениями, а можно попробовать попроще через ijson, я когда огромные джсоны парсил он был спасением

Читать полностью…

Scrapy

03 May 2025 14:26

думаю прирост в производительности это даст если будет очень много одновременных и маленьких реквестов, прям очень много
а если затык только в больших данных, то имеет смысл их обрабатывать итеративно, по чанкам, с ленивыми\отложенными вычислениями

Читать полностью…