scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Знаете как купить прокси на webshare?

Читать полностью…

Scrapy

а вы используете https://github.com/scrapy-plugins/scrapy-playwright ? и отключаете там картинки, сторонние запросы, ну и всякие шрифты и css ненужные? Там емнип можно статистику по-памяти прикрутить, вот насчет того, чтобы все пауки с этой либой использовали один и тот же пул из какого-то количества только браузеров - вот это не знаю, можно ли такое сделать, но я бы смотрел в этом направлении.
Жпт говорит мол прям такого нет, но можно написать и накидывает про Persistent Contexts, Limit Contexts and Pages

Читать полностью…

Scrapy

непонятно что именно вы хотите, универсальное решение, обход капч или не учиться скрейпить апи

Читать полностью…

Scrapy

Ну кроме как ручками писать для каждого такого свое решение я особо выхода не вижу. Обычно серебряные пули на поверку не такие уж серебряные

Читать полностью…

Scrapy

Я парсю разные сайты. Рсс ленту или просто страничку с помощью xpath, css, trafilatura или вообще регекс

Читать полностью…

Scrapy

Всем добрый вечер.Может кто то знает тут, как парсить сайты с js или которые просто требуют браузер. У меня скрапи кластер который на кубере. Туда внедрить плейрат тяжело. Чет пока тыкаю browserless. Парсю новости, много новостей

Читать полностью…

Scrapy

скорее всего которая не асинхронная и с объектами со статичной структурой (без добавления\удаления\создания атрибутов в рантайме)

Читать полностью…

Scrapy

тип того
можно упороться как большие дяди с распределенными вычислениями, а можно попробовать попроще через ijson, я когда огромные джсоны парсил он был спасением

Читать полностью…

Scrapy

думаю прирост в производительности это даст если будет очень много одновременных и маленьких реквестов, прям очень много
а если затык только в больших данных, то имеет смысл их обрабатывать итеративно, по чанкам, с ленивыми\отложенными вычислениями

Читать полностью…

Scrapy

вы для себя опишите что это вам даст по сравнению со скрапи

Читать полностью…

Scrapy

В плане, вопросов которые надо задать

Читать полностью…

Scrapy

видимо там было цпу-баунд

Читать полностью…

Scrapy

не знаю, слишком общая идея

Читать полностью…

Scrapy

тут лучше тогда вместо стандартного json посмотреть на ijson, но переписывать немало придётся
а так если drop-in можно попробовать orjson, он пооптимальней стандартного будет, но не как simdjson, но с ним я никогда не работал

Читать полностью…

Scrapy

ну если упор в проц то это либо очень много рпм, либо огромные html/json’ы, которые сразу все тяжело парсить
ну или если селениум/плейрайт использовать, там ввще жопа

Читать полностью…

Scrapy

Я пытался это внедрить. Просто все ноды в курбере падают. Кажется чет не то делаю. Думаю сервис с браузером отдельно вытащить. Но спасибо еще раз посмотрю

Читать полностью…

Scrapy

если "просто требуют браузер" то конечно надо запускать браузер, и конечно он тяжёлый

Читать полностью…

Scrapy

Все работает на селениуме или плейрате. Они тяжёлые. Постоянно падают. Либо не хватает цп либо рам либо не понятно что

Читать полностью…

Scrapy

Большинство сайтов нормально. Но маленький процент который нозят и бесят

Читать полностью…

Scrapy

Смотрел откуда данные приходят? Обычно можно найти открытую апишку.

Читать полностью…

Scrapy

Im new here and looking for hot twitter accounts

Читать полностью…

Scrapy

на самом деле скомпиленный scrapy.core не работает, например судя по всему inlineCallbacks не умеет mypyc
так что ещё вопрос какая часть кодовой базы вообще компилится

Читать полностью…

Scrapy

То есть условно сделать общую очередь для ответов, ей повесить например 5 слушателей, которые будут набирать себе батчи и процессить их?

Читать полностью…

Scrapy

Может действительно, задача слишком узкая..

Читать полностью…

Scrapy

чтобы получить от меня "комментарий, насколько эта мысль абсурдна/бредова?"? не знаю стоит ли оно того

Читать полностью…

Scrapy

Как её осмыслить/обрисовать более конкретно?

Читать полностью…

Scrapy

Вот только, кодя на расте 3 недели, получил прирост производительности x6 с одной машины

Читать полностью…

Scrapy

Да вот orjson и юзаем, с ним и результаты)
Пока витает в голове, шальная мысль, написать на расте нечто подходящее на scrapy, но только для хайлоада.
@wrar42 можно комментарий, насколько эта мысль абсурдна/бредова?

Читать полностью…

Scrapy

Благо никакими браузерными решениями не пахнет, проблема в основном в гигантских jsonах от гугла, из-за чего питону плохеет, а сетка еле до 200мбит доходит (из 1 гбита)

Читать полностью…

Scrapy

Не знаю, у себя упираюсь в процессор на обработке ответов, поэтому и интересует, можно ли что-то скомпилить чтоб быстрее было.
Редис я по привычке сунул :)

Читать полностью…
Subscribe to a channel