Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

scrapy_python | Unsorted

Subscribe to a channel

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

04 May 2025 18:58

Im new here and looking for hot twitter accounts

Читать полностью…

Scrapy

03 May 2025 14:40

на самом деле скомпиленный scrapy.core не работает, например судя по всему inlineCallbacks не умеет mypyc
так что ещё вопрос какая часть кодовой базы вообще компилится

Читать полностью…

Scrapy

03 May 2025 14:29

То есть условно сделать общую очередь для ответов, ей повесить например 5 слушателей, которые будут набирать себе батчи и процессить их?

Читать полностью…

Scrapy

03 May 2025 14:21

Может действительно, задача слишком узкая..

Читать полностью…

Scrapy

03 May 2025 14:20

чтобы получить от меня "комментарий, насколько эта мысль абсурдна/бредова?"? не знаю стоит ли оно того

Читать полностью…

Scrapy

03 May 2025 14:19

Как её осмыслить/обрисовать более конкретно?

Читать полностью…

Scrapy

03 May 2025 14:19

Вот только, кодя на расте 3 недели, получил прирост производительности x6 с одной машины

Читать полностью…

Scrapy

03 May 2025 14:18

Да вот orjson и юзаем, с ним и результаты)
Пока витает в голове, шальная мысль, написать на расте нечто подходящее на scrapy, но только для хайлоада.
@wrar42 можно комментарий, насколько эта мысль абсурдна/бредова?

Читать полностью…

Scrapy

03 May 2025 14:13

Благо никакими браузерными решениями не пахнет, проблема в основном в гигантских jsonах от гугла, из-за чего питону плохеет, а сетка еле до 200мбит доходит (из 1 гбита)

Читать полностью…

Scrapy

03 May 2025 14:04

Не знаю, у себя упираюсь в процессор на обработке ответов, поэтому и интересует, можно ли что-то скомпилить чтоб быстрее было.
Редис я по привычке сунул :)

Читать полностью…

Scrapy

03 May 2025 13:59

scrapy-bench как вариант можно прогнать

а то что в сетку это да, а вот parsel и w3lib могут от этого уже получить бенефиты

Читать полностью…

Scrapy

03 May 2025 13:41

Скрапи редис до и после компиляции

Читать полностью…

Scrapy

03 May 2025 13:10

ну вот я скомпилил scrapy.core, но дальше стандартная проблема что у нас нет для скрапи нормальных бенчмарков (и что скрапи один фиг в сетку упирается)

Читать полностью…

Scrapy

02 May 2025 21:58

всем привет! оффтоп

кто пользуется тайп хинтами, пробовали компиляцию через mypyc?
если кто-то из разработчиков scrapy пробовал какую часть скомпилировать, то как прошел эксперимент? что не понравилось? просто интересно

сам этим занимался когда надо было отдельно обрабатывать поля в пришедших данных, которые имеют тип data/datetime
самым удобным решением оказалось пробегать по всем полям и узнавать их класс, если он один из нужных, то чето с ним делать
из интереса закомпилировав эту функцию с mypyc, данные стали обрабатываться на 30% быстрее, а от меня требовалось просто добавить пару строчек в pyproject.toml. бесплатный буст считай

Читать полностью…

Scrapy

27 April 2025 09:55

Do you have a solution to bypass Cloudflare

Читать полностью…

Scrapy

03 May 2025 14:55

скорее всего которая не асинхронная и с объектами со статичной структурой (без добавления\удаления\создания атрибутов в рантайме)

Читать полностью…

Scrapy

03 May 2025 14:31

тип того
можно упороться как большие дяди с распределенными вычислениями, а можно попробовать попроще через ijson, я когда огромные джсоны парсил он был спасением

Читать полностью…

Scrapy

03 May 2025 14:26

думаю прирост в производительности это даст если будет очень много одновременных и маленьких реквестов, прям очень много
а если затык только в больших данных, то имеет смысл их обрабатывать итеративно, по чанкам, с ленивыми\отложенными вычислениями

Читать полностью…

Scrapy

03 May 2025 14:20

вы для себя опишите что это вам даст по сравнению со скрапи

Читать полностью…

Scrapy

03 May 2025 14:20

В плане, вопросов которые надо задать

Читать полностью…

Scrapy

03 May 2025 14:19

видимо там было цпу-баунд

Читать полностью…

Scrapy

03 May 2025 14:18

не знаю, слишком общая идея

Читать полностью…

Scrapy

03 May 2025 14:16

тут лучше тогда вместо стандартного json посмотреть на ijson, но переписывать немало придётся
а так если drop-in можно попробовать orjson, он пооптимальней стандартного будет, но не как simdjson, но с ним я никогда не работал

Читать полностью…

Scrapy

03 May 2025 14:10

ну если упор в проц то это либо очень много рпм, либо огромные html/json’ы, которые сразу все тяжело парсить
ну или если селениум/плейрайт использовать, там ввще жопа

Читать полностью…

Scrapy

03 May 2025 14:00

парсел не компилится

Читать полностью…

Scrapy

03 May 2025 13:42

рпм зависит от скорости сети в основном
а при чём тут редис?

Читать полностью…

Scrapy

03 May 2025 13:40

Можно на примере какого нибудь источника типа гугла перфоманс померить, или это не то?

Читать полностью…

Scrapy

02 May 2025 22:01

не видели особого смысла в этом?

Читать полностью…

Scrapy

27 April 2025 10:11

you can try zyte proxies

Читать полностью…

Scrapy

27 April 2025 09:51

one more off-topic message and you'll get banned

Читать полностью…

Subscribe to a channel