Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

03 May 2025 14:21

Может действительно, задача слишком узкая..

Читать полностью…

Scrapy

03 May 2025 14:20

чтобы получить от меня "комментарий, насколько эта мысль абсурдна/бредова?"? не знаю стоит ли оно того

Читать полностью…

Scrapy

03 May 2025 14:19

Как её осмыслить/обрисовать более конкретно?

Читать полностью…

Scrapy

03 May 2025 14:19

Вот только, кодя на расте 3 недели, получил прирост производительности x6 с одной машины

Читать полностью…

Scrapy

03 May 2025 14:18

Да вот orjson и юзаем, с ним и результаты)
Пока витает в голове, шальная мысль, написать на расте нечто подходящее на scrapy, но только для хайлоада.
@wrar42 можно комментарий, насколько эта мысль абсурдна/бредова?

Читать полностью…

Scrapy

03 May 2025 14:13

Благо никакими браузерными решениями не пахнет, проблема в основном в гигантских jsonах от гугла, из-за чего питону плохеет, а сетка еле до 200мбит доходит (из 1 гбита)

Читать полностью…

Scrapy

03 May 2025 14:04

Не знаю, у себя упираюсь в процессор на обработке ответов, поэтому и интересует, можно ли что-то скомпилить чтоб быстрее было.
Редис я по привычке сунул :)

Читать полностью…

Scrapy

03 May 2025 13:59

scrapy-bench как вариант можно прогнать

а то что в сетку это да, а вот parsel и w3lib могут от этого уже получить бенефиты

Читать полностью…

Scrapy

03 May 2025 13:41

Скрапи редис до и после компиляции

Читать полностью…

Scrapy

03 May 2025 13:10

ну вот я скомпилил scrapy.core, но дальше стандартная проблема что у нас нет для скрапи нормальных бенчмарков (и что скрапи один фиг в сетку упирается)

Читать полностью…

Scrapy

02 May 2025 21:58

всем привет! оффтоп

кто пользуется тайп хинтами, пробовали компиляцию через mypyc?
если кто-то из разработчиков scrapy пробовал какую часть скомпилировать, то как прошел эксперимент? что не понравилось? просто интересно

сам этим занимался когда надо было отдельно обрабатывать поля в пришедших данных, которые имеют тип data/datetime
самым удобным решением оказалось пробегать по всем полям и узнавать их класс, если он один из нужных, то чето с ним делать
из интереса закомпилировав эту функцию с mypyc, данные стали обрабатываться на 30% быстрее, а от меня требовалось просто добавить пару строчек в pyproject.toml. бесплатный буст считай

Читать полностью…

Scrapy

27 April 2025 09:55

Do you have a solution to bypass Cloudflare

Читать полностью…

Scrapy

25 April 2025 12:27

о, спасибо! значит осталось соответствие установить элемента с json-ом. это будет намного более стабильнее чем сейчас

Читать полностью…

Scrapy

25 April 2025 12:09

"такая байда" - это что ? Тип корпуса вилки в розетку ? )))

Читать полностью…

Scrapy

27 March 2025 11:38

#вакансия
Всем привет!
Ищу мастера парсинга в свой проект.
Мы парсим iherb, goat, amazon, asos, macys, stockx, finishline, newbalance, michaelkors, coachoutlet, zappos и еще около 30 источников.
Мне нужно закрыть 2 направления:
1) парсинг нового контента с этих сайтов (достаточно выгрузки в CSV)
2) поддержка профилей (на PHP или Python) парсинга цен и наличия остатков
Пишите в ЛС @Abrokot , обсудим подробнее.

Читать полностью…

Scrapy

03 May 2025 14:20

вы для себя опишите что это вам даст по сравнению со скрапи

Читать полностью…

Scrapy

03 May 2025 14:20

В плане, вопросов которые надо задать

Читать полностью…

Scrapy

03 May 2025 14:19

видимо там было цпу-баунд

Читать полностью…

Scrapy

03 May 2025 14:18

не знаю, слишком общая идея

Читать полностью…

Scrapy

03 May 2025 14:16

тут лучше тогда вместо стандартного json посмотреть на ijson, но переписывать немало придётся
а так если drop-in можно попробовать orjson, он пооптимальней стандартного будет, но не как simdjson, но с ним я никогда не работал

Читать полностью…

Scrapy

03 May 2025 14:10

ну если упор в проц то это либо очень много рпм, либо огромные html/json’ы, которые сразу все тяжело парсить
ну или если селениум/плейрайт использовать, там ввще жопа

Читать полностью…