scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Может действительно, задача слишком узкая..

Читать полностью…

Scrapy

чтобы получить от меня "комментарий, насколько эта мысль абсурдна/бредова?"? не знаю стоит ли оно того

Читать полностью…

Scrapy

Как её осмыслить/обрисовать более конкретно?

Читать полностью…

Scrapy

Вот только, кодя на расте 3 недели, получил прирост производительности x6 с одной машины

Читать полностью…

Scrapy

Да вот orjson и юзаем, с ним и результаты)
Пока витает в голове, шальная мысль, написать на расте нечто подходящее на scrapy, но только для хайлоада.
@wrar42 можно комментарий, насколько эта мысль абсурдна/бредова?

Читать полностью…

Scrapy

Благо никакими браузерными решениями не пахнет, проблема в основном в гигантских jsonах от гугла, из-за чего питону плохеет, а сетка еле до 200мбит доходит (из 1 гбита)

Читать полностью…

Scrapy

Не знаю, у себя упираюсь в процессор на обработке ответов, поэтому и интересует, можно ли что-то скомпилить чтоб быстрее было.
Редис я по привычке сунул :)

Читать полностью…

Scrapy

scrapy-bench как вариант можно прогнать

а то что в сетку это да, а вот parsel и w3lib могут от этого уже получить бенефиты

Читать полностью…

Scrapy

Скрапи редис до и после компиляции

Читать полностью…

Scrapy

ну вот я скомпилил scrapy.core, но дальше стандартная проблема что у нас нет для скрапи нормальных бенчмарков (и что скрапи один фиг в сетку упирается)

Читать полностью…

Scrapy

всем привет! оффтоп

кто пользуется тайп хинтами, пробовали компиляцию через mypyc?
если кто-то из разработчиков scrapy пробовал какую часть скомпилировать, то как прошел эксперимент? что не понравилось? просто интересно

сам этим занимался когда надо было отдельно обрабатывать поля в пришедших данных, которые имеют тип data/datetime
самым удобным решением оказалось пробегать по всем полям и узнавать их класс, если он один из нужных, то чето с ним делать
из интереса закомпилировав эту функцию с mypyc, данные стали обрабатываться на 30% быстрее, а от меня требовалось просто добавить пару строчек в pyproject.toml. бесплатный буст считай

Читать полностью…

Scrapy

Do you have a solution to bypass Cloudflare

Читать полностью…

Scrapy

о, спасибо! значит осталось соответствие установить элемента с json-ом. это будет намного более стабильнее чем сейчас

Читать полностью…

Scrapy

"такая байда" - это что ? Тип корпуса вилки в розетку ? )))

Читать полностью…

Scrapy

#вакансия
Всем привет!
Ищу мастера парсинга в свой проект.
Мы парсим iherb, goat, amazon, asos, macys, stockx, finishline, newbalance, michaelkors, coachoutlet, zappos и еще около 30 источников.
Мне нужно закрыть 2 направления:
1) парсинг нового контента с этих сайтов (достаточно выгрузки в CSV)
2) поддержка профилей (на PHP или Python) парсинга цен и наличия остатков
Пишите в ЛС @Abrokot , обсудим подробнее.

Читать полностью…

Scrapy

вы для себя опишите что это вам даст по сравнению со скрапи

Читать полностью…

Scrapy

В плане, вопросов которые надо задать

Читать полностью…

Scrapy

видимо там было цпу-баунд

Читать полностью…

Scrapy

не знаю, слишком общая идея

Читать полностью…

Scrapy

тут лучше тогда вместо стандартного json посмотреть на ijson, но переписывать немало придётся
а так если drop-in можно попробовать orjson, он пооптимальней стандартного будет, но не как simdjson, но с ним я никогда не работал

Читать полностью…

Scrapy

ну если упор в проц то это либо очень много рпм, либо огромные html/json’ы, которые сразу все тяжело парсить
ну или если селениум/плейрайт использовать, там ввще жопа

Читать полностью…

Scrapy

парсел не компилится

Читать полностью…

Scrapy

рпм зависит от скорости сети в основном
а при чём тут редис?

Читать полностью…

Scrapy

Можно на примере какого нибудь источника типа гугла перфоманс померить, или это не то?

Читать полностью…

Scrapy

не видели особого смысла в этом?

Читать полностью…

Scrapy

you can try zyte proxies

Читать полностью…

Scrapy

one more off-topic message and you'll get banned

Читать полностью…

Scrapy

В вёрстке есть json в котором лежит много инфы, в том числе и цены

Читать полностью…

Scrapy

подскажите пожалуйста кто работал с озоном - как такую байду находить? внутри элемента искать по знаку рубля?

Читать полностью…

Scrapy

всё как и в прошлый раз

Читать полностью…
Subscribe to a channel