1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
чтобы получить от меня "комментарий, насколько эта мысль абсурдна/бредова?"? не знаю стоит ли оно того
Читать полностью…
Вот только, кодя на расте 3 недели, получил прирост производительности x6 с одной машины
Читать полностью…
Да вот orjson и юзаем, с ним и результаты)
Пока витает в голове, шальная мысль, написать на расте нечто подходящее на scrapy, но только для хайлоада.
@wrar42 можно комментарий, насколько эта мысль абсурдна/бредова?
Благо никакими браузерными решениями не пахнет, проблема в основном в гигантских jsonах от гугла, из-за чего питону плохеет, а сетка еле до 200мбит доходит (из 1 гбита)
Читать полностью…
Не знаю, у себя упираюсь в процессор на обработке ответов, поэтому и интересует, можно ли что-то скомпилить чтоб быстрее было.
Редис я по привычке сунул :)
scrapy-bench как вариант можно прогнать
а то что в сетку это да, а вот parsel и w3lib могут от этого уже получить бенефиты
ну вот я скомпилил scrapy.core, но дальше стандартная проблема что у нас нет для скрапи нормальных бенчмарков (и что скрапи один фиг в сетку упирается)
Читать полностью…
всем привет! оффтоп
кто пользуется тайп хинтами, пробовали компиляцию через mypyc?
если кто-то из разработчиков scrapy пробовал какую часть скомпилировать, то как прошел эксперимент? что не понравилось? просто интересно
сам этим занимался когда надо было отдельно обрабатывать поля в пришедших данных, которые имеют тип data/datetime
самым удобным решением оказалось пробегать по всем полям и узнавать их класс, если он один из нужных, то чето с ним делать
из интереса закомпилировав эту функцию с mypyc, данные стали обрабатываться на 30% быстрее, а от меня требовалось просто добавить пару строчек в pyproject.toml. бесплатный буст считай
о, спасибо! значит осталось соответствие установить элемента с json-ом. это будет намного более стабильнее чем сейчас
Читать полностью…
"такая байда" - это что ? Тип корпуса вилки в розетку ? )))
Читать полностью…
#вакансия
Всем привет!
Ищу мастера парсинга в свой проект.
Мы парсим iherb, goat, amazon, asos, macys, stockx, finishline, newbalance, michaelkors, coachoutlet, zappos и еще около 30 источников.
Мне нужно закрыть 2 направления:
1) парсинг нового контента с этих сайтов (достаточно выгрузки в CSV)
2) поддержка профилей (на PHP или Python) парсинга цен и наличия остатков
Пишите в ЛС @Abrokot , обсудим подробнее.
вы для себя опишите что это вам даст по сравнению со скрапи
Читать полностью…
тут лучше тогда вместо стандартного json посмотреть на ijson, но переписывать немало придётся
а так если drop-in можно попробовать orjson, он пооптимальней стандартного будет, но не как simdjson, но с ним я никогда не работал
ну если упор в проц то это либо очень много рпм, либо огромные html/json’ы, которые сразу все тяжело парсить
ну или если селениум/плейрайт использовать, там ввще жопа
рпм зависит от скорости сети в основном
а при чём тут редис?
Можно на примере какого нибудь источника типа гугла перфоманс померить, или это не то?
Читать полностью…
В вёрстке есть json в котором лежит много инфы, в том числе и цены
Читать полностью…
подскажите пожалуйста кто работал с озоном - как такую байду находить? внутри элемента искать по знаку рубля?
Читать полностью…