1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Там считается bandwidth (забыл перевод) то есть сколько ты посылаешь + сколько тебе присылают
Читать полностью…
как там господин Матроскин говорил "Что бы продать что нить не нужное, надо сначала купить, что нить не нужное" :))),
ведь надо, в таком случае, куда то во вне передавать... а тут уже зависит от дальнейших хотелок. Если хочется по HTTP дергать, имхо, Redis неплохо справится (ну, если его обернуть). В scrapy-redis, кстати, стата в редисе хранится....
та, пагади, что именно хочется? передавать стату в реалтайме на на сторонний эндпоинт?
Читать полностью…
прошерстил код scrapyd, понял что нельзя
если я не прав- скажите)
Поставь себе задачу/задачи спарсить какие нибудь данные с какого нибудь сайта:)
Читать полностью…
надо будет попробовать добавить в env, спасибо. Как сделаю отпишусь о результатах
Читать полностью…
Это касается любого кода с асинхронностью на сопроцедурах, особенно на питоне
Читать полностью…
Привет, всем
Кто может подсказать по поводу brightdata и его билнга в Data Center
Я использу data center в us
они билят по GB , но не могу понять они билят только response или request также ?
не совсем, это просто сделать
хочется, например, curl’ом получить стату запущенного паука, без telnet
нашел что как вариант можно использовать https://github.com/scrapy-plugins/scrapy-jsonrpc
Читать полностью…
возможно ли как-нибудь из scrapyd получить доступ к объекту Crawler? хочется добавить свой ендпоинт для получения spider.stats
также буду рад посмотреть на другие самописные ендпоинты, если такие тут писались
ну мне бы какое нибудь чтиво ))
чтобы вечером под чай почитать )
задач хватает )
искал книги или какие нить курсы по scrapy - ничего не нашел (
Всем привет ))
Ребят, подскажите пожалуйста, что можно почитать по scrapy кроме оф доки?)
А PYTHONASYNCIODEBUG че-нибудь показывает? https://docs.python.org/3/library/asyncio-dev.html
и там в https://docs.python.org/3/library/asyncio-eventloop.html#asyncio.loop.slow_callback_duration
может поможет, хз
а вне контейнера этот же код не виснет или просто не проверяли?
Читать полностью…
В коде scrapy используется TLDExtract, который использует блокирующий requests.get() для получения списка суффиксов поддоменов, это ведь тоже может вызывать блокировки?
Это касается и middleware? То есть в scrapy вообще все вызовы должны быть неблокирующими?
Читать полностью…
Этих блокировок можно как-то избежать с помощью scrapy? Или тут проблема в scrapy-rotating-proxies?
Всем привет, мы запускаем Scrapy версии 2.11.2 внутри докер контейнера и в случайный момент времени процесс Scrapy может зависнуть. Подключение через telnet также работает не так как обычно (подключиться можно, но telnet сессия не предлагает ввести Username: как это происходит при нормальной работе). Также используется middleware - scrapy-rotating-proxies.
Подскажите пожалуйста, может кто-нибудь сталкивался с таким поведением?
Кстати использовал по итогу HTTP Toolkit - топ тема
Все отлично