Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
ну да надо юзеров менять тогда
и это действительно гораздо более хрупко чем без авторизации, именно потому что привязка запроса к акку
ну и гораздо менее легально
ребят есть какие то советы как скрапить маркетплейс на новые обьявление и не попасться на антифрод ?
Читать полностью…Там считается bandwidth (забыл перевод) то есть сколько ты посылаешь + сколько тебе присылают
Читать полностью…как там господин Матроскин говорил "Что бы продать что нить не нужное, надо сначала купить, что нить не нужное" :))),
ведь надо, в таком случае, куда то во вне передавать... а тут уже зависит от дальнейших хотелок. Если хочется по HTTP дергать, имхо, Redis неплохо справится (ну, если его обернуть). В scrapy-redis, кстати, стата в редисе хранится....
та, пагади, что именно хочется? передавать стату в реалтайме на на сторонний эндпоинт?
Читать полностью…прошерстил код scrapyd, понял что нельзя
если я не прав- скажите)
Поставь себе задачу/задачи спарсить какие нибудь данные с какого нибудь сайта:)
Читать полностью…надо будет попробовать добавить в env, спасибо. Как сделаю отпишусь о результатах
Читать полностью…там прямо какие-то лично для данного пользователя спец-спец-спец предложения?
Читать полностью…при том что скрапить можно только с авторизованых акков, то есть я полагаю не выйдет просто менять прокси постоянно в случае если запросы не будут проходить по каким то причинам.
новые обьявления там появляются каждую секунду, категорий дофига, думаю будет странно если один юзер будет одеовременно скрапить 50+ категорий ежесекундно, надо чёто придумать
Кто поможет зарегестрироваться на этом сайте: https://www.yell.ru/moscow/com/ . С selenium не получается, а с requests пишет что не подключил javascript. Помогите😭
Читать полностью…Было б удобно если бы считался только запрос 😂. Кидаешь такой гет запросик размером в пару байт, а тебе в ответ джейсон на мегабайтик 😂
Читать полностью…Привет, всем
Кто может подсказать по поводу brightdata и его билнга в Data Center
Я использу data center в us
они билят по GB , но не могу понять они билят только response или request также ?
не совсем, это просто сделать
хочется, например, curl’ом получить стату запущенного паука, без telnet
нашел что как вариант можно использовать https://github.com/scrapy-plugins/scrapy-jsonrpc
Читать полностью…возможно ли как-нибудь из scrapyd получить доступ к объекту Crawler? хочется добавить свой ендпоинт для получения spider.stats
также буду рад посмотреть на другие самописные ендпоинты, если такие тут писались
ну мне бы какое нибудь чтиво ))
чтобы вечером под чай почитать )
задач хватает )
искал книги или какие нить курсы по scrapy - ничего не нашел (
Всем привет ))
Ребят, подскажите пожалуйста, что можно почитать по scrapy кроме оф доки?)
А PYTHONASYNCIODEBUG че-нибудь показывает? https://docs.python.org/3/library/asyncio-dev.html
и там в https://docs.python.org/3/library/asyncio-eventloop.html#asyncio.loop.slow_callback_duration
может поможет, хз
а вне контейнера этот же код не виснет или просто не проверяли?
Читать полностью…В коде scrapy используется TLDExtract, который использует блокирующий requests.get()
для получения списка суффиксов поддоменов, это ведь тоже может вызывать блокировки?