1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Судя по документации, там тоже этого нет( Похоже придётся писать скрипт самому
Читать полностью…
Насколько я понимаю, там нужно каждый сервер отдельно настраивать. Хотя, да. Привязать к scrapydweb можно несколько серверов.
Но как я уже сказал, похоже что там не реализована фича, которая бы поддерживала n экземпляров паука запущенными. Только запуск по таймеру.
в конфиге scrapyd увеличь число max_proc_per_cpu и выставь в ноль max_proc
Да, я так и сделал. Но во первых переполняется Pending, а во вторых тогда сервер scrapyd заполняется полностью, хотя мне столько пауков не нужно. Я в итоге написал скрипт, который смотрит сколько экземпляров запущенно, и если нужно запускает новый.
Но есть хотелось бы иметь фичи, вроде работы с несколькими scrapyd серверами/указывать кастомные параметры запуска тд. Было бы идеально иметь балансировку, чтобы для запуска выбирался свободный сервер.
Конечно я и сам могу это написать. Но это же должен был кто то и до меня сделать. Но я подобных решений не нашел.
Поигрался... Оказывается достаточно в ините к паучку привязать свойство, а вот щас даже не понимаю нафига я с файлом это всё мутил
Читать полностью…
мой вердикт - надо уметь пользовать, что бы не застали "со спущенными штанами" :)
Читать полностью…
Есть же наверное какая-то логика фильтрации юзеров и их объявлений. Есть логика запросов. Если понятно как составлять запросы, значит можно и логику реализовать и без браузера. Казалось бы.
Читать полностью…
просто думал что есть какие то лазейки/способы уменьшить потребление
Читать полностью…
у меня такая задача что нельзя просто получить желаемый json, есть нужда в том чтобы постоянно открывать новые вкладки и фильтровать юзеров, после чего фильтровать их обьявления
Читать полностью…
Такого даже в scrapy cloud нет, если вам нужно "работают всегда 5 пауков одного типа, один кончился запустился ещё один"
Читать полностью…
а, на что то такое готовых решений не видел, не знаю
посмотри другие админки, может в какой то такое сделано, мб в gerapy
в конфиге scrapyd увеличь число max_proc_per_cpu и выставь в ноль max_proc
в scrapydweb разве только к одному scrapyd серверу привязка? кажется, что нет
если надо несколько пауков, которые парсят один ресурс, то есть scrapy redis, который
если надо их в одно и то же время одновременно запускать, то ставь по таймеру/крон джобу на каждый экземпляр
Кто то использует scrapyd и scrapydweb для продакшена? Нужно например запускать параллельно по n экземпляров одного паука, я же правильно понимаю, что такая функциональность не реализована, и мне нужно писать скрипт самому? Я уже это сделал, но у меня такое ощущение, что я изобретаю велосипед.
В scrapydweb есть запуск по таймеру, но там нет проверки на уникальность паука(spider_name+параметры) как на zyte.
Хочу как-то сохранять стейт, чтобы он везде был одинаковым (из любой точки кроулера, когда одновременно обрабатываются несколько эндпоинтов). Пробовал хранить в текстовом файлике, но оказывается что так не работает 😅
Читать полностью…
да просто русскоязычных источников не нашел по appium
только умершие группы/чаты
всем привет, ребят. А кто-то работал с appium. Не подскажете, как там все настраивать верно. Дока прям печальная у них
Читать полностью…
ну, пока - оно, чаще всего, нафуй не надо.
но, есть уже определенный процент сайтов, которые парсятся только через ХТТП/2.
это как клоуфларя - оно не "прям жить без него нельзя", то "с этим все равно столкнешся".
в скрапи есть поддержка хттп/2, насколько полная - хз. Помню, там больше проблема была в поддержке прокси.
я просто задумался
было бы оно прям надо, в scrapy уже полная поддержка существовала
иногда большая, иногда - нет....
это так же, как и с заголовками загоняться. Так то оно полезно, но, иногда - нафуй не надо :)
proxy6, proxys, proxy.market...
Не бесплатные, но в целом достаточно дешевые. Там где не нужны мобильные или с ротацией на каждый запрос.
Всем доброе время суток
Какие бесплатные proxy сервера вы используете
https://docs.scrapy.org/en/latest/topics/dynamic-content.html
Читать полностью…