scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Для такого есть ээ как его

Читать полностью…

Scrapy

Судя по документации, там тоже этого нет( Похоже придётся писать скрипт самому

Читать полностью…

Scrapy

Насколько я понимаю, там нужно каждый сервер отдельно настраивать. Хотя, да. Привязать к scrapydweb можно несколько серверов.
Но как я уже сказал, похоже что там не реализована фича, которая бы поддерживала n экземпляров паука запущенными. Только запуск по таймеру.

в конфиге scrapyd увеличь число max_proc_per_cpu и выставь в ноль max_proc

Наоборот, мне достаточно например 20 пауков, а он запускает все 30.

Читать полностью…

Scrapy

Да, я так и сделал. Но во первых переполняется Pending, а во вторых тогда сервер scrapyd заполняется полностью, хотя мне столько пауков не нужно. Я в итоге написал скрипт, который смотрит сколько экземпляров запущенно, и если нужно запускает новый.
Но есть хотелось бы иметь фичи, вроде работы с несколькими scrapyd серверами/указывать кастомные параметры запуска тд. Было бы идеально иметь балансировку, чтобы для запуска выбирался свободный сервер.
Конечно я и сам могу это написать. Но это же должен был кто то и до меня сделать. Но я подобных решений не нашел.

Читать полностью…

Scrapy

не совсем понял вопрос :^(

Читать полностью…

Scrapy

Поигрался... Оказывается достаточно в ините к паучку привязать свойство, а вот щас даже не понимаю нафига я с файлом это всё мутил

Читать полностью…

Scrapy

поиск ключей под фонарём

Читать полностью…

Scrapy

кхм.... казалось бы, при чем тут скрапи? 🤔

Читать полностью…

Scrapy

мой вердикт - надо уметь пользовать, что бы не застали "со спущенными штанами" :)

Читать полностью…

Scrapy

просто мнения и мысли хочу узнать

Читать полностью…

Scrapy

про антибот системы?

Читать полностью…

Scrapy

а большая ли польза от http/2 в плане парсинга?

Читать полностью…

Scrapy

Есть же наверное какая-то логика фильтрации юзеров и их объявлений. Есть логика запросов. Если понятно как составлять запросы, значит можно и логику реализовать и без браузера. Казалось бы.

Читать полностью…

Scrapy

просто думал что есть какие то лазейки/способы уменьшить потребление

Читать полностью…

Scrapy

у меня такая задача что нельзя просто получить желаемый json, есть нужда в том чтобы постоянно открывать новые вкладки и фильтровать юзеров, после чего фильтровать их обьявления

Читать полностью…

Scrapy

Такого даже в scrapy cloud нет, если вам нужно "работают всегда 5 пауков одного типа, один кончился запустился ещё один"

Читать полностью…

Scrapy

а, на что то такое готовых решений не видел, не знаю
посмотри другие админки, может в какой то такое сделано, мб в gerapy

Читать полностью…

Scrapy

в конфиге scrapyd увеличь число max_proc_per_cpu и выставь в ноль max_proc
в scrapydweb разве только к одному scrapyd серверу привязка? кажется, что нет

Читать полностью…

Scrapy

если надо несколько пауков, которые парсят один ресурс, то есть scrapy redis, который
если надо их в одно и то же время одновременно запускать, то ставь по таймеру/крон джобу на каждый экземпляр

Читать полностью…

Scrapy

Кто то использует scrapyd и scrapydweb для продакшена? Нужно например запускать параллельно по n экземпляров одного паука, я же правильно понимаю, что такая функциональность не реализована, и мне нужно писать скрипт самому? Я уже это сделал, но у меня такое ощущение, что я изобретаю велосипед.
В scrapydweb есть запуск по таймеру, но там нет проверки на уникальность паука(spider_name+параметры) как на zyte.

Читать полностью…

Scrapy

Хочу как-то сохранять стейт, чтобы он везде был одинаковым (из любой точки кроулера, когда одновременно обрабатываются несколько эндпоинтов). Пробовал хранить в текстовом файлике, но оказывается что так не работает 😅

Читать полностью…

Scrapy

да просто русскоязычных источников не нашел по appium
только умершие группы/чаты

Читать полностью…

Scrapy

всем привет, ребят. А кто-то работал с appium. Не подскажете, как там все настраивать верно. Дока прям печальная у них

Читать полностью…

Scrapy

ну, пока - оно, чаще всего, нафуй не надо.
но, есть уже определенный процент сайтов, которые парсятся только через ХТТП/2.
это как клоуфларя - оно не "прям жить без него нельзя", то "с этим все равно столкнешся".
в скрапи есть поддержка хттп/2, насколько полная - хз. Помню, там больше проблема была в поддержке прокси.

Читать полностью…

Scrapy

я просто задумался
было бы оно прям надо, в scrapy уже полная поддержка существовала

Читать полностью…

Scrapy

иногда большая, иногда - нет....
это так же, как и с заголовками загоняться. Так то оно полезно, но, иногда - нафуй не надо :)

Читать полностью…

Scrapy

proxy6, proxys, proxy.market...
Не бесплатные, но в целом достаточно дешевые. Там где не нужны мобильные или с ротацией на каждый запрос.

Читать полностью…

Scrapy

Всем доброе время суток

Какие бесплатные proxy сервера вы используете

Читать полностью…

Scrapy

это наверн единственное что меня спасёт

Читать полностью…

Scrapy

https://docs.scrapy.org/en/latest/topics/dynamic-content.html

Читать полностью…
Subscribe to a channel