Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
если не стоит, то почему? это не проблема, просто интересно
Читать полностью…Контент даунлоадер тебе в помощь, если питон не хочешь учить...)
Читать полностью…Судя по документации, там тоже этого нет( Похоже придётся писать скрипт самому
Читать полностью…Насколько я понимаю, там нужно каждый сервер отдельно настраивать. Хотя, да. Привязать к scrapydweb можно несколько серверов.
Но как я уже сказал, похоже что там не реализована фича, которая бы поддерживала n экземпляров паука запущенными. Только запуск по таймеру.
в конфиге scrapyd увеличь число max_proc_per_cpu и выставь в ноль max_proc
Да, я так и сделал. Но во первых переполняется Pending, а во вторых тогда сервер scrapyd заполняется полностью, хотя мне столько пауков не нужно. Я в итоге написал скрипт, который смотрит сколько экземпляров запущенно, и если нужно запускает новый.
Но есть хотелось бы иметь фичи, вроде работы с несколькими scrapyd серверами/указывать кастомные параметры запуска тд. Было бы идеально иметь балансировку, чтобы для запуска выбирался свободный сервер.
Конечно я и сам могу это написать. Но это же должен был кто то и до меня сделать. Но я подобных решений не нашел.
Поигрался... Оказывается достаточно в ините к паучку привязать свойство, а вот щас даже не понимаю нафига я с файлом это всё мутил
Читать полностью…мой вердикт - надо уметь пользовать, что бы не застали "со спущенными штанами" :)
Читать полностью…здравствуйте, я немного не по стеку группы, но меня интересуют люди, у которых был опыт скрапинга веб магазинов и маркетплейсов
мне хотелось бы узнать про ключевые моменты, какие-то общие рекомендации и правила
делаю бота для телеги, с питоном не дружу, это что-то по типу "обобщенного" поисковика чисто в локальной задаче (поиск наилучшего совпадения в зависимости от региона и по выгодной цене)
не раз сталкивался с явлением бана типичных скраперов (вроде из-за TLS Handshake, если не ошибаюсь), хотелось бы услышать как вообще с этим делать, возможно, есть аналоги Scrapy (под дотнет)
В общем просто получить рекомендации при решении такого рода задач
сформулировал основные вопросы
1) использовать id или css селекторы? что наименее хрупкое? мб это xpath даже, не знаю
2) стандартный HttpClient банится, нормальная ли практика запускать другой процесс (тот же curl) для получения данных?
3) если нужно нажимать на кнопки чтобы куда-то попасть особенно в случае динамических страниц, то как быть тут? selenium only или можно как-то по-проще?
4) представим, что кейс реализуем только через эмуляцию действий юзера, с кучей задержек и прочего, кто-то использует селениум в параллель? Много ресурсов уходит?
5) Какой основной инструментарий стоит знать в этой области (я имею в виду общий. мб IaaS какие-нибудь, хз), может кто-то знает под .NET?
когда включены httpcache с rfc2616 и imagepipeline, респонсы с картинками тоже кешируются? в should_cache_response нет ведь проверки на mime type
мб стоит добавить и в настройки вынести?
просто сейчас новый сайт парсить начал, после получаса охренел что папка с кешом стала 10гб весить…
Такого даже в scrapy cloud нет, если вам нужно "работают всегда 5 пауков одного типа, один кончился запустился ещё один"
Читать полностью…а, на что то такое готовых решений не видел, не знаю
посмотри другие админки, может в какой то такое сделано, мб в gerapy
в конфиге scrapyd увеличь число max_proc_per_cpu и выставь в ноль max_proc
в scrapydweb разве только к одному scrapyd серверу привязка? кажется, что нет
если надо несколько пауков, которые парсят один ресурс, то есть scrapy redis, который
если надо их в одно и то же время одновременно запускать, то ставь по таймеру/крон джобу на каждый экземпляр
Кто то использует scrapyd и scrapydweb для продакшена? Нужно например запускать параллельно по n экземпляров одного паука, я же правильно понимаю, что такая функциональность не реализована, и мне нужно писать скрипт самому? Я уже это сделал, но у меня такое ощущение, что я изобретаю велосипед.
В scrapydweb есть запуск по таймеру, но там нет проверки на уникальность паука(spider_name+параметры) как на zyte.
Хочу как-то сохранять стейт, чтобы он везде был одинаковым (из любой точки кроулера, когда одновременно обрабатываются несколько эндпоинтов). Пробовал хранить в текстовом файлике, но оказывается что так не работает 😅
Читать полностью…да просто русскоязычных источников не нашел по appium
только умершие группы/чаты
всем привет, ребят. А кто-то работал с appium. Не подскажете, как там все настраивать верно. Дока прям печальная у них
Читать полностью…ну, пока - оно, чаще всего, нафуй не надо.
но, есть уже определенный процент сайтов, которые парсятся только через ХТТП/2.
это как клоуфларя - оно не "прям жить без него нельзя", то "с этим все равно столкнешся".
в скрапи есть поддержка хттп/2, насколько полная - хз. Помню, там больше проблема была в поддержке прокси.
я просто задумался
было бы оно прям надо, в scrapy уже полная поддержка существовала
иногда большая, иногда - нет....
это так же, как и с заголовками загоняться. Так то оно полезно, но, иногда - нафуй не надо :)