scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

погугли либы под дотнет и всё

Читать полностью…

Scrapy

高 You can write in English if you prefer :)

Читать полностью…

Scrapy

если не стоит, то почему? это не проблема, просто интересно

Читать полностью…

Scrapy

Контент даунлоадер тебе в помощь, если питон не хочешь учить...)

Читать полностью…

Scrapy

Для такого есть ээ как его

Читать полностью…

Scrapy

Судя по документации, там тоже этого нет( Похоже придётся писать скрипт самому

Читать полностью…

Scrapy

Насколько я понимаю, там нужно каждый сервер отдельно настраивать. Хотя, да. Привязать к scrapydweb можно несколько серверов.
Но как я уже сказал, похоже что там не реализована фича, которая бы поддерживала n экземпляров паука запущенными. Только запуск по таймеру.

в конфиге scrapyd увеличь число max_proc_per_cpu и выставь в ноль max_proc

Наоборот, мне достаточно например 20 пауков, а он запускает все 30.

Читать полностью…

Scrapy

Да, я так и сделал. Но во первых переполняется Pending, а во вторых тогда сервер scrapyd заполняется полностью, хотя мне столько пауков не нужно. Я в итоге написал скрипт, который смотрит сколько экземпляров запущенно, и если нужно запускает новый.
Но есть хотелось бы иметь фичи, вроде работы с несколькими scrapyd серверами/указывать кастомные параметры запуска тд. Было бы идеально иметь балансировку, чтобы для запуска выбирался свободный сервер.
Конечно я и сам могу это написать. Но это же должен был кто то и до меня сделать. Но я подобных решений не нашел.

Читать полностью…

Scrapy

не совсем понял вопрос :^(

Читать полностью…

Scrapy

Поигрался... Оказывается достаточно в ините к паучку привязать свойство, а вот щас даже не понимаю нафига я с файлом это всё мутил

Читать полностью…

Scrapy

поиск ключей под фонарём

Читать полностью…

Scrapy

кхм.... казалось бы, при чем тут скрапи? 🤔

Читать полностью…

Scrapy

мой вердикт - надо уметь пользовать, что бы не застали "со спущенными штанами" :)

Читать полностью…

Scrapy

просто мнения и мысли хочу узнать

Читать полностью…

Scrapy

про антибот системы?

Читать полностью…

Scrapy

здравствуйте, я немного не по стеку группы, но меня интересуют люди, у которых был опыт скрапинга веб магазинов и маркетплейсов

мне хотелось бы узнать про ключевые моменты, какие-то общие рекомендации и правила

делаю бота для телеги, с питоном не дружу, это что-то по типу "обобщенного" поисковика чисто в локальной задаче (поиск наилучшего совпадения в зависимости от региона и по выгодной цене)

не раз сталкивался с явлением бана типичных скраперов (вроде из-за TLS Handshake, если не ошибаюсь), хотелось бы услышать как вообще с этим делать, возможно, есть аналоги Scrapy (под дотнет)

В общем просто получить рекомендации при решении такого рода задач

сформулировал основные вопросы
1) использовать id или css селекторы? что наименее хрупкое? мб это xpath даже, не знаю
2) стандартный HttpClient банится, нормальная ли практика запускать другой процесс (тот же curl) для получения данных?
3) если нужно нажимать на кнопки чтобы куда-то попасть особенно в случае динамических страниц, то как быть тут? selenium only или можно как-то по-проще?
4) представим, что кейс реализуем только через эмуляцию действий юзера, с кучей задержек и прочего, кто-то использует селениум в параллель? Много ресурсов уходит?
5) Какой основной инструментарий стоит знать в этой области (я имею в виду общий. мб IaaS какие-нибудь, хз), может кто-то знает под .NET?

Читать полностью…

Scrapy

Без контекста забавно читать 😂

Читать полностью…

Scrapy

когда включены httpcache с rfc2616 и imagepipeline, респонсы с картинками тоже кешируются? в should_cache_response нет ведь проверки на mime type
мб стоит добавить и в настройки вынести?
просто сейчас новый сайт парсить начал, после получаса охренел что папка с кешом стала 10гб весить…

Читать полностью…

Scrapy

https://github.com/scrapinghub/shub-workflow

Читать полностью…

Scrapy

Такого даже в scrapy cloud нет, если вам нужно "работают всегда 5 пауков одного типа, один кончился запустился ещё один"

Читать полностью…

Scrapy

а, на что то такое готовых решений не видел, не знаю
посмотри другие админки, может в какой то такое сделано, мб в gerapy

Читать полностью…

Scrapy

в конфиге scrapyd увеличь число max_proc_per_cpu и выставь в ноль max_proc
в scrapydweb разве только к одному scrapyd серверу привязка? кажется, что нет

Читать полностью…

Scrapy

если надо несколько пауков, которые парсят один ресурс, то есть scrapy redis, который
если надо их в одно и то же время одновременно запускать, то ставь по таймеру/крон джобу на каждый экземпляр

Читать полностью…

Scrapy

Кто то использует scrapyd и scrapydweb для продакшена? Нужно например запускать параллельно по n экземпляров одного паука, я же правильно понимаю, что такая функциональность не реализована, и мне нужно писать скрипт самому? Я уже это сделал, но у меня такое ощущение, что я изобретаю велосипед.
В scrapydweb есть запуск по таймеру, но там нет проверки на уникальность паука(spider_name+параметры) как на zyte.

Читать полностью…

Scrapy

Хочу как-то сохранять стейт, чтобы он везде был одинаковым (из любой точки кроулера, когда одновременно обрабатываются несколько эндпоинтов). Пробовал хранить в текстовом файлике, но оказывается что так не работает 😅

Читать полностью…

Scrapy

да просто русскоязычных источников не нашел по appium
только умершие группы/чаты

Читать полностью…

Scrapy

всем привет, ребят. А кто-то работал с appium. Не подскажете, как там все настраивать верно. Дока прям печальная у них

Читать полностью…

Scrapy

ну, пока - оно, чаще всего, нафуй не надо.
но, есть уже определенный процент сайтов, которые парсятся только через ХТТП/2.
это как клоуфларя - оно не "прям жить без него нельзя", то "с этим все равно столкнешся".
в скрапи есть поддержка хттп/2, насколько полная - хз. Помню, там больше проблема была в поддержке прокси.

Читать полностью…

Scrapy

я просто задумался
было бы оно прям надо, в scrapy уже полная поддержка существовала

Читать полностью…

Scrapy

иногда большая, иногда - нет....
это так же, как и с заголовками загоняться. Так то оно полезно, но, иногда - нафуй не надо :)

Читать полностью…
Subscribe to a channel