Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

14 Sep 2024 23:45

погугли либы под дотнет и всё

Читать полностью…

Scrapy

12 Sep 2024 08:53

高 You can write in English if you prefer :)

Читать полностью…

Scrapy

11 Sep 2024 19:35

если не стоит, то почему? это не проблема, просто интересно

Читать полностью…

Scrapy

11 Sep 2024 07:48

Контент даунлоадер тебе в помощь, если питон не хочешь учить...)

Читать полностью…

Scrapy

11 Sep 2024 07:20

Для такого есть ээ как его

Читать полностью…

Scrapy

10 Sep 2024 23:26

Судя по документации, там тоже этого нет( Похоже придётся писать скрипт самому

Читать полностью…

Scrapy

10 Sep 2024 23:13

Насколько я понимаю, там нужно каждый сервер отдельно настраивать. Хотя, да. Привязать к scrapydweb можно несколько серверов.
Но как я уже сказал, похоже что там не реализована фича, которая бы поддерживала n экземпляров паука запущенными. Только запуск по таймеру.

в конфиге scrapyd увеличь число max_proc_per_cpu и выставь в ноль max_proc

Наоборот, мне достаточно например 20 пауков, а он запускает все 30.

Читать полностью…

Scrapy

10 Sep 2024 23:02

Да, я так и сделал. Но во первых переполняется Pending, а во вторых тогда сервер scrapyd заполняется полностью, хотя мне столько пауков не нужно. Я в итоге написал скрипт, который смотрит сколько экземпляров запущенно, и если нужно запускает новый.
Но есть хотелось бы иметь фичи, вроде работы с несколькими scrapyd серверами/указывать кастомные параметры запуска тд. Было бы идеально иметь балансировку, чтобы для запуска выбирался свободный сервер.
Конечно я и сам могу это написать. Но это же должен был кто то и до меня сделать. Но я подобных решений не нашел.

Читать полностью…

Scrapy

10 Sep 2024 22:34

не совсем понял вопрос :^(

Читать полностью…

Scrapy

09 Sep 2024 18:17

Поигрался... Оказывается достаточно в ините к паучку привязать свойство, а вот щас даже не понимаю нафига я с файлом это всё мутил

Читать полностью…

Scrapy

09 Sep 2024 12:30

поиск ключей под фонарём

Читать полностью…

Scrapy

09 Sep 2024 12:26

кхм.... казалось бы, при чем тут скрапи? 🤔

Читать полностью…

Scrapy

09 Sep 2024 08:29

мой вердикт - надо уметь пользовать, что бы не застали "со спущенными штанами" :)

Читать полностью…

Scrapy

09 Sep 2024 08:23

просто мнения и мысли хочу узнать

Читать полностью…

Scrapy

09 Sep 2024 08:17

про антибот системы?

Читать полностью…

Scrapy

13 Sep 2024 17:55

здравствуйте, я немного не по стеку группы, но меня интересуют люди, у которых был опыт скрапинга веб магазинов и маркетплейсов

мне хотелось бы узнать про ключевые моменты, какие-то общие рекомендации и правила

делаю бота для телеги, с питоном не дружу, это что-то по типу "обобщенного" поисковика чисто в локальной задаче (поиск наилучшего совпадения в зависимости от региона и по выгодной цене)

не раз сталкивался с явлением бана типичных скраперов (вроде из-за TLS Handshake, если не ошибаюсь), хотелось бы услышать как вообще с этим делать, возможно, есть аналоги Scrapy (под дотнет)

В общем просто получить рекомендации при решении такого рода задач

сформулировал основные вопросы
1) использовать id или css селекторы? что наименее хрупкое? мб это xpath даже, не знаю
2) стандартный HttpClient банится, нормальная ли практика запускать другой процесс (тот же curl) для получения данных?
3) если нужно нажимать на кнопки чтобы куда-то попасть особенно в случае динамических страниц, то как быть тут? selenium only или можно как-то по-проще?
4) представим, что кейс реализуем только через эмуляцию действий юзера, с кучей задержек и прочего, кто-то использует селениум в параллель? Много ресурсов уходит?
5) Какой основной инструментарий стоит знать в этой области (я имею в виду общий. мб IaaS какие-нибудь, хз), может кто-то знает под .NET?

Читать полностью…

Scrapy

11 Sep 2024 21:34

Без контекста забавно читать 😂

Читать полностью…

Scrapy

11 Sep 2024 19:30

когда включены httpcache с rfc2616 и imagepipeline, респонсы с картинками тоже кешируются? в should_cache_response нет ведь проверки на mime type
мб стоит добавить и в настройки вынести?
просто сейчас новый сайт парсить начал, после получаса охренел что папка с кешом стала 10гб весить…

Читать полностью…

Scrapy

11 Sep 2024 07:22

https://github.com/scrapinghub/shub-workflow

Читать полностью…

Scrapy

11 Sep 2024 07:19

Такого даже в scrapy cloud нет, если вам нужно "работают всегда 5 пауков одного типа, один кончился запустился ещё один"

Читать полностью…

Scrapy

10 Sep 2024 23:19

а, на что то такое готовых решений не видел, не знаю
посмотри другие админки, может в какой то такое сделано, мб в gerapy

Читать полностью…

Scrapy

10 Sep 2024 23:06

в конфиге scrapyd увеличь число max_proc_per_cpu и выставь в ноль max_proc
в scrapydweb разве только к одному scrapyd серверу привязка? кажется, что нет

Читать полностью…

Scrapy

10 Sep 2024 22:44

если надо несколько пауков, которые парсят один ресурс, то есть scrapy redis, который
если надо их в одно и то же время одновременно запускать, то ставь по таймеру/крон джобу на каждый экземпляр

Читать полностью…

Scrapy

10 Sep 2024 21:49

Кто то использует scrapyd и scrapydweb для продакшена? Нужно например запускать параллельно по n экземпляров одного паука, я же правильно понимаю, что такая функциональность не реализована, и мне нужно писать скрипт самому? Я уже это сделал, но у меня такое ощущение, что я изобретаю велосипед.
В scrapydweb есть запуск по таймеру, но там нет проверки на уникальность паука(spider_name+параметры) как на zyte.

Читать полностью…

Scrapy

09 Sep 2024 18:10

Хочу как-то сохранять стейт, чтобы он везде был одинаковым (из любой точки кроулера, когда одновременно обрабатываются несколько эндпоинтов). Пробовал хранить в текстовом файлике, но оказывается что так не работает 😅

Читать полностью…

Scrapy

09 Sep 2024 12:29

да просто русскоязычных источников не нашел по appium
только умершие группы/чаты

Читать полностью…

Scrapy

09 Sep 2024 12:24

всем привет, ребят. А кто-то работал с appium. Не подскажете, как там все настраивать верно. Дока прям печальная у них

Читать полностью…

Scrapy

09 Sep 2024 08:28

ну, пока - оно, чаще всего, нафуй не надо.
но, есть уже определенный процент сайтов, которые парсятся только через ХТТП/2.
это как клоуфларя - оно не "прям жить без него нельзя", то "с этим все равно столкнешся".
в скрапи есть поддержка хттп/2, насколько полная - хз. Помню, там больше проблема была в поддержке прокси.

Читать полностью…

Scrapy

09 Sep 2024 08:18

я просто задумался
было бы оно прям надо, в scrapy уже полная поддержка существовала

Читать полностью…

Scrapy

09 Sep 2024 08:15

иногда большая, иногда - нет....
это так же, как и с заголовками загоняться. Так то оно полезно, но, иногда - нафуй не надо :)

Читать полностью…