scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Как остановиться если прокрутка бесконечная?

Читать полностью…

Scrapy

да мне честно говоря нужно просто знать когда остановиться

Читать полностью…

Scrapy

естественно, всякие Count и пр. не будут работать потому что страница бесконечна и всегда подгружается

Читать полностью…

Scrapy

Все привет, знает кто-нибудь запрос для получения реестра контрактов по ф44. Запрос на получение закупок есть в приложение и он такой "https://zakupki.gov.ru/api/mobile/proxy/917/epz/order/extendedsearch/results.html", а контратов нет

Читать полностью…

Scrapy

Почему, данные
Кусок о котором просили содержит мало данных, они почти все тут

Читать полностью…

Scrapy

посмотри тут
https://github.com/xKiian/cloudflare-jsd

Читать полностью…

Scrapy

почитай вот это https://www.zenrows.com/blog/bypass-cloudflare#active-detection-techniques

с клаудфлярей не работал, но акамаи, например, обходился правильными хедерами

какая та другая хрень обходилась правильным tls фингерпринтом, если используешь селениум, вроде он такой же, какой вебдрайвер и используешь

если хочешь без селениума (лучше так и делать), то смотри в сторону curl-impersonate/scrapy-impersonate

ну и прокси еще перепробуй разные, попробуй найти максимально чистые

Читать полностью…

Scrapy

bypass cloudflare - datadome - invisible hcaptcha (nodejs) /channel/+UkXUNTAdfv44YWRk

Читать полностью…

Scrapy

мало
мне предлагали 4000$ за час
было бы так я бы внес вклад в ваш бизнес )
Скинул бы вам свои биткоины )

Читать полностью…

Scrapy

I am professional scraper.
Feel free to ask

Читать полностью…

Scrapy

models:[{id:1512,name:ap,generations:[{id:1280,name:"2",family:["CW0W"],start:2005,end:2012,anyBody:d,bodies:[{id:4170,name:"CW1W",description:l,anyEngine:d,engines:[{id:aq,name:ar,volume:as,fuel:p}]},{id:4171,name:"CW4W",description:l,anyEngine:d,engines:[{id:2452,name:"4B11",volume:1998,fuel:u},{id:aq,name:ar,volume:as,fuel:p},{id:at,name:au,volume:av,fuel:u}]},{id:4172,name:"CW5W",description:l,anyEngine:d,engines:[{id:at,name:au,volume:av,fuel:u}]},{id:4173,name:"CW6W",description:l,anyEngine:d,engines:[{id:2554,name:"6B31",volume:2998,fuel:u}]},{id:4174,name:"CW7W",description:l,anyEngine:d,engines:[{id:2566,name:"4HK",volume:aw,fuel:p},{id:2568,name:"4HN",volume:aw,fuel:p}]},{id:4175,name:"CW8W",description:l,anyEngine:d,engines:[{id:2574,name:"BSY",volume:1968,fuel:p}]}]}],slug:"outlander"}],slug:"mitsubishi"}]

Читать полностью…

Scrapy

ну хедлесс вроде не должен столько жрать

если прям по конкретике, то нужно знать ссылку/дернуть апи, в общем как-то провалиться туда, где ресивится ивент от кнопки

Читать полностью…

Scrapy

Дольше и больше мощности нужно на сервере

Читать полностью…

Scrapy

Здравствуйте, подскажите как с помощью Scrapy собрать "Применимость" с такого рода страниц: https://japanpartsmsk.ru/autopart-product/6325c989d06e88f19c7c49f9/
https://monosnap.com/file/9A1qrNq8ryBzqmO9Jc6ByXW56lcXW8

Это подгружается с помощью Javascript. Не хотелось бы использовать Selenium или что то подобное.

Читать полностью…

Scrapy

да, там действительно есть открытые, один уже раскопал, запускаться - запускается, ищет инфу, но не собирает

Читать полностью…

Scrapy

да и запросы у яндекса там могут хрен пойми какими быть

Читать полностью…

Scrapy

может проще отловить запрос при прокрутке ?

Читать полностью…

Scrapy

доброго вечера
подскажите пожалуйста по Playwright - если у меня динамическая страница с бесконечной лентой товаров, то как сделать итератор над локатором? ну типо я хочу что-то вроде while(myLocator.GetNext()) { ... }

Читать полностью…

Scrapy

Мицубиси и вот эти буквы моделей или чего там

Читать полностью…

Scrapy

Ну так то это не совсем то :).
Это js код с параметрами (d, l, u, au и т.п.), а не данные. Через js2py такие штуки решаю, чтобы не копаться какой параметр куда подставить. Хотя можно и взять в функции параметры, сопоставить со значениями в конце, сделать замены в тексте, преобразовать в формат json и т.п.

Хотя это и есть домашняя работа...

Читать полностью…

Scrapy

вроде такие хедеры

DEFAULT_REQUEST_HEADERS = {
"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8",
"accept-encoding": "gzip, deflate, br, zstd",
"dnt": "1",
"accept-language": "en-US,en;q=0.9",
"priority": "u=0, i",
"sec-ch-ua": '"Brave";v="125", "Chromium";v="125", "Not.A/Brand";v="24"',
"sec-ch-ua-mobile": "?0",
"sec-ch-ua-platform": '"macOS"',
"sec-fetch-dest": "empty",
"sec-fetch-mode": "cors",
"sec-fetch-site": "same-origin",
"sec-fetch-user": "?1",
"sec-gpc": "1",
"upgrade-insecure-requests": "1",
}

sec-fetch-* меняй на те, которые летят с реквестов от
браузера
sec-ch-ua тож меняй в зависимости какой алгоритм фингерпринта используется (хромовский/фаерфоксовский/сафариевский)

Читать полностью…

Scrapy

Народ что используете чтобы обойти cloudflare есть что почитать посмотреть или копировать и посмотреть что к чему

Хочу анимешки загрузить с сайта но cloudflare selenium чекать начал (изначально не чекал примерно месяц)

Читать полностью…

Scrapy

😂

Читать полностью…

Scrapy

Если перевести пишет лохи скиньте 30$, но кажется не там ищешь 😅

Читать полностью…

Scrapy

маппинг айди поколений в названия остаётся на домашнюю работу

Читать полностью…

Scrapy

Просто там всё Scrapy видит, кроме одного итема

Читать полностью…

Scrapy

просто на них самое простое решение (а так же иже с ними crawlee.js)

Читать полностью…

Scrapy

а почему не pw/selenium?

Читать полностью…

Scrapy

Ребят привет, если есть кто умеет парсить маркетплейсы и есть время брать задачи по парсингу сайтов подобной сложности, отпишите пожалуйста

Читать полностью…

Scrapy

Если только в китайских гитах.)

Читать полностью…
Subscribe to a channel