scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

судя по языку айпи нерусский, да?

Читать полностью…

Scrapy

подскажите пожалуйста, никто не сталкивался с таким добром? увы, на гитхабе нет адекватных примеров парсеров ЯМы

Читать полностью…

Scrapy

а, я понял, она тебе и нужна чтоб посмотреть network. Нууу, может быть какой-то id типа risk_id=E2557003253339635712 говорит что эта капча челлендж для этого запроса уже устарела

Читать полностью…

Scrapy

общий ответ - да, некоторые сайты так делают, вот тебе пример, открой сайт, инструменты разработчика и перейди во вкладку network: https://himovies.to/home

Читать полностью…

Scrapy

Юзаю селениум. Может ли сайт видеть, что я открыл инструменты разраба? Первым делом при загрузке страницы выскакивает капча. когда её решаю с открытой вкладкой network что-бы чекнуть ответ, выбивает ошибку превышено время ожидания, но там ничего не превышено

Читать полностью…

Scrapy

хм, ну, в качестве "делать постоянно, что бы не задумываться в будущем" - оно да, оно супер...
кстати, у OSM прикольная практика :). Они требуют уникализировать себя, хз, нафуя это делается, но, это есть :)

Читать полностью…

Scrapy

чтобы сервер видел ожидаемые им для данного юзерагента заголовки

Читать полностью…

Scrapy

Ради любопытства - зачем ротировать заголовки?

Читать полностью…

Scrapy

Всем привет, есть ли какое-то бесплатное промежуточное по для ротации заголовков, а не только юзер агента?
Вообще может есть какой-то минимальный мастхэв набор для скрапинга?

Читать полностью…

Scrapy

@whenistheregonnabepeace - я твои репорты не понимаю.... ты, просто, пингуй :)

Читать полностью…

Scrapy

перепроверил, оказалось, что первый товар такой же, остальные то ли в разброс, то ли просто не все

Читать полностью…

Scrapy

ну либо я что-то делаю не верно

Читать полностью…

Scrapy

import requests


url = "https://api.fix-price.com/buyer/v1/product/in/kosmetika-i-gigiena/ukhod-za-polostyu-rta?page=1&limit=24&sort=sold"
response = requests.post(url)
data = response.json()
print(data)

я заменил get, на post, и я не получаю bad request, а получаю те самые данные с апишки, как оказалось хедеры и куки не нужно передавать, работает и без этого

Читать полностью…

Scrapy

я нашел в чем была проблема, у меня ведь post запрос, но в коде я передавал как "response = requests.get(url, headers=headers)", я просто заменил на post

Читать полностью…

Scrapy

вы ещё и тело запроса не заметили

Читать полностью…

Scrapy

а в чём вопрос? яндекс капчу показывает и людям

Читать полностью…

Scrapy

собсна я вот чекнул - с risk_id после капчи пишет про этот таймаут, а если затереть этот risk_id на конце, тогда пускает. (все это тестилось без открытой network.)

Читать полностью…

Scrapy

А почему у тебя в ссылке уже вбита капча челлендж с редиректом? Ты ее откуда-то получаешь в таком виде?

Читать полностью…

Scrapy

https://th.shein.com/risk/challenge?captcha_type=905&redirection=https://th.shein.com%2FSHEIN-EZwear-Women-s-Summer-Casual-Short-Sleeve-T-Shirt-With-Letter-Print-Round-Neck-p-35046621.html%3Fsrc_module%3DAll%26src_identifier%3Don%3DPRODUCT_ITEMS_COMPONENT%60cn%3Dinfoflow%60hz%3D0%60ps%3D12_1_0%60jc%3Dreal_2030%26src_tab_page_id%3Dpage_home1720700614223%26mallCode%3D1%26imgRatio%3D3-4&risk-id=E2557003253339635712

Читать полностью…

Scrapy

причем ротация юзерагентов, как минимум через фейкер - не прокатывает. Там нужны именно не популярные юзерагенты, это как минимум

Читать полностью…

Scrapy

кстати, пока такое не требовалось
в моих задачах

Читать полностью…

Scrapy

Задача скорее всего звучит так - сделать максимально человеко-подобные заголовки

Читать полностью…

Scrapy

https://github.com/daijro/browserforge

чегой то такое есть.... хз, насколько рабочее. Мне как то везло, ни разу не требовалось заголовки именно крутить

Читать полностью…

Scrapy

Россия не раз останавливала тех, кто рвался к мировому господству, так будет и впредь — Путин. Он уверен, что само существование России является залогом успешного развития мира. @bankrollo

Читать полностью…

Scrapy

Hi who need a scraper bot?

Читать полностью…

Scrapy

ну вот я бы перепроверил, учитывая что у запроса в браузере есть тело

Читать полностью…

Scrapy

ну если они правда те самые то почему нет

Читать полностью…

Scrapy

если я не совсем уж и пиво, то я получаю эти данные с json'a ведь, верно?

Читать полностью…

Scrapy

(это тоже надо было проверять, но я поверил что у вас гет)

Читать полностью…

Scrapy

прочитать базовую документацию по используемой библиотеке

Читать полностью…
Subscribe to a channel