1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
подскажите пожалуйста, никто не сталкивался с таким добром? увы, на гитхабе нет адекватных примеров парсеров ЯМы
Читать полностью…
а, я понял, она тебе и нужна чтоб посмотреть network. Нууу, может быть какой-то id типа risk_id=E2557003253339635712 говорит что эта капча челлендж для этого запроса уже устарела
Читать полностью…
общий ответ - да, некоторые сайты так делают, вот тебе пример, открой сайт, инструменты разработчика и перейди во вкладку network: https://himovies.to/home
Читать полностью…
Юзаю селениум. Может ли сайт видеть, что я открыл инструменты разраба? Первым делом при загрузке страницы выскакивает капча. когда её решаю с открытой вкладкой network что-бы чекнуть ответ, выбивает ошибку превышено время ожидания, но там ничего не превышено
Читать полностью…
хм, ну, в качестве "делать постоянно, что бы не задумываться в будущем" - оно да, оно супер...
кстати, у OSM прикольная практика :). Они требуют уникализировать себя, хз, нафуя это делается, но, это есть :)
чтобы сервер видел ожидаемые им для данного юзерагента заголовки
Читать полностью…
Всем привет, есть ли какое-то бесплатное промежуточное по для ротации заголовков, а не только юзер агента?
Вообще может есть какой-то минимальный мастхэв набор для скрапинга?
@whenistheregonnabepeace - я твои репорты не понимаю.... ты, просто, пингуй :)
Читать полностью…
перепроверил, оказалось, что первый товар такой же, остальные то ли в разброс, то ли просто не все
Читать полностью…
import requests
url = "https://api.fix-price.com/buyer/v1/product/in/kosmetika-i-gigiena/ukhod-za-polostyu-rta?page=1&limit=24&sort=sold"
response = requests.post(url)
data = response.json()
print(data)
я нашел в чем была проблема, у меня ведь post запрос, но в коде я передавал как "response = requests.get(url, headers=headers)", я просто заменил на post
Читать полностью…
собсна я вот чекнул - с risk_id после капчи пишет про этот таймаут, а если затереть этот risk_id на конце, тогда пускает. (все это тестилось без открытой network.)
Читать полностью…
А почему у тебя в ссылке уже вбита капча челлендж с редиректом? Ты ее откуда-то получаешь в таком виде?
Читать полностью…
причем ротация юзерагентов, как минимум через фейкер - не прокатывает. Там нужны именно не популярные юзерагенты, это как минимум
Читать полностью…
Задача скорее всего звучит так - сделать максимально человеко-подобные заголовки
Читать полностью…
https://github.com/daijro/browserforge
чегой то такое есть.... хз, насколько рабочее. Мне как то везло, ни разу не требовалось заголовки именно крутить
Россия не раз останавливала тех, кто рвался к мировому господству, так будет и впредь — Путин. Он уверен, что само существование России является залогом успешного развития мира. @bankrollo
Читать полностью…
ну вот я бы перепроверил, учитывая что у запроса в браузере есть тело
Читать полностью…
если я не совсем уж и пиво, то я получаю эти данные с json'a ведь, верно?
Читать полностью…
(это тоже надо было проверять, но я поверил что у вас гет)
Читать полностью…
прочитать базовую документацию по используемой библиотеке
Читать полностью…