Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
да и тестировал свой xpath через scrapy shell
и там тоже всегда полностью отрисованная страница приходила
значит и в браузере оно жсон показывает? или всё-таки можно ещё заголовков добавить чтобы было нормально?
Читать полностью…при этом кроме UA ничего не меняю
странная штука
ну придется подтягивать через JSON
также и с либой requests
если голый запрос отправляю
страница отрисовывается полностью
стоит добавить UA - та же история
почему то когда отправляю без UA
а с стандартным UA scrapy Scrapy/2.9.0 (+https://scrapy.org)
страница отрисовывается полностью
когда добавляю UA
данные приходят в JSON
респонс меняется
не смотря на то, что остальные заголовки остались такими же
Всем привет.
Столкнулся с такой проблемой. Отправляю запросы на сайт не меняя заголовков и user agent - все окей. Но стоит мне подключить мидлвейр по смене отпечатка браузера и парсер прекращает свою работу.
Вот код моего мидлвейра
class RandomUserAgentMiddleware:Читать полностью…
"""
Мидлвар для применения отпечатка браузера для запросов
"""
def __init__(self):
self.user_agents = []
@classmethod
def from_crawler(cls, crawler):
middleware = cls()
crawler.signals.connect(middleware.spider_opened, signal=signals.spider_opened)
return middleware
def spider_opened(self, spider):
spider.logger.info('Spider opened: %s' % spider.name)
with open(spider.settings.get('USER_AGENTS')) as file:
self.user_agents = [line.strip() for line in file]
def process_request(self, request, spider):
user_agent = random.choice(self.user_agents)
request.headers['User-Agent'] = user_agent
Кстати, по идее если я сделаю запрос с заранее подготовленными куки, а потом добавлю в meta cookie-jar, то в последующих запросах достаточно будет указать просто эту "банку"?
Читать полностью…ну я хз, мб порядок куки другой или что, но по моему довольно странно выходит
Читать полностью…response.request.headers не соответствует тому что было передано в проводе
Читать полностью…Всем привет! На сайте названия цветов и другие парасметры разбросаны по разным местам, а еще они написаны в разном формате: могут быть “Color: Deep brown”, “Deep brown”
Как их парсить? Не особо хочется писать всевозможные комбинации всех параметров товара, а объединять все слова и проверять каждое это долго
в браузере через запрос подтягивает
но я сначала не посмотрел
кинул запрос через requests
посмотрел ответ
увидел, что там есть то, что мне нужно
и стал по Xpath вытягивать
вот мои заголовки
INFO: Request headers: {b'Accept': [b'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'], b'Accept-Language': [b'en'], b'User-Agent': [b'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'], b'Accept-Encoding': [b'gzip, deflate']}Читать полностью…
он прекращает парсить
то есть кидает запрос на сайт и паук закрывается
причем код ответа 200
При этом пробовал подключить мидлвейр из либы scrapy-user-agents
Но результат такой же
с чем это может быть связано ?
Привет всем. Кто знает, какие сейчас конференции для системных аналитиков проходят годные? Хочу своих отправить куда-нибудь на повышение квалификации… а то у них уже замылилось всё, что можно
Читать полностью…Передать запрос на httpbin, глянуть что реально уходит, сравнить
Читать полностью…Так то это нормально. В конце концов (если отбросить неверное формирование запросов) есть ещё тлс фингерпринтинг, с помощью которого requests от scrapy легко отличается
Читать полностью…