scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Возможно данные подтягиваются через json в коде или XHR.

Читать полностью…

Scrapy

да и тестировал свой xpath через scrapy shell
и там тоже всегда полностью отрисованная страница приходила

Читать полностью…

Scrapy

значит и в браузере оно жсон показывает? или всё-таки можно ещё заголовков добавить чтобы было нормально?

Читать полностью…

Scrapy

ну да
только я написал все сначала через xpath))

Читать полностью…

Scrapy

при этом кроме UA ничего не меняю
странная штука
ну придется подтягивать через JSON

Читать полностью…

Scrapy

также и с либой requests
если голый запрос отправляю
страница отрисовывается полностью
стоит добавить UA - та же история

Читать полностью…

Scrapy

почему то когда отправляю без UA
а с стандартным UA scrapy Scrapy/2.9.0 (+https://scrapy.org)
страница отрисовывается полностью
когда добавляю UA
данные приходят в JSON

Читать полностью…

Scrapy

респонс меняется
не смотря на то, что остальные заголовки остались такими же

Читать полностью…

Scrapy

Что значит прекращает работу?

Читать полностью…

Scrapy

Всем привет.
Столкнулся с такой проблемой. Отправляю запросы на сайт не меняя заголовков и user agent - все окей. Но стоит мне подключить мидлвейр по смене отпечатка браузера и парсер прекращает свою работу.
Вот код моего мидлвейра

class RandomUserAgentMiddleware:
"""
Мидлвар для применения отпечатка браузера для запросов
"""

def __init__(self):
self.user_agents = []

@classmethod
def from_crawler(cls, crawler):
middleware = cls()
crawler.signals.connect(middleware.spider_opened, signal=signals.spider_opened)
return middleware

def spider_opened(self, spider):
spider.logger.info('Spider opened: %s' % spider.name)
with open(spider.settings.get('USER_AGENTS')) as file:
self.user_agents = [line.strip() for line in file]

def process_request(self, request, spider):
user_agent = random.choice(self.user_agents)
request.headers['User-Agent'] = user_agent

Читать полностью…

Scrapy

зато оплата почасовая

Читать полностью…

Scrapy

/channel/scrapy_python/106070

Читать полностью…

Scrapy

Кстати, по идее если я сделаю запрос с заранее подготовленными куки, а потом добавлю в meta cookie-jar, то в последующих запросах достаточно будет указать просто эту "банку"?

Читать полностью…

Scrapy

ну я хз, мб порядок куки другой или что, но по моему довольно странно выходит

Читать полностью…

Scrapy

response.request.headers не соответствует тому что было передано в проводе

Читать полностью…

Scrapy

Всем привет! На сайте названия цветов и другие парасметры разбросаны по разным местам, а еще они написаны в разном формате: могут быть “Color: Deep brown”, “Deep brown”

Как их парсить? Не особо хочется писать всевозможные комбинации всех параметров товара, а объединять все слова и проверять каждое это долго

Читать полностью…

Scrapy

в браузере через запрос подтягивает
но я сначала не посмотрел
кинул запрос через requests
посмотрел ответ
увидел, что там есть то, что мне нужно
и стал по Xpath вытягивать

Читать полностью…

Scrapy

сейчас переписываю вот )

Читать полностью…

Scrapy

JSON наоборот хорошо же

Читать полностью…

Scrapy

вот мои заголовки

 INFO: Request headers: {b'Accept': [b'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'], b'Accept-Language': [b'en'], b'User-Agent': [b'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'], b'Accept-Encoding': [b'gzip, deflate']}

Читать полностью…

Scrapy

впервые сталкиваюсь с таким

Читать полностью…

Scrapy

Свангую что в респонзе код с баном?

Читать полностью…

Scrapy

он прекращает парсить
то есть кидает запрос на сайт и паук закрывается
причем код ответа 200

Читать полностью…

Scrapy

При этом пробовал подключить мидлвейр из либы scrapy-user-agents
Но результат такой же
с чем это может быть связано ?

Читать полностью…

Scrapy

Привет всем. Кто знает, какие сейчас конференции для системных аналитиков проходят годные? Хочу своих отправить куда-нибудь на повышение квалификации… а то у них уже замылилось всё, что можно

Читать полностью…

Scrapy

дурак я, что поделать

Читать полностью…

Scrapy

Передать запрос на httpbin, глянуть что реально уходит, сравнить

Читать полностью…

Scrapy

Так то это нормально. В конце концов (если отбросить неверное формирование запросов) есть ещё тлс фингерпринтинг, с помощью которого requests от scrapy легко отличается

Читать полностью…

Scrapy

вроде бы не выключал (это scrapy shell)

Читать полностью…

Scrapy

в настройках куки включил?

Читать полностью…
Subscribe to a channel