Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

19 Jun 2024 05:28

Возможно данные подтягиваются через json в коде или XHR.

Читать полностью…

Scrapy

18 Jun 2024 18:58

да и тестировал свой xpath через scrapy shell
и там тоже всегда полностью отрисованная страница приходила

Читать полностью…

Scrapy

18 Jun 2024 18:56

значит и в браузере оно жсон показывает? или всё-таки можно ещё заголовков добавить чтобы было нормально?

Читать полностью…

Scrapy

18 Jun 2024 18:56

ну да
только я написал все сначала через xpath))

Читать полностью…

Scrapy

18 Jun 2024 18:55

при этом кроме UA ничего не меняю
странная штука
ну придется подтягивать через JSON

Читать полностью…

Scrapy

18 Jun 2024 18:53

также и с либой requests
если голый запрос отправляю
страница отрисовывается полностью
стоит добавить UA - та же история

Читать полностью…

Scrapy

18 Jun 2024 18:51

почему то когда отправляю без UA
а с стандартным UA scrapy Scrapy/2.9.0 (+https://scrapy.org)
страница отрисовывается полностью
когда добавляю UA
данные приходят в JSON

Читать полностью…

Scrapy

18 Jun 2024 17:43

респонс меняется
не смотря на то, что остальные заголовки остались такими же

Читать полностью…

Scrapy

18 Jun 2024 17:27

Что значит прекращает работу?

Читать полностью…

Scrapy

18 Jun 2024 17:26

Всем привет.
Столкнулся с такой проблемой. Отправляю запросы на сайт не меняя заголовков и user agent - все окей. Но стоит мне подключить мидлвейр по смене отпечатка браузера и парсер прекращает свою работу.
Вот код моего мидлвейра

class RandomUserAgentMiddleware:
    """
    Мидлвар для применения отпечатка браузера для запросов
    """

    def __init__(self):
        self.user_agents = []

    @classmethod
    def from_crawler(cls, crawler):
        middleware = cls()
        crawler.signals.connect(middleware.spider_opened, signal=signals.spider_opened)
        return middleware

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)
        with open(spider.settings.get('USER_AGENTS')) as file:
            self.user_agents = [line.strip() for line in file]

    def process_request(self, request, spider):
        user_agent = random.choice(self.user_agents)
        request.headers['User-Agent'] = user_agent

Читать полностью…

Scrapy

15 Jun 2024 12:54

зато оплата почасовая

Читать полностью…

Scrapy

15 Jun 2024 12:53

/channel/scrapy_python/106070

Читать полностью…

Scrapy

15 Jun 2024 12:07

Кстати, по идее если я сделаю запрос с заранее подготовленными куки, а потом добавлю в meta cookie-jar, то в последующих запросах достаточно будет указать просто эту "банку"?

Читать полностью…

Scrapy

15 Jun 2024 11:28

ну я хз, мб порядок куки другой или что, но по моему довольно странно выходит

Читать полностью…

Scrapy

15 Jun 2024 11:24

response.request.headers не соответствует тому что было передано в проводе

Читать полностью…

Scrapy

19 Jun 2024 00:49

Всем привет! На сайте названия цветов и другие парасметры разбросаны по разным местам, а еще они написаны в разном формате: могут быть “Color: Deep brown”, “Deep brown”

Как их парсить? Не особо хочется писать всевозможные комбинации всех параметров товара, а объединять все слова и проверять каждое это долго

Читать полностью…

Scrapy

18 Jun 2024 18:57

в браузере через запрос подтягивает
но я сначала не посмотрел
кинул запрос через requests
посмотрел ответ
увидел, что там есть то, что мне нужно
и стал по Xpath вытягивать

Читать полностью…

Scrapy

18 Jun 2024 18:56

сейчас переписываю вот )

Читать полностью…

Scrapy

18 Jun 2024 18:56

JSON наоборот хорошо же

Читать полностью…

Scrapy

18 Jun 2024 18:54

вот мои заголовки

 INFO: Request headers: {b'Accept': [b'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'], b'Accept-Language': [b'en'], b'User-Agent': [b'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'], b'Accept-Encoding': [b'gzip, deflate']}

Читать полностью…

Scrapy

18 Jun 2024 18:51

впервые сталкиваюсь с таким

Читать полностью…

Scrapy

18 Jun 2024 18:50

Свангую что в респонзе код с баном?

Читать полностью…

Scrapy

18 Jun 2024 17:28

он прекращает парсить
то есть кидает запрос на сайт и паук закрывается
причем код ответа 200

Читать полностью…

Scrapy

18 Jun 2024 17:27

При этом пробовал подключить мидлвейр из либы scrapy-user-agents
Но результат такой же
с чем это может быть связано ?

Читать полностью…

Scrapy

18 Jun 2024 03:00

Привет всем. Кто знает, какие сейчас конференции для системных аналитиков проходят годные? Хочу своих отправить куда-нибудь на повышение квалификации… а то у них уже замылилось всё, что можно

Читать полностью…

Scrapy

15 Jun 2024 12:54

дурак я, что поделать

Читать полностью…

Scrapy

15 Jun 2024 12:09

Передать запрос на httpbin, глянуть что реально уходит, сравнить

Читать полностью…

Scrapy

15 Jun 2024 12:01

Так то это нормально. В конце концов (если отбросить неверное формирование запросов) есть ещё тлс фингерпринтинг, с помощью которого requests от scrapy легко отличается

Читать полностью…

Scrapy

15 Jun 2024 11:28

вроде бы не выключал (это scrapy shell)

Читать полностью…

Scrapy

15 Jun 2024 11:24

в настройках куки включил?

Читать полностью…