Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

05 November 2024 21:57

сразу чтоб потом не писать скажу - где ты там гайд нашел по splash, выкинь его, сейчас scrapy-playwright - новая мета, а scrapy и splash заабандонили емнип

Читать полностью…

Scrapy

05 November 2024 21:55

я недавно только начал scrapy изучать, спасибо

Читать полностью…

Scrapy

05 November 2024 21:50

там все в 4 строчки работает, где 1 это импорт)

Читать полностью…

Scrapy

05 November 2024 21:49

спасибо, гляну, попробую

Читать полностью…

Scrapy

05 November 2024 21:19

вряд ли самое оптимальное если через браузер делаешь (кмк есть способы переюзать респонсы), ноо как вариант. с озоном так и работает

Читать полностью…

Scrapy

05 November 2024 20:58

да, я это понимаю, но не совсем понимаю как

Читать полностью…

Scrapy

05 November 2024 20:50

привет, нужна помощь в парсинге fixprice.
вот моя функция для парсинга:

    def parse(self, response):
        products = response.xpath("//div[@class='product__wrapper']")
        for product in products:
            description = product.xpath(".//a[@class='title']/text()").get()
            image = product.xpath(".//img[@class='swiper-lazy']/text()").get()
            regular_price = product.xpath(".//div[@class='regular-price']/text()").getall()

            yield {
                'description': description,
                'image': image,
                'regular_price': regular_price.strip() if regular_price else None
            }

но на выходе удается спарсить только описание:

{"description": "Зубная паста, 150 мл", "image": null, "regular_price": null},

Читать полностью…

Scrapy

05 November 2024 17:05

а, тут я хз, наверное слишком большой объем конкретно для чатгпт, и надо действительно дообучать аля-улю на датасете, вопрос тока какую llm'ку брать. И насколько она будет адекватная в виде эдакого "поисковика". По чему там щас угорают в последнее время, вроде nvidia что-то выпустила, хз

Читать полностью…

Scrapy

05 November 2024 16:58

Типа, чтобы писать парсеры? Ну вроде сами мейнтейнеры скрапи по такому угорали, и поначалу даже бесплатно, но теперь это за деньги и в скрапинхабе

Читать полностью…

Scrapy

05 November 2024 16:57

Network в браузере, жмакаешь вкладки, смотришь все запросы и fetch/xhr в частности и js'ы тоже посматриваешь. Посмотри тут про network tool в частности: https://docs.scrapy.org/en/2.11/topics/dynamic-content.html

Читать полностью…

Scrapy

05 November 2024 08:37

я чет и через браузер пытался отловить и как-то через wireshark, но что-то не получалось

Читать полностью…

Scrapy

05 November 2024 03:46

всем привет
никто не дообучал llmку по этому чату, реддиту, дс, документации и исходному коду scrapy?
сейчас просто чатгпт и прочие очень плохо галлюцинируют по этой теме)

Читать полностью…

Scrapy

04 November 2024 18:39

я бы в текущих реалиях если уж брать браузер, на playwright рекомендовал крутить. Селен брать если тока на нем собаку съел

Читать полностью…

Scrapy

04 November 2024 18:30

Ну я как утверждение написал, но поправьте, если не прав)

Читать полностью…

Scrapy

04 November 2024 18:26

я покупал примерно по 1,2 за проксю на месяц германские, юзаю под чат гпт и заблокированные источники, работает норм

Читать полностью…

Scrapy

05 November 2024 21:56

теперь знаю, что нужно обратиться к апишке

Читать полностью…

Scrapy

05 November 2024 21:51

в принципе chomjs там даж не нужен, можно обойтись response.json(), вряд ли там скорость чомпжса нужна

Читать полностью…

Scrapy

05 November 2024 21:49

ну тип. нахрена там сплеш ваще городить:

Читать полностью…

Scrapy

05 November 2024 21:49

если он внутри html, можно через parsel или тупо регуляркой выделить кусок json и натравить на него стандартную питоновскую либу или лучше и быстрее chompjs
если отдельным запросом то об response.json(), где response = requests.get('твой запрос') (или post), у scrapy тоже есть методы соответствующие для получения json-результата, аля https://docs.scrapy.org/en/master/topics/request-response.html#jsonresponse-objects

Читать полностью…

Scrapy

05 November 2024 21:18

я подсмотрел с гитхаба:
- цепани урл и curl-ом достань

Читать полностью…

Scrapy

05 November 2024 20:52

я использую splash, если спарсить html страничку, то можно увидеть, что данные передаются через json, как я понимаю, но как тогда мне их достать

Читать полностью…

Scrapy

05 November 2024 17:31

спросил у чатгпт как это делать, и в частности "Is this fine tuning achievable in more automatic way? I.e. it should recognize threads of topics and right answers from chat and if they were solved or not by itself? Он говорит копай в сторону automatic data labeling (self-supervided learning), NSP, MLM, и еще кучу аббревиатур, тока готовь мол ресурсы в виде жепеу.

Читать полностью…

Scrapy

05 November 2024 16:59

чтобы на вопросы отвечать видимо

Читать полностью…

Scrapy

05 November 2024 16:58

а! получилось найти) я запутался из-за отображения в фаерфоксе кривого)

Читать полностью…

Scrapy

05 November 2024 10:07

я просто почему интересуюсь - мне аналогично еще для 3-4 маркетплейсов делать))

Читать полностью…

Scrapy

05 November 2024 08:37

подскажите пожалуйста, а как вообще вычислили, что у апишка озона - вот этот ендпоинт? api/composer-api.bx/page/json/v2?url=

Читать полностью…

Scrapy

04 November 2024 19:55

Cf даже скрапи не детектит, если он не в бастионе и подрубить туда cloudscraper, которому 100 лет в обед) А если cf в бастионе, селен там также обосрется, даже зачастую с дебагпортом и всеми свистелками)

Читать полностью…

Scrapy

04 November 2024 18:31

не, всё верно, не берут, может только для некоторых тарифов проксей

Читать полностью…

Scrapy

04 November 2024 18:29

А, они не берут за трафик дополнительно

Читать полностью…

Scrapy

04 November 2024 18:22

смотря какие, но можно и дешевле

Читать полностью…