scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

я в сообщении выше его привел

Читать полностью…

Scrapy

а дальше по гитхабу смотри как пользуются люди

Читать полностью…

Scrapy

Не подскажешь, есть api для просмотра цены товара на озоне?

Читать полностью…

Scrapy

а в чем отличие чистого скрапи и не чистого

Читать полностью…

Scrapy

сразу чтоб потом не писать скажу - где ты там гайд нашел по splash, выкинь его, сейчас scrapy-playwright - новая мета, а scrapy и splash заабандонили емнип

Читать полностью…

Scrapy

я недавно только начал scrapy изучать, спасибо

Читать полностью…

Scrapy

там все в 4 строчки работает, где 1 это импорт)

Читать полностью…

Scrapy

спасибо, гляну, попробую

Читать полностью…

Scrapy

вряд ли самое оптимальное если через браузер делаешь (кмк есть способы переюзать респонсы), ноо как вариант. с озоном так и работает

Читать полностью…

Scrapy

да, я это понимаю, но не совсем понимаю как

Читать полностью…

Scrapy

привет, нужна помощь в парсинге fixprice.
вот моя функция для парсинга:

    def parse(self, response):
products = response.xpath("//div[@class='product__wrapper']")
for product in products:
description = product.xpath(".//a[@class='title']/text()").get()
image = product.xpath(".//img[@class='swiper-lazy']/text()").get()
regular_price = product.xpath(".//div[@class='regular-price']/text()").getall()

yield {
'description': description,
'image': image,
'regular_price': regular_price.strip() if regular_price else None
}


но на выходе удается спарсить только описание:
{"description": "Зубная паста, 150 мл", "image": null, "regular_price": null},

Читать полностью…

Scrapy

а, тут я хз, наверное слишком большой объем конкретно для чатгпт, и надо действительно дообучать аля-улю на датасете, вопрос тока какую llm'ку брать. И насколько она будет адекватная в виде эдакого "поисковика". По чему там щас угорают в последнее время, вроде nvidia что-то выпустила, хз

Читать полностью…

Scrapy

Типа, чтобы писать парсеры? Ну вроде сами мейнтейнеры скрапи по такому угорали, и поначалу даже бесплатно, но теперь это за деньги и в скрапинхабе

Читать полностью…

Scrapy

Network в браузере, жмакаешь вкладки, смотришь все запросы и fetch/xhr в частности и js'ы тоже посматриваешь. Посмотри тут про network tool в частности: https://docs.scrapy.org/en/2.11/topics/dynamic-content.html

Читать полностью…

Scrapy

я чет и через браузер пытался отловить и как-то через wireshark, но что-то не получалось

Читать полностью…

Scrapy

Мне нужно узнать URL эндпоинта который выдает цену на товар

Читать полностью…

Scrapy

вот отсюда читай
/channel/scrapy_python/108410

Читать полностью…

Scrapy

плейрайт/селениум/сплеш аля браузер поднимают через него скачивают юрл и выполняют прилетаемый js чтоб заполнить инфой dom (если такая есть)

просто скрапи скачивает юрл как курл или реквест

Читать полностью…

Scrapy

(это при условии если тебе влом и на ресурсы пофиг и неохота на чистом прям скрапи все делать): https://github.com/scrapy-plugins/scrapy-playwright

Читать полностью…

Scrapy

теперь знаю, что нужно обратиться к апишке

Читать полностью…

Scrapy

в принципе chomjs там даж не нужен, можно обойтись response.json(), вряд ли там скорость чомпжса нужна

Читать полностью…

Scrapy

ну тип. нахрена там сплеш ваще городить:

Читать полностью…

Scrapy

если он внутри html, можно через parsel или тупо регуляркой выделить кусок json и натравить на него стандартную питоновскую либу или лучше и быстрее chompjs
если отдельным запросом то об response.json(), где response = requests.get('твой запрос') (или post), у scrapy тоже есть методы соответствующие для получения json-результата, аля https://docs.scrapy.org/en/master/topics/request-response.html#jsonresponse-objects

Читать полностью…

Scrapy

я подсмотрел с гитхаба:
- цепани урл и curl-ом достань

Читать полностью…

Scrapy

я использую splash, если спарсить html страничку, то можно увидеть, что данные передаются через json, как я понимаю, но как тогда мне их достать

Читать полностью…

Scrapy

спросил у чатгпт как это делать, и в частности "Is this fine tuning achievable in more automatic way? I.e. it should recognize threads of topics and right answers from chat and if they were solved or not by itself? Он говорит копай в сторону automatic data labeling (self-supervided learning), NSP, MLM, и еще кучу аббревиатур, тока готовь мол ресурсы в виде жепеу.

Читать полностью…

Scrapy

чтобы на вопросы отвечать видимо

Читать полностью…

Scrapy

а! получилось найти) я запутался из-за отображения в фаерфоксе кривого)

Читать полностью…

Scrapy

я просто почему интересуюсь - мне аналогично еще для 3-4 маркетплейсов делать))

Читать полностью…

Scrapy

подскажите пожалуйста, а как вообще вычислили, что у апишка озона - вот этот ендпоинт? api/composer-api.bx/page/json/v2?url=

Читать полностью…
Subscribe to a channel