scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

пайплайном, как я понимаю

2024-06-20 15:20:30 [scrapy.pipelines.files] DEBUG: File (cached):

Читать полностью…

Scrapy

Спасибо огромно, почитаю

Читать полностью…

Scrapy

то оно даже чото похожее на правду выдавать начинает:

Читать полностью…

Scrapy

и возможно были какие-нибудь примеры кода в трекере

Читать полностью…

Scrapy

Привет. Можно ли динамически определить allow_domains? То есть, в пауке sitecrawl я получаю сайт из базы данных в методе start_requests и хотел бы обновлять allow_domains в этом методе.

Читать полностью…

Scrapy

понял, хорошо
думал что кроме как в parse нигде больше нельзя yield item

Читать полностью…

Scrapy

parse теперь станет start_request? не надо будет ещё писать логику чтоб parse ещё возвращал итемы?

Читать полностью…

Scrapy

и главное оставить чтоб parse был генератором итемов?

Читать полностью…

Scrapy

перед основными реквестами надо послать несколько вспомогательных

Читать полностью…

Scrapy

Надо сделать нейронку легковесную, чтобы в нее текст со страницы грузишь, а она потом выдает в нужном формате данные.

Пока хз как это делать и куда копать))

Читать полностью…

Scrapy

первый вариант это регексы/сравнение со списком цветов

Читать полностью…

Scrapy

Иногда просто цвет пишут

Читать полностью…

Scrapy

{'Descrizione': [], 'Details': ['▪ Made in: Spain', '▪ Composition: 100% Calfskin', '▪ Model Code: E619Z20X03 2544', '▪ Item ID: 8560691806541'], 'Taglia e vestibilità': [], 'Spedizioni e resi': []}

Читать полностью…

Scrapy

Да, я тут думал про NLP

Читать полностью…

Scrapy

гпт прикручиваем без вариантов🧢❌

Читать полностью…

Scrapy

почему image pipeline использует кешированный ответ, даже при наличии в настройках

FILES_EXPIRES = -1
IMAGES_EXPIRES= -1

Читать полностью…

Scrapy

ну понятно там еще надо бы желательно файнтюнить на своих именно данных, как-то над моделькой

Читать полностью…

Scrapy

а сколько всего товаров и как часто их надо собирать? Если прям много и часто, то можно поискать модельки тут https://huggingface.co/models
и там же примерно как их скрещивать, ну для экспериментов можно отсюда начать:
https://github.com/oobabooga/text-generation-webui
ЗЫ и все это проще уже делать не в процессе, а постфактум, на собранных данных (чувствую себя капитаном очевидностью)

Если к примеру пойти на https://huggingface.co/chat , там можно поиграться с некоторыми модельками, если, к примеру задать такой текст:
{'Details': ['▪️ Made in: Spain', '▪️ Composition: 100% Calfskin', '▪️ Model Code: E619Z20X03 2544', '▪️ Item ID: 8560691806541'], 'Taglia e vestibilità': [], 'Spedizioni e resi': [], 'Descrizione': ['Deep brown']}
и такой промпт:

Читать полностью…

Scrapy

нельзя, но можно заменить мидлварь своей, менее производительной

Читать полностью…

Scrapy

вы даже туториал не читали что ли? как вы вообще пауков-то пишете

Читать полностью…

Scrapy

вы можете использовать несколько колбэков

Читать полностью…

Scrapy

или с любой функции можно yield item и scrapy сам поймёт?

Читать полностью…

Scrapy

отправить запрос на data;, и перенести начальную логику в parse

Читать полностью…

Scrapy

как сделать костыль чтоб start_requests был асинхронным?

Читать полностью…

Scrapy

Ну, еще можно таблицу, с номерами и асинк функцию, которая будет каждое слово через библиотеку с цветами прогонять и потом по обновлять запись если это цвет. Но это все = долго

Читать полностью…

Scrapy

два варианта, либо собрать глазами всё что есть и написать извлекалку которая работает с тем что есть (без гарантий что она будет и с будущим контентом работать), либо мл

Читать полностью…

Scrapy

выглядит как написанное человеком, да

Читать полностью…

Scrapy

так правда описания?

Читать полностью…

Scrapy

ну кстати идея то не совсем бредовая
было бы классно иметь свой сервис с натренированной моделькой, которая классифицирует итемы из разных сайтов под один общий вид)

Читать полностью…

Scrapy

Если это всё в описании, которое люди пишут, то тут упс

Читать полностью…
Subscribe to a channel