Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
пайплайном, как я понимаю
2024-06-20 15:20:30 [scrapy.pipelines.files] DEBUG: File (cached):Читать полностью…
Привет. Можно ли динамически определить allow_domains? То есть, в пауке sitecrawl я получаю сайт из базы данных в методе start_requests и хотел бы обновлять allow_domains в этом методе.
Читать полностью…понял, хорошо
думал что кроме как в parse нигде больше нельзя yield item
parse теперь станет start_request? не надо будет ещё писать логику чтоб parse ещё возвращал итемы?
Читать полностью…перед основными реквестами надо послать несколько вспомогательных
Читать полностью…Надо сделать нейронку легковесную, чтобы в нее текст со страницы грузишь, а она потом выдает в нужном формате данные.
Пока хз как это делать и куда копать))
{'Descrizione': [], 'Details': ['▪ Made in: Spain', '▪ Composition: 100% Calfskin', '▪ Model Code: E619Z20X03 2544', '▪ Item ID: 8560691806541'], 'Taglia e vestibilità': [], 'Spedizioni e resi': []}
Читать полностью…почему image pipeline использует кешированный ответ, даже при наличии в настройках
FILES_EXPIRES = -1Читать полностью…
IMAGES_EXPIRES= -1
ну понятно там еще надо бы желательно файнтюнить на своих именно данных, как-то над моделькой
Читать полностью…а сколько всего товаров и как часто их надо собирать? Если прям много и часто, то можно поискать модельки тут https://huggingface.co/models
и там же примерно как их скрещивать, ну для экспериментов можно отсюда начать:
https://github.com/oobabooga/text-generation-webui
ЗЫ и все это проще уже делать не в процессе, а постфактум, на собранных данных (чувствую себя капитаном очевидностью)
Если к примеру пойти на https://huggingface.co/chat , там можно поиграться с некоторыми модельками, если, к примеру задать такой текст:{'Details': ['▪️ Made in: Spain', '▪️ Composition: 100% Calfskin', '▪️ Model Code: E619Z20X03 2544', '▪️ Item ID: 8560691806541'], 'Taglia e vestibilità': [], 'Spedizioni e resi': [], 'Descrizione': ['Deep brown']}
и такой промпт:
нельзя, но можно заменить мидлварь своей, менее производительной
Читать полностью…вы даже туториал не читали что ли? как вы вообще пауков-то пишете
Читать полностью…или с любой функции можно yield item и scrapy сам поймёт?
Читать полностью…отправить запрос на data;, и перенести начальную логику в parse
Читать полностью…Ну, еще можно таблицу, с номерами и асинк функцию, которая будет каждое слово через библиотеку с цветами прогонять и потом по обновлять запись если это цвет. Но это все = долго
Читать полностью…два варианта, либо собрать глазами всё что есть и написать извлекалку которая работает с тем что есть (без гарантий что она будет и с будущим контентом работать), либо мл
Читать полностью…ну кстати идея то не совсем бредовая
было бы классно иметь свой сервис с натренированной моделькой, которая классифицирует итемы из разных сайтов под один общий вид)