1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Привет. Можно ли динамически определить allow_domains? То есть, в пауке sitecrawl я получаю сайт из базы данных в методе start_requests и хотел бы обновлять allow_domains в этом методе.
Читать полностью…
понял, хорошо
думал что кроме как в parse нигде больше нельзя yield item
parse теперь станет start_request? не надо будет ещё писать логику чтоб parse ещё возвращал итемы?
Читать полностью…
перед основными реквестами надо послать несколько вспомогательных
Читать полностью…
Надо сделать нейронку легковесную, чтобы в нее текст со страницы грузишь, а она потом выдает в нужном формате данные.
Пока хз как это делать и куда копать))
{'Descrizione': [], 'Details': ['▪ Made in: Spain', '▪ Composition: 100% Calfskin', '▪ Model Code: E619Z20X03 2544', '▪ Item ID: 8560691806541'], 'Taglia e vestibilità': [], 'Spedizioni e resi': []}
Читать полностью…
Возможно данные подтягиваются через json в коде или XHR.
Читать полностью…
да и тестировал свой xpath через scrapy shell
и там тоже всегда полностью отрисованная страница приходила
значит и в браузере оно жсон показывает? или всё-таки можно ещё заголовков добавить чтобы было нормально?
Читать полностью…
вы даже туториал не читали что ли? как вы вообще пауков-то пишете
Читать полностью…
или с любой функции можно yield item и scrapy сам поймёт?
Читать полностью…
отправить запрос на data;, и перенести начальную логику в parse
Читать полностью…
как сделать костыль чтоб start_requests был асинхронным?
Читать полностью…
Ну, еще можно таблицу, с номерами и асинк функцию, которая будет каждое слово через библиотеку с цветами прогонять и потом по обновлять запись если это цвет. Но это все = долго
Читать полностью…
два варианта, либо собрать глазами всё что есть и написать извлекалку которая работает с тем что есть (без гарантий что она будет и с будущим контентом работать), либо мл
Читать полностью…
ну кстати идея то не совсем бредовая
было бы классно иметь свой сервис с натренированной моделькой, которая классифицирует итемы из разных сайтов под один общий вид)
Всем привет! На сайте названия цветов и другие парасметры разбросаны по разным местам, а еще они написаны в разном формате: могут быть “Color: Deep brown”, “Deep brown”
Как их парсить? Не особо хочется писать всевозможные комбинации всех параметров товара, а объединять все слова и проверять каждое это долго
в браузере через запрос подтягивает
но я сначала не посмотрел
кинул запрос через requests
посмотрел ответ
увидел, что там есть то, что мне нужно
и стал по Xpath вытягивать