Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
а так поначалу надо было выкачать картинку, и впендюрить на нее артикул, с цветом надписи противоположной картинке)
Читать полностью…а потом их стало больше, а потом еще больше. и чота усе резко замедлилося... а я такой - а чо, а в смысле??
Читать полностью…поэтому я вот уже набив шишек вижу где у тебя уже возникают приколы при текущем парсере или могут возникнуть, вида "сохранение состояния" (в чем, в базе, clickhouse, pickle?), эта вот "обработка категорий пакетами" - как оно реализовано? foreach по листу или пул какой. И т.д. и т.п.
Читать полностью…немного перепутал
у jmespath есть кеш нод
у parsel кеш только на трансляцию css
Там такого вообще нет) это тупо парсер обычно html текста. Как и lxml. Важно, что вокруг него написано
Читать полностью…да вообще хорошим тоном (имхо) считается не придумывать велосипед, а использовать готовые, проверенные временем инструменты
в данном случае scrapy)
да, но благодаря сахару он медленней, в зависимости от inner-парсера. html5lib там и вот это фсе
Читать полностью…вопрос писан непосредственно парсинг на lxml или на старом медленном bs4 ты написал тут на 5м месте должен быть где-то
Читать полностью…та там уже и спрашивать не надою На такой скости только последовательное выкачивание страничек. Ну и, сверху, заполировано (подозреваю) не особо хорошей обработкой
Читать полностью…помню как-то писал я скрапи-парсер, тока там еще была логика сохранения картинок (смерживания штук 20 в одну), и он прям мощно тормозил пока я не сделал её асинхронной, а потом и ваще неблокирующей. Но и так значительный прирост был с того, что как оказалось он по одной картинке тянул последовательно и тупо то, что 20 картинок одновременно тянулись увеличило выхлоп неиллюзорно. Так что при желании и на скрапи можно приготовить ололо
Читать полностью…да это пофиг всё когда код блокирующий или запросы по одному
Читать полностью…Ну так то да, но чел уже писал, старался, мало ли он неделю писал код...
Читать полностью…да, медленней, и я свечку не держал, но возможно, в нём, если самому за этим не следить, нет кеша для спаршенных нод
Читать полностью…У меня проблема не с категориями и товарами, а с тем что у каждого отдельного товара, есть страницы (иногда несколько страниц) с лотами продаж этого товара. И на каждой странице с ценами, я собираю информацию из каждой строки таблицы, и в каждой строке есть ссылка, на которую я перехожу чтобы на самой странице лота еще забрать информацию.
Получается я не только собираю много инфы, но еще переходу по этим страницам, делаю много запросов.
ну ты можешь обойтись малыми силами, если конкретно этот парсер уже написан, прикрутив к нему пул или мультитрединг. и еще такой вопрос - почему ты акцентируешь внимание на количестве категорий товаров а не на самом количестве товаров? подспудно возникает очучение, что может ты эти категории вручную запускаешь? как-минимум ты можешь параллельно парсить под 10 этих категорий...
Читать полностью…просто вот такого рода ответы - чел же не про это спрашивает явно, что там у parsel под капотом
Читать полностью…разверни получше как у тебя написана структура, сколько пул, сколько занимает обработка опроса, какой rpm, вот это все.
Читать полностью…я бы начал с вопроса "сколько рпм", но подозреваю что статистики там нет
Читать полностью…