а так поначалу надо было выкачать картинку, и впендюрить на нее артикул, с цветом надписи противоположной картинке)
Читать полностью…а потом их стало больше, а потом еще больше. и чота усе резко замедлилося... а я такой - а чо, а в смысле??
Читать полностью…поэтому я вот уже набив шишек вижу где у тебя уже возникают приколы при текущем парсере или могут возникнуть, вида "сохранение состояния" (в чем, в базе, clickhouse, pickle?), эта вот "обработка категорий пакетами" - как оно реализовано? foreach по листу или пул какой. И т.д. и т.п.
Читать полностью…Там такого вообще нет) это тупо парсер обычно html текста. Как и lxml. Важно, что вокруг него написано
Читать полностью…да вообще хорошим тоном (имхо) считается не придумывать велосипед, а использовать готовые, проверенные временем инструменты
в данном случае scrapy)
да, но благодаря сахару он медленней, в зависимости от inner-парсера. html5lib там и вот это фсе
Читать полностью…вопрос писан непосредственно парсинг на lxml или на старом медленном bs4 ты написал тут на 5м месте должен быть где-то
Читать полностью…та там уже и спрашивать не надою На такой скости только последовательное выкачивание страничек. Ну и, сверху, заполировано (подозреваю) не особо хорошей обработкой
Читать полностью…помню как-то писал я скрапи-парсер, тока там еще была логика сохранения картинок (смерживания штук 20 в одну), и он прям мощно тормозил пока я не сделал её асинхронной, а потом и ваще неблокирующей. Но и так значительный прирост был с того, что как оказалось он по одной картинке тянул последовательно и тупо то, что 20 картинок одновременно тянулись увеличило выхлоп неиллюзорно. Так что при желании и на скрапи можно приготовить ололо
Читать полностью…да, медленней, и я свечку не держал, но возможно, в нём, если самому за этим не следить, нет кеша для спаршенных нод
Читать полностью…У меня проблема не с категориями и товарами, а с тем что у каждого отдельного товара, есть страницы (иногда несколько страниц) с лотами продаж этого товара. И на каждой странице с ценами, я собираю информацию из каждой строки таблицы, и в каждой строке есть ссылка, на которую я перехожу чтобы на самой странице лота еще забрать информацию.
Получается я не только собираю много инфы, но еще переходу по этим страницам, делаю много запросов.
ну ты можешь обойтись малыми силами, если конкретно этот парсер уже написан, прикрутив к нему пул или мультитрединг. и еще такой вопрос - почему ты акцентируешь внимание на количестве категорий товаров а не на самом количестве товаров? подспудно возникает очучение, что может ты эти категории вручную запускаешь? как-минимум ты можешь параллельно парсить под 10 этих категорий...
Читать полностью…просто вот такого рода ответы - чел же не про это спрашивает явно, что там у parsel под капотом
Читать полностью…разверни получше как у тебя написана структура, сколько пул, сколько занимает обработка опроса, какой rpm, вот это все.
Читать полностью…