да, медленней, и я свечку не держал, но возможно, в нём, если самому за этим не следить, нет кеша для спаршенных нод
Читать полностью…У меня проблема не с категориями и товарами, а с тем что у каждого отдельного товара, есть страницы (иногда несколько страниц) с лотами продаж этого товара. И на каждой странице с ценами, я собираю информацию из каждой строки таблицы, и в каждой строке есть ссылка, на которую я перехожу чтобы на самой странице лота еще забрать информацию.
Получается я не только собираю много инфы, но еще переходу по этим страницам, делаю много запросов.
ну ты можешь обойтись малыми силами, если конкретно этот парсер уже написан, прикрутив к нему пул или мультитрединг. и еще такой вопрос - почему ты акцентируешь внимание на количестве категорий товаров а не на самом количестве товаров? подспудно возникает очучение, что может ты эти категории вручную запускаешь? как-минимум ты можешь параллельно парсить под 10 этих категорий...
Читать полностью…просто вот такого рода ответы - чел же не про это спрашивает явно, что там у parsel под капотом
Читать полностью…разверни получше как у тебя написана структура, сколько пул, сколько занимает обработка опроса, какой rpm, вот это все.
Читать полностью…смотря как ты его готовишь и как твой парсер с lxml написан. Но в целом, на скрапи будет побыстрее из-за асинхронщины с коробки (хоть она и на твистеде, но тож неплохо). А как ты там lxml писал - мыж не знаем, толи ты мультитрединг юзал, толи aiohttp, толи тупо в лоб товары перебираешь и по pickle рассовываешь сначала...
Читать полностью…Scrapy я не использую,я написал свой парсер с использованием библиотеки lxml для парсинга, сам написал для парсера функции сохранение состояния, запись данных в файл и прочее. Добавил асинхронность и обработку категорий пакетами. Но работает все очень медленно для такого количества данных, которые я забираю из сайта. Я уже оптимизировал как мог, и xpath запросы и очистку памяти принудительную.
Я зашел спросить у вас (те кто работает из scrapy) стоит ли мне попытаться использовать ее, чтобы хоть как-то ускорить процесс парсинга.
Там такого вообще нет) это тупо парсер обычно html текста. Как и lxml. Важно, что вокруг него написано
Читать полностью…да вообще хорошим тоном (имхо) считается не придумывать велосипед, а использовать готовые, проверенные временем инструменты
в данном случае scrapy)
да, но благодаря сахару он медленней, в зависимости от inner-парсера. html5lib там и вот это фсе
Читать полностью…вопрос писан непосредственно парсинг на lxml или на старом медленном bs4 ты написал тут на 5м месте должен быть где-то
Читать полностью…1000 категорий, там по несколько десятков товаров в категории, у каждого товара несколько десятков страниц с лотами.
У меня парсер на lxml это сайт уже 7 дней парсит...и только половину прошел.