Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
да это пофиг всё когда код блокирующий или запросы по одному
Читать полностью…Ну так то да, но чел уже писал, старался, мало ли он неделю писал код...
Читать полностью…да, медленней, и я свечку не держал, но возможно, в нём, если самому за этим не следить, нет кеша для спаршенных нод
Читать полностью…У меня проблема не с категориями и товарами, а с тем что у каждого отдельного товара, есть страницы (иногда несколько страниц) с лотами продаж этого товара. И на каждой странице с ценами, я собираю информацию из каждой строки таблицы, и в каждой строке есть ссылка, на которую я перехожу чтобы на самой странице лота еще забрать информацию.
Получается я не только собираю много инфы, но еще переходу по этим страницам, делаю много запросов.
ну ты можешь обойтись малыми силами, если конкретно этот парсер уже написан, прикрутив к нему пул или мультитрединг. и еще такой вопрос - почему ты акцентируешь внимание на количестве категорий товаров а не на самом количестве товаров? подспудно возникает очучение, что может ты эти категории вручную запускаешь? как-минимум ты можешь параллельно парсить под 10 этих категорий...
Читать полностью…просто вот такого рода ответы - чел же не про это спрашивает явно, что там у parsel под капотом
Читать полностью…разверни получше как у тебя написана структура, сколько пул, сколько занимает обработка опроса, какой rpm, вот это все.
Читать полностью…я бы начал с вопроса "сколько рпм", но подозреваю что статистики там нет
Читать полностью…смотря как ты его готовишь и как твой парсер с lxml написан. Но в целом, на скрапи будет побыстрее из-за асинхронщины с коробки (хоть она и на твистеде, но тож неплохо). А как ты там lxml писал - мыж не знаем, толи ты мультитрединг юзал, толи aiohttp, толи тупо в лоб товары перебираешь и по pickle рассовываешь сначала...
Читать полностью…Scrapy я не использую,я написал свой парсер с использованием библиотеки lxml для парсинга, сам написал для парсера функции сохранение состояния, запись данных в файл и прочее. Добавил асинхронность и обработку категорий пакетами. Но работает все очень медленно для такого количества данных, которые я забираю из сайта. Я уже оптимизировал как мог, и xpath запросы и очистку памяти принудительную.
Я зашел спросить у вас (те кто работает из scrapy) стоит ли мне попытаться использовать ее, чтобы хоть как-то ускорить процесс парсинга.
бери многопоточность, и пофиг что у нас гил, это все равно будет быстрее
Читать полностью…Там такого вообще нет) это тупо парсер обычно html текста. Как и lxml. Важно, что вокруг него написано
Читать полностью…да вообще хорошим тоном (имхо) считается не придумывать велосипед, а использовать готовые, проверенные временем инструменты
в данном случае scrapy)
да, но благодаря сахару он медленней, в зависимости от inner-парсера. html5lib там и вот это фсе
Читать полностью…вопрос писан непосредственно парсинг на lxml или на старом медленном bs4 ты написал тут на 5м месте должен быть где-то
Читать полностью…lxml обязательно подчеркивать? запрос все равно фигачишь через реквестс)
Читать полностью…scrapy тоже использует lxml, раз вы решили заострить на этом внимание
Читать полностью…1000 категорий, там по несколько десятков товаров в категории, у каждого товара несколько десятков страниц с лотами.
У меня парсер на lxml это сайт уже 7 дней парсит...и только половину прошел.