scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

да это пофиг всё когда код блокирующий или запросы по одному

Читать полностью…

Scrapy

Ну так то да, но чел уже писал, старался, мало ли он неделю писал код...

Читать полностью…

Scrapy

да, медленней, и я свечку не держал, но возможно, в нём, если самому за этим не следить, нет кеша для спаршенных нод

Читать полностью…

Scrapy

У меня проблема не с категориями и товарами, а с тем что у каждого отдельного товара, есть страницы (иногда несколько страниц) с лотами продаж этого товара. И на каждой странице с ценами, я собираю информацию из каждой строки таблицы, и в каждой строке есть ссылка, на которую я перехожу чтобы на самой странице лота еще забрать информацию.

Получается я не только собираю много инфы, но еще переходу по этим страницам, делаю много запросов.

Читать полностью…

Scrapy

ну ты можешь обойтись малыми силами, если конкретно этот парсер уже написан, прикрутив к нему пул или мультитрединг. и еще такой вопрос - почему ты акцентируешь внимание на количестве категорий товаров а не на самом количестве товаров? подспудно возникает очучение, что может ты эти категории вручную запускаешь? как-минимум ты можешь параллельно парсить под 10 этих категорий...

Читать полностью…

Scrapy

просто вот такого рода ответы - чел же не про это спрашивает явно, что там у parsel под капотом

Читать полностью…

Scrapy

я сказал ему типа или асинк делать или многопотоа

Читать полностью…

Scrapy

и просьбе повежливей

Читать полностью…

Scrapy

разверни получше как у тебя написана структура, сколько пул, сколько занимает обработка опроса, какой rpm, вот это все.

Читать полностью…

Scrapy

я бы начал с вопроса "сколько рпм", но подозреваю что статистики там нет

Читать полностью…

Scrapy

смотря как ты его готовишь и как твой парсер с lxml написан. Но в целом, на скрапи будет побыстрее из-за асинхронщины с коробки (хоть она и на твистеде, но тож неплохо). А как ты там lxml писал - мыж не знаем, толи ты мультитрединг юзал, толи aiohttp, толи тупо в лоб товары перебираешь и по pickle рассовываешь сначала...

Читать полностью…

Scrapy

Scrapy я не использую,я написал свой парсер с использованием библиотеки lxml для парсинга, сам написал для парсера функции сохранение состояния, запись данных в файл и прочее. Добавил асинхронность и обработку категорий пакетами. Но работает все очень медленно для такого количества данных, которые я забираю из сайта. Я уже оптимизировал как мог, и xpath запросы и очистку памяти принудительную.

Я зашел спросить у вас (те кто работает из scrapy) стоит ли мне попытаться использовать ее, чтобы хоть как-то ускорить процесс парсинга.

Читать полностью…

Scrapy

бери многопоточность, и пофиг что у нас гил, это все равно будет быстрее

Читать полностью…

Scrapy

но возможно дело не в этом

Читать полностью…

Scrapy

Вот мне нужно что-то побыстрее

Читать полностью…

Scrapy

Или ты именно чтото про аля LRU над DOM?

Читать полностью…

Scrapy

Там такого вообще нет) это тупо парсер обычно html текста. Как и lxml. Важно, что вокруг него написано

Читать полностью…

Scrapy

поэтому был спрошен рпм

Читать полностью…

Scrapy

да вообще хорошим тоном (имхо) считается не придумывать велосипед, а использовать готовые, проверенные временем инструменты
в данном случае scrapy)

Читать полностью…

Scrapy

Хорошо, тогда скоро вернусь с вопросами по scrapy)

Читать полностью…

Scrapy

тогда говорить не о чем
переписывайте на скрапи

Читать полностью…

Scrapy

я просто не понимаю как это поможет ему

Читать полностью…

Scrapy

да, но благодаря сахару он медленней, в зависимости от inner-парсера. html5lib там и вот это фсе

Читать полностью…

Scrapy

вопрос писан непосредственно парсинг на lxml или на старом медленном bs4 ты написал тут на 5м месте должен быть где-то

Читать полностью…

Scrapy

lxml обязательно подчеркивать? запрос все равно фигачишь через реквестс)

Читать полностью…

Scrapy

смотря в чём ботлнек

Читать полностью…

Scrapy

значит он и использует его

Читать полностью…

Scrapy

так он скрапи и использует

Читать полностью…

Scrapy

scrapy тоже использует lxml, раз вы решили заострить на этом внимание

Читать полностью…

Scrapy

1000 категорий, там по несколько десятков товаров в категории, у каждого товара несколько десятков страниц с лотами.
У меня парсер на lxml это сайт уже 7 дней парсит...и только половину прошел.

Читать полностью…
Subscribe to a channel