Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

28 Sep 2024 18:17

да это пофиг всё когда код блокирующий или запросы по одному

Читать полностью…

Scrapy

28 Sep 2024 18:16

Ну так то да, но чел уже писал, старался, мало ли он неделю писал код...

Читать полностью…

Scrapy

28 Sep 2024 18:14

да, медленней, и я свечку не держал, но возможно, в нём, если самому за этим не следить, нет кеша для спаршенных нод

Читать полностью…

Scrapy

28 Sep 2024 18:13

У меня проблема не с категориями и товарами, а с тем что у каждого отдельного товара, есть страницы (иногда несколько страниц) с лотами продаж этого товара. И на каждой странице с ценами, я собираю информацию из каждой строки таблицы, и в каждой строке есть ссылка, на которую я перехожу чтобы на самой странице лота еще забрать информацию.

Получается я не только собираю много инфы, но еще переходу по этим страницам, делаю много запросов.

Читать полностью…

Scrapy

28 Sep 2024 18:03

ну ты можешь обойтись малыми силами, если конкретно этот парсер уже написан, прикрутив к нему пул или мультитрединг. и еще такой вопрос - почему ты акцентируешь внимание на количестве категорий товаров а не на самом количестве товаров? подспудно возникает очучение, что может ты эти категории вручную запускаешь? как-минимум ты можешь параллельно парсить под 10 этих категорий...

Читать полностью…

Scrapy

28 Sep 2024 17:59

просто вот такого рода ответы - чел же не про это спрашивает явно, что там у parsel под капотом

Читать полностью…

Scrapy

28 Sep 2024 17:59

я сказал ему типа или асинк делать или многопотоа

Читать полностью…

Scrapy

28 Sep 2024 17:58

и просьбе повежливей

Читать полностью…

Scrapy

28 Sep 2024 17:57

разверни получше как у тебя написана структура, сколько пул, сколько занимает обработка опроса, какой rpm, вот это все.

Читать полностью…

Scrapy

28 Sep 2024 17:55

я бы начал с вопроса "сколько рпм", но подозреваю что статистики там нет

Читать полностью…

Scrapy

28 Sep 2024 17:55

смотря как ты его готовишь и как твой парсер с lxml написан. Но в целом, на скрапи будет побыстрее из-за асинхронщины с коробки (хоть она и на твистеде, но тож неплохо). А как ты там lxml писал - мыж не знаем, толи ты мультитрединг юзал, толи aiohttp, толи тупо в лоб товары перебираешь и по pickle рассовываешь сначала...

Читать полностью…

Scrapy

28 Sep 2024 17:54

Scrapy я не использую,я написал свой парсер с использованием библиотеки lxml для парсинга, сам написал для парсера функции сохранение состояния, запись данных в файл и прочее. Добавил асинхронность и обработку категорий пакетами. Но работает все очень медленно для такого количества данных, которые я забираю из сайта. Я уже оптимизировал как мог, и xpath запросы и очистку памяти принудительную.

Я зашел спросить у вас (те кто работает из scrapy) стоит ли мне попытаться использовать ее, чтобы хоть как-то ускорить процесс парсинга.

Читать полностью…

Scrapy

28 Sep 2024 17:49

бери многопоточность, и пофиг что у нас гил, это все равно будет быстрее

Читать полностью…

Scrapy

28 Sep 2024 17:48

но возможно дело не в этом

Читать полностью…

Scrapy

28 Sep 2024 17:48

Вот мне нужно что-то побыстрее

Читать полностью…

Scrapy

28 Sep 2024 18:17

Или ты именно чтото про аля LRU над DOM?

Читать полностью…

Scrapy

28 Sep 2024 18:16

Там такого вообще нет) это тупо парсер обычно html текста. Как и lxml. Важно, что вокруг него написано

Читать полностью…

Scrapy

28 Sep 2024 18:14

поэтому был спрошен рпм

Читать полностью…

Scrapy

28 Sep 2024 18:12

да вообще хорошим тоном (имхо) считается не придумывать велосипед, а использовать готовые, проверенные временем инструменты
в данном случае scrapy)

Читать полностью…

Scrapy

28 Sep 2024 18:00

Хорошо, тогда скоро вернусь с вопросами по scrapy)

Читать полностью…

Scrapy

28 Sep 2024 17:59

тогда говорить не о чем
переписывайте на скрапи

Читать полностью…

Scrapy

28 Sep 2024 17:59

я просто не понимаю как это поможет ему

Читать полностью…

Scrapy

28 Sep 2024 17:58

да, но благодаря сахару он медленней, в зависимости от inner-парсера. html5lib там и вот это фсе

Читать полностью…

Scrapy

28 Sep 2024 17:56

вопрос писан непосредственно парсинг на lxml или на старом медленном bs4 ты написал тут на 5м месте должен быть где-то

Читать полностью…

Scrapy

28 Sep 2024 17:55

lxml обязательно подчеркивать? запрос все равно фигачишь через реквестс)

Читать полностью…

Scrapy

28 Sep 2024 17:54

смотря в чём ботлнек

Читать полностью…

Scrapy

28 Sep 2024 17:50

значит он и использует его

Читать полностью…

Scrapy

28 Sep 2024 17:48

так он скрапи и использует

Читать полностью…

Scrapy

28 Sep 2024 17:48

scrapy тоже использует lxml, раз вы решили заострить на этом внимание

Читать полностью…

Scrapy

28 Sep 2024 17:47

1000 категорий, там по несколько десятков товаров в категории, у каждого товара несколько десятков страниц с лотами.
У меня парсер на lxml это сайт уже 7 дней парсит...и только половину прошел.

Читать полностью…