scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Сохранение состояние в файле json было...

Читать полностью…

Scrapy

а так поначалу надо было выкачать картинку, и впендюрить на нее артикул, с цветом надписи противоположной картинке)

Читать полностью…

Scrapy

а потом их стало больше, а потом еще больше. и чота усе резко замедлилося... а я такой - а чо, а в смысле??

Читать полностью…

Scrapy

нене, моя функция по сохранению картинок)

Читать полностью…

Scrapy

поэтому я вот уже набив шишек вижу где у тебя уже возникают приколы при текущем парсере или могут возникнуть, вида "сохранение состояния" (в чем, в базе, clickhouse, pickle?), эта вот "обработка категорий пакетами" - как оно реализовано? foreach по листу или пул какой. И т.д. и т.п.

Читать полностью…

Scrapy

немного перепутал
у jmespath есть кеш нод
у parsel кеш только на трансляцию css

Читать полностью…

Scrapy

Или ты именно чтото про аля LRU над DOM?

Читать полностью…

Scrapy

Там такого вообще нет) это тупо парсер обычно html текста. Как и lxml. Важно, что вокруг него написано

Читать полностью…

Scrapy

поэтому был спрошен рпм

Читать полностью…

Scrapy

да вообще хорошим тоном (имхо) считается не придумывать велосипед, а использовать готовые, проверенные временем инструменты
в данном случае scrapy)

Читать полностью…

Scrapy

Хорошо, тогда скоро вернусь с вопросами по scrapy)

Читать полностью…

Scrapy

тогда говорить не о чем
переписывайте на скрапи

Читать полностью…

Scrapy

я просто не понимаю как это поможет ему

Читать полностью…

Scrapy

да, но благодаря сахару он медленней, в зависимости от inner-парсера. html5lib там и вот это фсе

Читать полностью…

Scrapy

вопрос писан непосредственно парсинг на lxml или на старом медленном bs4 ты написал тут на 5м месте должен быть где-то

Читать полностью…

Scrapy

вернее той области, куда артикул лепилсо

Читать полностью…

Scrapy

та там уже и спрашивать не надою На такой скости только последовательное выкачивание страничек. Ну и, сверху, заполировано (подозреваю) не особо хорошей обработкой

Читать полностью…

Scrapy

там просто начиналось все как всегда с одной картинки...

Читать полностью…

Scrapy

скрапи тянул последовательно? выглядит как косяк логики

Читать полностью…

Scrapy

помню как-то писал я скрапи-парсер, тока там еще была логика сохранения картинок (смерживания штук 20 в одну), и он прям мощно тормозил пока я не сделал её асинхронной, а потом и ваще неблокирующей. Но и так значительный прирост был с того, что как оказалось он по одной картинке тянул последовательно и тупо то, что 20 картинок одновременно тянулись увеличило выхлоп неиллюзорно. Так что при желании и на скрапи можно приготовить ололо

Читать полностью…

Scrapy

да это пофиг всё когда код блокирующий или запросы по одному

Читать полностью…

Scrapy

Ну так то да, но чел уже писал, старался, мало ли он неделю писал код...

Читать полностью…

Scrapy

да, медленней, и я свечку не держал, но возможно, в нём, если самому за этим не следить, нет кеша для спаршенных нод

Читать полностью…

Scrapy

У меня проблема не с категориями и товарами, а с тем что у каждого отдельного товара, есть страницы (иногда несколько страниц) с лотами продаж этого товара. И на каждой странице с ценами, я собираю информацию из каждой строки таблицы, и в каждой строке есть ссылка, на которую я перехожу чтобы на самой странице лота еще забрать информацию.

Получается я не только собираю много инфы, но еще переходу по этим страницам, делаю много запросов.

Читать полностью…

Scrapy

ну ты можешь обойтись малыми силами, если конкретно этот парсер уже написан, прикрутив к нему пул или мультитрединг. и еще такой вопрос - почему ты акцентируешь внимание на количестве категорий товаров а не на самом количестве товаров? подспудно возникает очучение, что может ты эти категории вручную запускаешь? как-минимум ты можешь параллельно парсить под 10 этих категорий...

Читать полностью…

Scrapy

просто вот такого рода ответы - чел же не про это спрашивает явно, что там у parsel под капотом

Читать полностью…

Scrapy

я сказал ему типа или асинк делать или многопотоа

Читать полностью…

Scrapy

и просьбе повежливей

Читать полностью…

Scrapy

разверни получше как у тебя написана структура, сколько пул, сколько занимает обработка опроса, какой rpm, вот это все.

Читать полностью…

Scrapy

я бы начал с вопроса "сколько рпм", но подозреваю что статистики там нет

Читать полностью…
Subscribe to a channel