Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

28 Sep 2024 19:12

Сохранение состояние в файле json было...

Читать полностью…

Scrapy

28 Sep 2024 18:31

а так поначалу надо было выкачать картинку, и впендюрить на нее артикул, с цветом надписи противоположной картинке)

Читать полностью…

Scrapy

28 Sep 2024 18:30

а потом их стало больше, а потом еще больше. и чота усе резко замедлилося... а я такой - а чо, а в смысле??

Читать полностью…

Scrapy

28 Sep 2024 18:29

нене, моя функция по сохранению картинок)

Читать полностью…

Scrapy

28 Sep 2024 18:29

поэтому я вот уже набив шишек вижу где у тебя уже возникают приколы при текущем парсере или могут возникнуть, вида "сохранение состояния" (в чем, в базе, clickhouse, pickle?), эта вот "обработка категорий пакетами" - как оно реализовано? foreach по листу или пул какой. И т.д. и т.п.

Читать полностью…

Scrapy

28 Sep 2024 18:26

немного перепутал
у jmespath есть кеш нод
у parsel кеш только на трансляцию css

Читать полностью…

Scrapy

28 Sep 2024 18:17

Или ты именно чтото про аля LRU над DOM?

Читать полностью…

Scrapy

28 Sep 2024 18:16

Там такого вообще нет) это тупо парсер обычно html текста. Как и lxml. Важно, что вокруг него написано

Читать полностью…

Scrapy

28 Sep 2024 18:14

поэтому был спрошен рпм

Читать полностью…

Scrapy

28 Sep 2024 18:12

да вообще хорошим тоном (имхо) считается не придумывать велосипед, а использовать готовые, проверенные временем инструменты
в данном случае scrapy)

Читать полностью…

Scrapy

28 Sep 2024 18:00

Хорошо, тогда скоро вернусь с вопросами по scrapy)

Читать полностью…

Scrapy

28 Sep 2024 17:59

тогда говорить не о чем
переписывайте на скрапи

Читать полностью…

Scrapy

28 Sep 2024 17:59

я просто не понимаю как это поможет ему

Читать полностью…

Scrapy

28 Sep 2024 17:58

да, но благодаря сахару он медленней, в зависимости от inner-парсера. html5lib там и вот это фсе

Читать полностью…

Scrapy

28 Sep 2024 17:56

вопрос писан непосредственно парсинг на lxml или на старом медленном bs4 ты написал тут на 5м месте должен быть где-то

Читать полностью…

Scrapy

28 Sep 2024 18:31

вернее той области, куда артикул лепилсо

Читать полностью…

Scrapy

28 Sep 2024 18:31

та там уже и спрашивать не надою На такой скости только последовательное выкачивание страничек. Ну и, сверху, заполировано (подозреваю) не особо хорошей обработкой

Читать полностью…

Scrapy

28 Sep 2024 18:29

там просто начиналось все как всегда с одной картинки...

Читать полностью…

Scrapy

28 Sep 2024 18:29

скрапи тянул последовательно? выглядит как косяк логики

Читать полностью…

Scrapy

28 Sep 2024 18:27

помню как-то писал я скрапи-парсер, тока там еще была логика сохранения картинок (смерживания штук 20 в одну), и он прям мощно тормозил пока я не сделал её асинхронной, а потом и ваще неблокирующей. Но и так значительный прирост был с того, что как оказалось он по одной картинке тянул последовательно и тупо то, что 20 картинок одновременно тянулись увеличило выхлоп неиллюзорно. Так что при желании и на скрапи можно приготовить ололо

Читать полностью…

Scrapy

28 Sep 2024 18:17

да это пофиг всё когда код блокирующий или запросы по одному

Читать полностью…

Scrapy

28 Sep 2024 18:16

Ну так то да, но чел уже писал, старался, мало ли он неделю писал код...

Читать полностью…

Scrapy

28 Sep 2024 18:14

да, медленней, и я свечку не держал, но возможно, в нём, если самому за этим не следить, нет кеша для спаршенных нод

Читать полностью…

Scrapy

28 Sep 2024 18:13

У меня проблема не с категориями и товарами, а с тем что у каждого отдельного товара, есть страницы (иногда несколько страниц) с лотами продаж этого товара. И на каждой странице с ценами, я собираю информацию из каждой строки таблицы, и в каждой строке есть ссылка, на которую я перехожу чтобы на самой странице лота еще забрать информацию.

Получается я не только собираю много инфы, но еще переходу по этим страницам, делаю много запросов.

Читать полностью…

Scrapy

28 Sep 2024 18:03

ну ты можешь обойтись малыми силами, если конкретно этот парсер уже написан, прикрутив к нему пул или мультитрединг. и еще такой вопрос - почему ты акцентируешь внимание на количестве категорий товаров а не на самом количестве товаров? подспудно возникает очучение, что может ты эти категории вручную запускаешь? как-минимум ты можешь параллельно парсить под 10 этих категорий...

Читать полностью…