1000 категорий, там по несколько десятков товаров в категории, у каждого товара несколько десятков страниц с лотами.
У меня парсер на lxml это сайт уже 7 дней парсит...и только половину прошел.
В поиске тех, кто хочет попробовать себя в криптовалюте.
Занятость до двух часов в день.
Работать можно с телефона или компьютера.
Обучение доступно для новичков.
Сфера: аирдропы, тестнеты, лаунчпады и прочее.
Мои условия - в личку.
здравствуйте, кто то занимался парсингом инстаграм? у меня есть вопрос насчет лимитов может кто знает какие то?
Читать полностью…про jmespath мне тоже интересно, но я хз, по-идее можно потестить. и сравнить напр. с clickhouse: https://colab.research.google.com/github/dcmoura/spyql/blob/master/notebooks/json_benchmark.ipynb
Читать полностью…смотря как ты его готовишь и как твой парсер с lxml написан. Но в целом, на скрапи будет побыстрее из-за асинхронщины с коробки (хоть она и на твистеде, но тож неплохо). А как ты там lxml писал - мыж не знаем, толи ты мультитрединг юзал, толи aiohttp, толи тупо в лоб товары перебираешь и по pickle рассовываешь сначала...
Читать полностью…Scrapy я не использую,я написал свой парсер с использованием библиотеки lxml для парсинга, сам написал для парсера функции сохранение состояния, запись данных в файл и прочее. Добавил асинхронность и обработку категорий пакетами. Но работает все очень медленно для такого количества данных, которые я забираю из сайта. Я уже оптимизировал как мог, и xpath запросы и очистку памяти принудительную.
Я зашел спросить у вас (те кто работает из scrapy) стоит ли мне попытаться использовать ее, чтобы хоть как-то ускорить процесс парсинга.
Господа, добрый день.
Такой тупой вопрос, если мне нужно парсить очень много данных ( около 1000 категорий с товарами) то лучше scrapy ичего нет правильно?
@Lizzzavolkova732, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network
я сообщение удалил, решил пальцем в небо не тыкать, исходный код почитать и протестить)
Читать полностью…нет, у нас принято спайдеры наследовать от базоваго спайдера со своими настройками
Читать полностью…