1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
lxml обязательно подчеркивать? запрос все равно фигачишь через реквестс)
Читать полностью…
scrapy тоже использует lxml, раз вы решили заострить на этом внимание
Читать полностью…
1000 категорий, там по несколько десятков товаров в категории, у каждого товара несколько десятков страниц с лотами.
У меня парсер на lxml это сайт уже 7 дней парсит...и только половину прошел.
ох, лизонька, нету тут пассивных, мы тут все активные...
Читать полностью…
Реклама в инсте сама по себе таргетированная, между прочим
Читать полностью…
вряд-ли хорошая идея для 1000 аккаунтов поднимать 1000 браузеров
Читать полностью…
В поиске тех, кто хочет попробовать себя в криптовалюте.
Занятость до двух часов в день.
Работать можно с телефона или компьютера.
Обучение доступно для новичков.
Сфера: аирдропы, тестнеты, лаунчпады и прочее.
Мои условия - в личку.
здравствуйте, кто то занимался парсингом инстаграм? у меня есть вопрос насчет лимитов может кто знает какие то?
Читать полностью…
про jmespath мне тоже интересно, но я хз, по-идее можно потестить. и сравнить напр. с clickhouse: https://colab.research.google.com/github/dcmoura/spyql/blob/master/notebooks/json_benchmark.ipynb
Читать полностью…
смотря как ты его готовишь и как твой парсер с lxml написан. Но в целом, на скрапи будет побыстрее из-за асинхронщины с коробки (хоть она и на твистеде, но тож неплохо). А как ты там lxml писал - мыж не знаем, толи ты мультитрединг юзал, толи aiohttp, толи тупо в лоб товары перебираешь и по pickle рассовываешь сначала...
Читать полностью…
Scrapy я не использую,я написал свой парсер с использованием библиотеки lxml для парсинга, сам написал для парсера функции сохранение состояния, запись данных в файл и прочее. Добавил асинхронность и обработку категорий пакетами. Но работает все очень медленно для такого количества данных, которые я забираю из сайта. Я уже оптимизировал как мог, и xpath запросы и очистку памяти принудительную.
Я зашел спросить у вас (те кто работает из scrapy) стоит ли мне попытаться использовать ее, чтобы хоть как-то ускорить процесс парсинга.
бери многопоточность, и пофиг что у нас гил, это все равно будет быстрее
Читать полностью…
Господа, добрый день.
Такой тупой вопрос, если мне нужно парсить очень много данных ( около 1000 категорий с товарами) то лучше scrapy ичего нет правильно?
@Lizzzavolkova732, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network
просто селектор блока в котором реклама появляется отлавливай
Читать полностью…
я сообщение удалил, решил пальцем в небо не тыкать, исходный код почитать и протестить)
Читать полностью…
нет, у нас принято спайдеры наследовать от базоваго спайдера со своими настройками
Читать полностью…