1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Надоели обманчивые схeмы и фейкoвые пpедложения? Если вам нужен стaбильный и рeальный споcоб заpаботка, то у нас есть подxод, который рабoтает. Пишите плюс в личные сообщения и я расскажу как это рaботает
Читать полностью…
Смотрите эндпоинт medley-filtered-reviews, он прекрасно парсится
Читать полностью…
Посмотри в коде страницы https://www.amazon.com/hz/reviews-render/ajax/
Читать полностью…
Они 10 страниц дают соскрапить + применяй фильтры. Ну и если не боишься, то парси под логином 😃
Читать полностью…
доброго времени суток
появился вопрос по поводу amazon reviews, вдруг кто-то как и я ищет или уже нашел решение
они закрыли их за логином, но мне оочень нужно их добывать
поделитесь плиз мыслями как бы это можно воплотить в жизнь
@nika_hrik, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network
Господа, прошу прошение, это я лоханулся. Всё норм )
Читать полностью…
а кто сказал, что верный?
и да, Андрей правильно сказал насчет параметра запроса...
смотрел в пандасе, df["url"].value_counts() дубли до несколько сотен.
2. Не чего не менял, это и смутило.
` fingerprint_data = {
"method": to_unicode(request.method),
"url": canonicalize_url(request.url, keep_fragments=keep_fragments),
"body": (request.body or b"").hex(),
"headers": headers,
}
`
это то, от чего хэш счиает, тока заголвки надо указать, какие надо учитывать
Может потому и думал что не фильтрует. Сегодня проверю
Читать полностью…
это то же самое, что ревесты с BS впиндюить в проект. Можно, но, нафуй не надо, ибо - маразм
Читать полностью…
а вы кравлите ревью с амазона?
есть впечетление что вы даете советы ради совета
очень интересно про 10 страниц, возможно мне бы этого хватило. но простите, не понимаю где это найти, т.к. ендпоинты отдают 401
Читать полностью…
В ТГ надо собрать со своего аккаунта сообщения, какие лимиты на кол-во запросов в секунду?
Читать полностью…
Виктория Белова, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network
но это всё без CrawlSpider тогда точно так же должно работать
Читать полностью…
я бы не был так уверен, в отсутствии POST запросов :))
Читать полностью…
да, потому
а в вопросе обычные геты, да и откуда в CrawlSpider пост
еще раз - за это отвечает DUPEFILTER_CLASS = "scrapy.dupefilters.RFPDupeFilter"
который подключается в шедулере, по дефолту оно работает. Если не работает, то, одно из двух
1. ссылки отличаются
2. косяк в коде, возможно шедулер переписан или какой то кастомный из просторов интенета.
и да, то что "первый ответ" это дублирование функционала
тут первый ответ:
https://stackoverflow.com/questions/78753057/python-scrapy-get-all-urls-in-the-webpage-without-duplicate-urls