Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

scrapy_python | Unsorted

Subscribe to a channel

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

15 November 2024 13:06

Надоели обманчивые схeмы и фейкoвые пpедложения? Если вам нужен стaбильный и рeальный споcоб заpаботка, то у нас есть подxод, который рабoтает. Пишите плюс в личные сообщения и я расскажу как это рaботает

Читать полностью…

Scrapy

14 November 2024 18:07

Смотрите эндпоинт medley-filtered-reviews, он прекрасно парсится

Читать полностью…

Scrapy

14 November 2024 17:40

Посмотри в коде страницы https://www.amazon.com/hz/reviews-render/ajax/

Читать полностью…

Scrapy

14 November 2024 17:35

Они 10 страниц дают соскрапить + применяй фильтры. Ну и если не боишься, то парси под логином 😃

Читать полностью…

Scrapy

14 November 2024 15:51

доброго времени суток
появился вопрос по поводу amazon reviews, вдруг кто-то как и я ищет или уже нашел решение
они закрыли их за логином, но мне оочень нужно их добывать
поделитесь плиз мыслями как бы это можно воплотить в жизнь

Читать полностью…

Scrapy

14 November 2024 11:54

@nika_hrik, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network

Читать полностью…

Scrapy

14 November 2024 09:41

Господа, прошу прошение, это я лоханулся. Всё норм )

Читать полностью…

Scrapy

14 November 2024 08:46

ну можете логи почитать про конкретные урлы

Читать полностью…

Scrapy

14 November 2024 08:44

а кто сказал, что верный?
и да, Андрей правильно сказал насчет параметра запроса...

Читать полностью…

Scrapy

14 November 2024 08:42

смотрел в пандасе, df["url"].value_counts() дубли до несколько сотен.
2. Не чего не менял, это и смутило.

Читать полностью…

Scrapy

14 November 2024 08:16

` fingerprint_data = {
"method": to_unicode(request.method),
"url": canonicalize_url(request.url, keep_fragments=keep_fragments),
"body": (request.body or b"").hex(),
"headers": headers,
}
`

это то, от чего хэш счиает, тока заголвки надо указать, какие надо учитывать

Читать полностью…

Scrapy

14 November 2024 08:15

Может потому и думал что не фильтрует. Сегодня проверю

Читать полностью…

Scrapy

14 November 2024 08:14

схераль? оно все фильтрует

Читать полностью…

Scrapy

14 November 2024 08:10

это то же самое, что ревесты с BS впиндюить в проект. Можно, но, нафуй не надо, ибо - маразм

Читать полностью…

Scrapy

14 November 2024 08:08

там и вопрос странный

Читать полностью…

Scrapy

14 November 2024 18:09

спасибо!!
попробую

Читать полностью…

Scrapy

14 November 2024 18:02

а вы кравлите ревью с амазона?
есть впечетление что вы даете советы ради совета

Читать полностью…

Scrapy

14 November 2024 17:38

очень интересно про 10 страниц, возможно мне бы этого хватило. но простите, не понимаю где это найти, т.к. ендпоинты отдают 401

Читать полностью…

Scrapy

14 November 2024 17:02

у них в документации есть
около 20, посмотри

Читать полностью…

Scrapy

14 November 2024 13:49

В ТГ надо собрать со своего аккаунта сообщения, какие лимиты на кол-во запросов в секунду?

Читать полностью…

Scrapy

14 November 2024 11:54

Виктория Белова, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network

Читать полностью…

Scrapy

14 November 2024 08:47

но это всё без CrawlSpider тогда точно так же должно работать

Читать полностью…

Scrapy

14 November 2024 08:45

в основном это паук. в настройках всё по дефолту

Читать полностью…

Scrapy

14 November 2024 08:43

может у вас dont_filter где-то

Читать полностью…

Scrapy

14 November 2024 08:17

я бы не был так уверен, в отсутствии POST запросов :))

Читать полностью…

Scrapy

14 November 2024 08:16

да, потому
а в вопросе обычные геты, да и откуда в CrawlSpider пост

Читать полностью…

Scrapy

14 November 2024 08:14

тока при POST еще и тело запроса смотрит

Читать полностью…

Scrapy

14 November 2024 08:13

POST не фильтрует может человек об этом?

Читать полностью…

Scrapy

14 November 2024 08:09

еще раз - за это отвечает
DUPEFILTER_CLASS = "scrapy.dupefilters.RFPDupeFilter"
который подключается в шедулере, по дефолту оно работает. Если не работает, то, одно из двух
1. ссылки отличаются
2. косяк в коде, возможно шедулер переписан или какой то кастомный из просторов интенета.

и да, то что "первый ответ" это дублирование функционала

Читать полностью…

Scrapy

14 November 2024 08:03

тут первый ответ:
https://stackoverflow.com/questions/78753057/python-scrapy-get-all-urls-in-the-webpage-without-duplicate-urls

Читать полностью…

Subscribe to a channel