очень интересно про 10 страниц, возможно мне бы этого хватило. но простите, не понимаю где это найти, т.к. ендпоинты отдают 401
Читать полностью…В ТГ надо собрать со своего аккаунта сообщения, какие лимиты на кол-во запросов в секунду?
Читать полностью…Виктория Белова, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network
еще раз - за это отвечает DUPEFILTER_CLASS = "scrapy.dupefilters.RFPDupeFilter"
который подключается в шедулере, по дефолту оно работает. Если не работает, то, одно из двух
1. ссылки отличаются
2. косяк в коде, возможно шедулер переписан или какой то кастомный из просторов интенета.
и да, то что "первый ответ" это дублирование функционала
тут первый ответ:
https://stackoverflow.com/questions/78753057/python-scrapy-get-all-urls-in-the-webpage-without-duplicate-urls
эээ, вообще то , это на уровне ядра а не на уровне паука....
если не игнорит - значит чем то они отличаются
🙄🤣☺️😁😚🤣☺️👍
Haбиpaю людeй жeлaющиx пoлyчaть дoxoд нa CRYPTO. 🪙
Пo вpeмeни зaнятocть дo 2 чacoв в дeнь.
Мoжнo paбoтaть кaк c тeлeфoнa тaк и c пк.
Haпpaвлeниe: ТECТHEТ, APБИТPAЖ. 💼
Oбyчaeм нoвичкoв 🇧🇾🇦🇲🇷🇺
Paбoтaeм на oфициaльныx биpжax: Bitget, Bybit, OKX, Mexc.
Чтoбы yзнaть пoдpoбнee пишитe нa aккayнт: @Alexander4137
Они 10 страниц дают соскрапить + применяй фильтры. Ну и если не боишься, то парси под логином 😃
Читать полностью…доброго времени суток
появился вопрос по поводу amazon reviews, вдруг кто-то как и я ищет или уже нашел решение
они закрыли их за логином, но мне оочень нужно их добывать
поделитесь плиз мыслями как бы это можно воплотить в жизнь
@nika_hrik, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network
а кто сказал, что верный?
и да, Андрей правильно сказал насчет параметра запроса...
смотрел в пандасе, df["url"].value_counts()
дубли до несколько сотен.
2. Не чего не менял, это и смутило.
` fingerprint_data = {
"method": to_unicode(request.method),
"url": canonicalize_url(request.url, keep_fragments=keep_fragments),
"body": (request.body or b"").hex(),
"headers": headers,
}
`
это то, от чего хэш счиает, тока заголвки надо указать, какие надо учитывать
это то же самое, что ревесты с BS впиндюить в проект. Можно, но, нафуй не надо, ибо - маразм
Читать полностью…видел вариант где создают сет прйденных и в parse_item
проверяют есть ли юрл в них... Но это вариант так себе - т.к. всё равно же запрос идёт, хоть и данные не тянем...
Привет, а как филтровать уже пройденные ссылки в CrawlSpider
? Если использовать обычный Спайдер, то он сам их игнорит, а так - нет
class FollowAllSpider(CrawlSpider):Читать полностью…
name = 'xozyayushka_list'
DOWNLOAD_DELAY = 0
start_urls = ['https://xozyayushka.az/']
allowed_domains = ['xozyayushka.az']
rules = [Rule(LinkExtractor(), callback='parse_item', follow=True)]
...