В ТГ надо собрать со своего аккаунта сообщения, какие лимиты на кол-во запросов в секунду?
Читать полностью…Виктория Белова, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network
еще раз - за это отвечает DUPEFILTER_CLASS = "scrapy.dupefilters.RFPDupeFilter"
который подключается в шедулере, по дефолту оно работает. Если не работает, то, одно из двух
1. ссылки отличаются
2. косяк в коде, возможно шедулер переписан или какой то кастомный из просторов интенета.
и да, то что "первый ответ" это дублирование функционала
тут первый ответ:
https://stackoverflow.com/questions/78753057/python-scrapy-get-all-urls-in-the-webpage-without-duplicate-urls
эээ, вообще то , это на уровне ядра а не на уровне паука....
если не игнорит - значит чем то они отличаются
🙄🤣☺️😁😚🤣☺️👍
Haбиpaю людeй жeлaющиx пoлyчaть дoxoд нa CRYPTO. 🪙
Пo вpeмeни зaнятocть дo 2 чacoв в дeнь.
Мoжнo paбoтaть кaк c тeлeфoнa тaк и c пк.
Haпpaвлeниe: ТECТHEТ, APБИТPAЖ. 💼
Oбyчaeм нoвичкoв 🇧🇾🇦🇲🇷🇺
Paбoтaeм на oфициaльныx биpжax: Bitget, Bybit, OKX, Mexc.
Чтoбы yзнaть пoдpoбнee пишитe нa aккayнт: @Alexander4137
по урлу, но с самым большим номером записи видимо, или как вы там будете различать записи разных версий одной страницы
Читать полностью…доброго времени суток
появился вопрос по поводу amazon reviews, вдруг кто-то как и я ищет или уже нашел решение
они закрыли их за логином, но мне оочень нужно их добывать
поделитесь плиз мыслями как бы это можно воплотить в жизнь
@nika_hrik, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network
а кто сказал, что верный?
и да, Андрей правильно сказал насчет параметра запроса...
смотрел в пандасе, df["url"].value_counts()
дубли до несколько сотен.
2. Не чего не менял, это и смутило.
` fingerprint_data = {
"method": to_unicode(request.method),
"url": canonicalize_url(request.url, keep_fragments=keep_fragments),
"body": (request.body or b"").hex(),
"headers": headers,
}
`
это то, от чего хэш счиает, тока заголвки надо указать, какие надо учитывать
это то же самое, что ревесты с BS впиндюить в проект. Можно, но, нафуй не надо, ибо - маразм
Читать полностью…видел вариант где создают сет прйденных и в parse_item
проверяют есть ли юрл в них... Но это вариант так себе - т.к. всё равно же запрос идёт, хоть и данные не тянем...
Привет, а как филтровать уже пройденные ссылки в CrawlSpider
? Если использовать обычный Спайдер, то он сам их игнорит, а так - нет
class FollowAllSpider(CrawlSpider):Читать полностью…
name = 'xozyayushka_list'
DOWNLOAD_DELAY = 0
start_urls = ['https://xozyayushka.az/']
allowed_domains = ['xozyayushka.az']
rules = [Rule(LinkExtractor(), callback='parse_item', follow=True)]
...