тут первый ответ:
https://stackoverflow.com/questions/78753057/python-scrapy-get-all-urls-in-the-webpage-without-duplicate-urls
эээ, вообще то , это на уровне ядра а не на уровне паука....
если не игнорит - значит чем то они отличаются
🙄🤣☺️😁😚🤣☺️👍
Haбиpaю людeй жeлaющиx пoлyчaть дoxoд нa CRYPTO. 🪙
Пo вpeмeни зaнятocть дo 2 чacoв в дeнь.
Мoжнo paбoтaть кaк c тeлeфoнa тaк и c пк.
Haпpaвлeниe: ТECТHEТ, APБИТPAЖ. 💼
Oбyчaeм нoвичкoв 🇧🇾🇦🇲🇷🇺
Paбoтaeм на oфициaльныx биpжax: Bitget, Bybit, OKX, Mexc.
Чтoбы yзнaть пoдpoбнee пишитe нa aккayнт: @Alexander4137
по урлу, но с самым большим номером записи видимо, или как вы там будете различать записи разных версий одной страницы
Читать полностью…хех, стоит "вежливо" попросить, так сразу, хоть что то получается написать.
ну, насчет выполнения тестовых - это сугубо личные проблемы индивидуумов.
я спать - надо будет кого побанить, пингую
в скрапиджоб не выпинываю. Булат как то писал, что согласен, что бы тут постили....
так 100 тестовых заданий дашь, потом глядишь - половина система написана уже по ТЗ)))))
Читать полностью…видел вариант где создают сет прйденных и в parse_item
проверяют есть ли юрл в них... Но это вариант так себе - т.к. всё равно же запрос идёт, хоть и данные не тянем...
Привет, а как филтровать уже пройденные ссылки в CrawlSpider
? Если использовать обычный Спайдер, то он сам их игнорит, а так - нет
class FollowAllSpider(CrawlSpider):Читать полностью…
name = 'xozyayushka_list'
DOWNLOAD_DELAY = 0
start_urls = ['https://xozyayushka.az/']
allowed_domains = ['xozyayushka.az']
rules = [Rule(LinkExtractor(), callback='parse_item', follow=True)]
...
рекомендую считать хэш и делать по нему апсёрт, вы ж не хотите всю бд каждый раз сравнивать
Читать полностью…А как это лучше реализовать? В piplines написать какую-нибудь функцию records_are_equal, например и если они отличаются записывать?
Читать полностью…Всем привет! Я пишу скрепер, который должен работать в бесконечном цикле и проверять одни и те же статьи. Мне нужно сделать так: если статья поменялась создается новая строка в бд, старая не меняется. Если статья не изменилась скрепер просто пропускает ее.
Я где-то слышал, что у scrapy есть встроенный механизм для такого сценария? или я ошибаюсь и придется придумывать что-то свое?
Hello everyone! I'm writing a scraper that needs to run in an infinite loop and check the same articles repeatedly. Here's what I want to achieve: if an article has changed, a new row should be created in the database, while the old one remains unchanged. If the article hasn't changed, the scraper should simply skip it.
I've heard that Scrapy has a built-in mechanism for this kind of scenario. Is that true, or will I need to implement something custom?
Any advice would be appreciated.
ну щас рынок нанимателя, они могут по-идее чо угодно придумывать и нормально будет)
Читать полностью…Делать парсеры на python, парсить разные сайты от яндекса до мелких и записывать в csv файлы
Читать полностью…Здравствуйте! Предлагаю работу на постоянную основу. Если хотите быть в нашей команде вам нужно выполнить легкое тестовое задание на парсинг с python(undetected-chromedriver). Телеграм: /channel/assistant_yours
Читать полностью…Привет, кто знает как называется такая капча? Хочу попробовать её решать с помощью rucaptcha
Читать полностью…