Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

14 Nov 2024 08:03

тут первый ответ:
https://stackoverflow.com/questions/78753057/python-scrapy-get-all-urls-in-the-webpage-without-duplicate-urls

Читать полностью…

Scrapy

14 Nov 2024 07:56

эээ, вообще то , это на уровне ядра а не на уровне паука....
если не игнорит - значит чем то они отличаются

Читать полностью…

Scrapy

13 Nov 2024 18:53

🙄🤣☺️😁😚🤣☺️👍
Haбиpaю людeй жeлaющиx пoлyчaть дoxoд нa CRYPTO. 🪙

Пo вpeмeни зaнятocть дo 2 чacoв в дeнь.
Мoжнo paбoтaть кaк c тeлeфoнa тaк и c пк.
Haпpaвлeниe: ТECТHEТ, APБИТPAЖ. 💼
Oбyчaeм нoвичкoв 🇧🇾🇦🇲🇷🇺
Paбoтaeм на oфициaльныx биpжax: Bitget, Bybit, OKX, Mexc.

Чтoбы yзнaть пoдpoбнee пишитe нa aккayнт: @Alexander4137

Читать полностью…

Scrapy

12 Nov 2024 11:29

по урлу, но с самым большим номером записи видимо, или как вы там будете различать записи разных версий одной страницы

Читать полностью…

Scrapy

12 Nov 2024 11:28

ну или доставать по урлу и сравнивать, ок

Читать полностью…

Scrapy

12 Nov 2024 11:27

изменилось какое-либо поле айтема

Читать полностью…

Scrapy

12 Nov 2024 11:26

Ну тёска походу не понимает как она работает

Читать полностью…

Scrapy

12 Nov 2024 11:25

бд в вопросе уже есть

Читать полностью…

Scrapy

12 Nov 2024 11:23

ошибаетесь, ну либо несите ссылку на этот механизм

Читать полностью…

Scrapy

11 Nov 2024 12:13

DM me if you need a webscraper

Читать полностью…

Scrapy

10 Nov 2024 19:48

хех, стоит "вежливо" попросить, так сразу, хоть что то получается написать.
ну, насчет выполнения тестовых - это сугубо личные проблемы индивидуумов.
я спать - надо будет кого побанить, пингую

в скрапиджоб не выпинываю. Булат как то писал, что согласен, что бы тут постили....

Читать полностью…

Scrapy

10 Nov 2024 19:43

так 100 тестовых заданий дашь, потом глядишь - половина система написана уже по ТЗ)))))

Читать полностью…

Scrapy

10 Nov 2024 19:41

А что рассказывать? ТЗ в лс кидаю

Читать полностью…

Scrapy

10 Nov 2024 19:40

либо рассказываем, кратко, о чем речь. Либо - медленно идем в бан.

Читать полностью…

Scrapy

10 Nov 2024 13:35

надо выбрать каждый элемент по очереди

Читать полностью…

Scrapy

14 Nov 2024 07:59

видел вариант где создают сет прйденных и в parse_item проверяют есть ли юрл в них... Но это вариант так себе - т.к. всё равно же запрос идёт, хоть и данные не тянем...

Читать полностью…

Scrapy

14 Nov 2024 07:55

Привет, а как филтровать уже пройденные ссылки в CrawlSpider ? Если использовать обычный Спайдер, то он сам их игнорит, а так - нет

class FollowAllSpider(CrawlSpider):
    name = 'xozyayushka_list'
    DOWNLOAD_DELAY = 0
    start_urls = ['https://xozyayushka.az/']
    allowed_domains = ['xozyayushka.az']
    rules = [Rule(LinkExtractor(), callback='parse_item', follow=True)]
...

Читать полностью…

Scrapy

12 Nov 2024 11:43

Спасибо, получилось)

Читать полностью…

Scrapy

12 Nov 2024 11:28

Не русский он получается конкретно

Читать полностью…

Scrapy

12 Nov 2024 11:28

рекомендую считать хэш и делать по нему апсёрт, вы ж не хотите всю бд каждый раз сравнивать

Читать полностью…

Scrapy

12 Nov 2024 11:26

смотря что такое поменялась и equal

Читать полностью…

Scrapy

12 Nov 2024 11:25

А как это лучше реализовать? В piplines написать какую-нибудь функцию records_are_equal, например и если они отличаются записывать?

Читать полностью…

Scrapy

12 Nov 2024 11:24

ну вот в том то и дело, что я не могу его найти и решил спросить тут есть ли он?)

Читать полностью…

Scrapy

12 Nov 2024 11:23

Всем привет! Я пишу скрепер, который должен работать в бесконечном цикле и проверять одни и те же статьи. Мне нужно сделать так: если статья поменялась создается новая строка в бд, старая не меняется. Если статья не изменилась скрепер просто пропускает ее.

Я где-то слышал, что у scrapy есть встроенный механизм для такого сценария? или я ошибаюсь и придется придумывать что-то свое?

Hello everyone! I'm writing a scraper that needs to run in an infinite loop and check the same articles repeatedly. Here's what I want to achieve: if an article has changed, a new row should be created in the database, while the old one remains unchanged. If the article hasn't changed, the scraper should simply skip it.

I've heard that Scrapy has a built-in mechanism for this kind of scenario. Is that true, or will I need to implement something custom?

Any advice would be appreciated.

Читать полностью…

Scrapy

10 Nov 2024 19:49

ну щас рынок нанимателя, они могут по-идее чо угодно придумывать и нормально будет)

Читать полностью…

Scrapy

10 Nov 2024 19:44

Делать парсеры на python, парсить разные сайты от яндекса до мелких и записывать в csv файлы

Читать полностью…

Scrapy

10 Nov 2024 19:43

осталось 3 минуты...
потом, к овнеру за разбаном

Читать полностью…

Scrapy

10 Nov 2024 19:41

5 мин я раздумья. время пошло

Читать полностью…

Scrapy

10 Nov 2024 19:10

Здравствуйте! Предлагаю работу на постоянную основу. Если хотите быть в нашей команде вам нужно выполнить легкое тестовое задание на парсинг с python(undetected-chromedriver). Телеграм: /channel/assistant_yours

Читать полностью…

Scrapy

10 Nov 2024 13:35

Привет, кто знает как называется такая капча? Хочу попробовать её решать с помощью rucaptcha

Читать полностью…