Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

14 Nov 2024 17:38

очень интересно про 10 страниц, возможно мне бы этого хватило. но простите, не понимаю где это найти, т.к. ендпоинты отдают 401

Читать полностью…

Scrapy

14 Nov 2024 17:02

у них в документации есть
около 20, посмотри

Читать полностью…

Scrapy

14 Nov 2024 13:49

В ТГ надо собрать со своего аккаунта сообщения, какие лимиты на кол-во запросов в секунду?

Читать полностью…

Scrapy

14 Nov 2024 11:54

Виктория Белова, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network

Читать полностью…

Scrapy

14 Nov 2024 08:47

но это всё без CrawlSpider тогда точно так же должно работать

Читать полностью…

Scrapy

14 Nov 2024 08:45

в основном это паук. в настройках всё по дефолту

Читать полностью…

Scrapy

14 Nov 2024 08:43

может у вас dont_filter где-то

Читать полностью…

Scrapy

14 Nov 2024 08:17

я бы не был так уверен, в отсутствии POST запросов :))

Читать полностью…

Scrapy

14 Nov 2024 08:16

да, потому
а в вопросе обычные геты, да и откуда в CrawlSpider пост

Читать полностью…

Scrapy

14 Nov 2024 08:14

тока при POST еще и тело запроса смотрит

Читать полностью…

Scrapy

14 Nov 2024 08:13

POST не фильтрует может человек об этом?

Читать полностью…

Scrapy

14 Nov 2024 08:09

еще раз - за это отвечает
DUPEFILTER_CLASS = "scrapy.dupefilters.RFPDupeFilter"
который подключается в шедулере, по дефолту оно работает. Если не работает, то, одно из двух
1. ссылки отличаются
2. косяк в коде, возможно шедулер переписан или какой то кастомный из просторов интенета.

и да, то что "первый ответ" это дублирование функционала

Читать полностью…

Scrapy

14 Nov 2024 08:03

тут первый ответ:
https://stackoverflow.com/questions/78753057/python-scrapy-get-all-urls-in-the-webpage-without-duplicate-urls

Читать полностью…

Scrapy

14 Nov 2024 07:56

эээ, вообще то , это на уровне ядра а не на уровне паука....
если не игнорит - значит чем то они отличаются

Читать полностью…

Scrapy

13 Nov 2024 18:53

🙄🤣☺️😁😚🤣☺️👍
Haбиpaю людeй жeлaющиx пoлyчaть дoxoд нa CRYPTO. 🪙

Пo вpeмeни зaнятocть дo 2 чacoв в дeнь.
Мoжнo paбoтaть кaк c тeлeфoнa тaк и c пк.
Haпpaвлeниe: ТECТHEТ, APБИТPAЖ. 💼
Oбyчaeм нoвичкoв 🇧🇾🇦🇲🇷🇺
Paбoтaeм на oфициaльныx биpжax: Bitget, Bybit, OKX, Mexc.

Чтoбы yзнaть пoдpoбнee пишитe нa aккayнт: @Alexander4137

Читать полностью…

Scrapy

14 Nov 2024 17:35

Они 10 страниц дают соскрапить + применяй фильтры. Ну и если не боишься, то парси под логином 😃

Читать полностью…

Scrapy

14 Nov 2024 15:51

доброго времени суток
появился вопрос по поводу amazon reviews, вдруг кто-то как и я ищет или уже нашел решение
они закрыли их за логином, но мне оочень нужно их добывать
поделитесь плиз мыслями как бы это можно воплотить в жизнь

Читать полностью…

Scrapy

14 Nov 2024 11:54

@nika_hrik, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network

Читать полностью…

Scrapy

14 Nov 2024 09:41

Господа, прошу прошение, это я лоханулся. Всё норм )

Читать полностью…

Scrapy

14 Nov 2024 08:46

ну можете логи почитать про конкретные урлы

Читать полностью…

Scrapy

14 Nov 2024 08:44

а кто сказал, что верный?
и да, Андрей правильно сказал насчет параметра запроса...

Читать полностью…

Scrapy

14 Nov 2024 08:42

смотрел в пандасе, df["url"].value_counts() дубли до несколько сотен.
2. Не чего не менял, это и смутило.

Читать полностью…

Scrapy

14 Nov 2024 08:16

` fingerprint_data = {
"method": to_unicode(request.method),
"url": canonicalize_url(request.url, keep_fragments=keep_fragments),
"body": (request.body or b"").hex(),
"headers": headers,
}
`

это то, от чего хэш счиает, тока заголвки надо указать, какие надо учитывать

Читать полностью…

Scrapy

14 Nov 2024 08:15

Может потому и думал что не фильтрует. Сегодня проверю

Читать полностью…

Scrapy

14 Nov 2024 08:14

схераль? оно все фильтрует

Читать полностью…

Scrapy

14 Nov 2024 08:10

это то же самое, что ревесты с BS впиндюить в проект. Можно, но, нафуй не надо, ибо - маразм

Читать полностью…

Scrapy

14 Nov 2024 08:08

там и вопрос странный

Читать полностью…

Scrapy

14 Nov 2024 07:59

видел вариант где создают сет прйденных и в parse_item проверяют есть ли юрл в них... Но это вариант так себе - т.к. всё равно же запрос идёт, хоть и данные не тянем...

Читать полностью…

Scrapy

14 Nov 2024 07:55

Привет, а как филтровать уже пройденные ссылки в CrawlSpider ? Если использовать обычный Спайдер, то он сам их игнорит, а так - нет

class FollowAllSpider(CrawlSpider):
    name = 'xozyayushka_list'
    DOWNLOAD_DELAY = 0
    start_urls = ['https://xozyayushka.az/']
    allowed_domains = ['xozyayushka.az']
    rules = [Rule(LinkExtractor(), callback='parse_item', follow=True)]
...

Читать полностью…

Scrapy

12 Nov 2024 11:43

Спасибо, получилось)

Читать полностью…