scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

очень интересно про 10 страниц, возможно мне бы этого хватило. но простите, не понимаю где это найти, т.к. ендпоинты отдают 401

Читать полностью…

Scrapy

у них в документации есть
около 20, посмотри

Читать полностью…

Scrapy

В ТГ надо собрать со своего аккаунта сообщения, какие лимиты на кол-во запросов в секунду?

Читать полностью…

Scrapy

Виктория Белова, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network

Читать полностью…

Scrapy

но это всё без CrawlSpider тогда точно так же должно работать

Читать полностью…

Scrapy

в основном это паук. в настройках всё по дефолту

Читать полностью…

Scrapy

может у вас dont_filter где-то

Читать полностью…

Scrapy

я бы не был так уверен, в отсутствии POST запросов :))

Читать полностью…

Scrapy

да, потому
а в вопросе обычные геты, да и откуда в CrawlSpider пост

Читать полностью…

Scrapy

тока при POST еще и тело запроса смотрит

Читать полностью…

Scrapy

POST не фильтрует может человек об этом?

Читать полностью…

Scrapy

еще раз - за это отвечает
DUPEFILTER_CLASS = "scrapy.dupefilters.RFPDupeFilter"
который подключается в шедулере, по дефолту оно работает. Если не работает, то, одно из двух
1. ссылки отличаются
2. косяк в коде, возможно шедулер переписан или какой то кастомный из просторов интенета.


и да, то что "первый ответ" это дублирование функционала

Читать полностью…

Scrapy

тут первый ответ:
https://stackoverflow.com/questions/78753057/python-scrapy-get-all-urls-in-the-webpage-without-duplicate-urls

Читать полностью…

Scrapy

эээ, вообще то , это на уровне ядра а не на уровне паука....
если не игнорит - значит чем то они отличаются

Читать полностью…

Scrapy

🙄🤣☺️😁😚🤣☺️👍
Haбиpaю людeй жeлaющиx пoлyчaть дoxoд нa CRYPTO. 🪙

Пo вpeмeни зaнятocть дo 2 чacoв в дeнь.
Мoжнo paбoтaть кaк c тeлeфoнa тaк и c пк.
Haпpaвлeниe: ТECТHEТ, APБИТPAЖ. 💼
Oбyчaeм нoвичкoв 🇧🇾🇦🇲🇷🇺
Paбoтaeм на oфициaльныx биpжax: Bitget, Bybit, OKX, Mexc.

Чтoбы yзнaть пoдpoбнee пишитe нa aккayнт:
@Alexander4137

Читать полностью…

Scrapy

Они 10 страниц дают соскрапить + применяй фильтры. Ну и если не боишься, то парси под логином 😃

Читать полностью…

Scrapy

доброго времени суток
появился вопрос по поводу amazon reviews, вдруг кто-то как и я ищет или уже нашел решение
они закрыли их за логином, но мне оочень нужно их добывать
поделитесь плиз мыслями как бы это можно воплотить в жизнь

Читать полностью…

Scrapy

@nika_hrik, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network

Читать полностью…

Scrapy

Господа, прошу прошение, это я лоханулся. Всё норм )

Читать полностью…

Scrapy

ну можете логи почитать про конкретные урлы

Читать полностью…

Scrapy

а кто сказал, что верный?
и да, Андрей правильно сказал насчет параметра запроса...

Читать полностью…

Scrapy

смотрел в пандасе, df["url"].value_counts() дубли до несколько сотен.
2. Не чего не менял, это и смутило.

Читать полностью…

Scrapy

` fingerprint_data = {
"method": to_unicode(request.method),
"url": canonicalize_url(request.url, keep_fragments=keep_fragments),
"body": (request.body or b"").hex(),
"headers": headers,
}
`

это то, от чего хэш счиает, тока заголвки надо указать, какие надо учитывать

Читать полностью…

Scrapy

Может потому и думал что не фильтрует. Сегодня проверю

Читать полностью…

Scrapy

схераль? оно все фильтрует

Читать полностью…

Scrapy

это то же самое, что ревесты с BS впиндюить в проект. Можно, но, нафуй не надо, ибо - маразм

Читать полностью…

Scrapy

там и вопрос странный

Читать полностью…

Scrapy

видел вариант где создают сет прйденных и в parse_item проверяют есть ли юрл в них... Но это вариант так себе - т.к. всё равно же запрос идёт, хоть и данные не тянем...

Читать полностью…

Scrapy

Привет, а как филтровать уже пройденные ссылки в CrawlSpider ? Если использовать обычный Спайдер, то он сам их игнорит, а так - нет

class FollowAllSpider(CrawlSpider):
name = 'xozyayushka_list'
DOWNLOAD_DELAY = 0
start_urls = ['https://xozyayushka.az/']
allowed_domains = ['xozyayushka.az']
rules = [Rule(LinkExtractor(), callback='parse_item', follow=True)]
...

Читать полностью…

Scrapy

Спасибо, получилось)

Читать полностью…
Subscribe to a channel