scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Всем привет, подскажите пожалуйста, как мне сделать, чтобы после того, как паук заканчивал работать, он начинал заново скрепить. Паука я запускаю так:

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

if __name__ == "__main__":
settings = get_project_settings()
process = CrawlerProcess(settings)

process.crawl("spider")
process.start()
process.stop()

Читать полностью…

Scrapy

спасибо!!
попробую

Читать полностью…

Scrapy

а вы кравлите ревью с амазона?
есть впечетление что вы даете советы ради совета

Читать полностью…

Scrapy

очень интересно про 10 страниц, возможно мне бы этого хватило. но простите, не понимаю где это найти, т.к. ендпоинты отдают 401

Читать полностью…

Scrapy

у них в документации есть
около 20, посмотри

Читать полностью…

Scrapy

В ТГ надо собрать со своего аккаунта сообщения, какие лимиты на кол-во запросов в секунду?

Читать полностью…

Scrapy

Виктория Белова, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network

Читать полностью…

Scrapy

но это всё без CrawlSpider тогда точно так же должно работать

Читать полностью…

Scrapy

в основном это паук. в настройках всё по дефолту

Читать полностью…

Scrapy

может у вас dont_filter где-то

Читать полностью…

Scrapy

я бы не был так уверен, в отсутствии POST запросов :))

Читать полностью…

Scrapy

да, потому
а в вопросе обычные геты, да и откуда в CrawlSpider пост

Читать полностью…

Scrapy

тока при POST еще и тело запроса смотрит

Читать полностью…

Scrapy

POST не фильтрует может человек об этом?

Читать полностью…

Scrapy

еще раз - за это отвечает
DUPEFILTER_CLASS = "scrapy.dupefilters.RFPDupeFilter"
который подключается в шедулере, по дефолту оно работает. Если не работает, то, одно из двух
1. ссылки отличаются
2. косяк в коде, возможно шедулер переписан или какой то кастомный из просторов интенета.


и да, то что "первый ответ" это дублирование функционала

Читать полностью…

Scrapy

Надоели обманчивые схeмы и фейкoвые пpедложения? Если вам нужен стaбильный и рeальный споcоб заpаботка, то у нас есть подxод, который рабoтает. Пишите плюс в личные сообщения и я расскажу как это рaботает

Читать полностью…

Scrapy

Смотрите эндпоинт medley-filtered-reviews, он прекрасно парсится

Читать полностью…

Scrapy

Посмотри в коде страницы https://www.amazon.com/hz/reviews-render/ajax/

Читать полностью…

Scrapy

Они 10 страниц дают соскрапить + применяй фильтры. Ну и если не боишься, то парси под логином 😃

Читать полностью…

Scrapy

доброго времени суток
появился вопрос по поводу amazon reviews, вдруг кто-то как и я ищет или уже нашел решение
они закрыли их за логином, но мне оочень нужно их добывать
поделитесь плиз мыслями как бы это можно воплотить в жизнь

Читать полностью…

Scrapy

@nika_hrik, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network

Читать полностью…

Scrapy

Господа, прошу прошение, это я лоханулся. Всё норм )

Читать полностью…

Scrapy

ну можете логи почитать про конкретные урлы

Читать полностью…

Scrapy

а кто сказал, что верный?
и да, Андрей правильно сказал насчет параметра запроса...

Читать полностью…

Scrapy

смотрел в пандасе, df["url"].value_counts() дубли до несколько сотен.
2. Не чего не менял, это и смутило.

Читать полностью…

Scrapy

` fingerprint_data = {
"method": to_unicode(request.method),
"url": canonicalize_url(request.url, keep_fragments=keep_fragments),
"body": (request.body or b"").hex(),
"headers": headers,
}
`

это то, от чего хэш счиает, тока заголвки надо указать, какие надо учитывать

Читать полностью…

Scrapy

Может потому и думал что не фильтрует. Сегодня проверю

Читать полностью…

Scrapy

схераль? оно все фильтрует

Читать полностью…

Scrapy

это то же самое, что ревесты с BS впиндюить в проект. Можно, но, нафуй не надо, ибо - маразм

Читать полностью…

Scrapy

там и вопрос странный

Читать полностью…
Subscribe to a channel