Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Добрый день. Есть ли какой-нибудь способ автоматически чистить scrapyd весии проекта? Заранее спасибо
Читать полностью…а, как всегда, не дочитал сообщение :))
таки да, конкретно для этого os.kill, насколько я помню, и ничего более.
перебирать все объекты и искать какой из них ждет ответа и не дает закрыться пауку.... та ну нах, проще кильнуть :)
spider.crawler.engine.close_spider(self, reason='no_proxies')Читать полностью…
как сделать unclean shutdown из пайплайна\мидлвари? при вызове self.crawler.engine.close_spider(self.crawler.spider, 'cond')
в некоторых случаях ничего не закроется пока я два раза ctrl+c не нажму
Это с прокси? Хотя если разница докер/не докер как будто бы не должно сказываться
Читать полностью…Блин, даже за чувака обидно. Старался, хотел фидбек... ну получил... а чё-то не очень он позитивный фидбек... Эх господин Синегубов, что ж вы так жестоко
Читать полностью…Что прям все 370)) ладно стопаем эту всю телегу. Кому не нравится не пользуйтесь. Дальше отвечать по этой теме не буду. Обсуждайте лучше Scrapy. Всем хорошего дня!
Читать полностью…а есть у кого-то готовые скрипты для получения email с сайтов? Задача полностью так звучит - есть стайты криптопроектов. На них есть email для сотрудничества. шаблон и точная страница не известны, надо пройти по всем страницам и с каждой страницы сохранить адреса электорнных почт. Сохранить нужно в базу. Желательно в контейнере с логированием. Готов предложить финансовое вознагрождение для решения этой задачи
Читать полностью…это у меня я в def process_request(self, request, spider):
но, насколько я помню, это soft kill
хорошо работает
os.kill(os.getpid(), signal.SIGINT)
os.kill(os.getpid(), signal.SIGINT)
я думал для того докера и существует, чтобы работал на любом сервере с конкретными зависимостями.
Читать полностью…"с прокси, проблема только из докера" - иии? что разного? пральна, система и компоненты системы,
вариантов мног, целых 1,5
1. откатиться до старого curl-ffi
2. искать, чего надо обновить в системе докера
Не в параллель в несколько потоков? Или это прямо сразу появляется?
Читать полностью…Ребят, обновился curl-cffi-0.7.1 и соответственно scrapy-impersonate-1.3.1, и перестал запускаться парсер на scrapy из докера, локально все ок, генерирует исключение, кто сталкивался?
Traceback (most recent call last):Читать полностью…
File "/home/airflow/.local/lib/python3.11/site-packages/curl_cffi/requests/session.py", line 1263, in request
await task
curl_cffi.curl.CurlError: Failed to perform, curl: (56) CONNECT tunnel failed, response 407. See https://curl.se/libcurl/c/libcurl-errors.html first for more details.
The above exception was the direct cause of the following exception:
буквально так же, Crutch
ещё можно сказать
изобретать велосипед - invent a bicycle
ну, плохой результат - это, то же, результат.
А чего он хотел, что все кинутся кричать "ой, какая крутячая тулзовина для регуляров"..... в чатике с инструментом, который изумительно работает с xpatch/css..... и сидят тут именно кодеры.... ну, такое себе.
в чатике по зенке будет намного больше положительных отзывов