1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Hi guys I made google maps scraper. 1000 leads in 15 second
Читать полностью…
А что этот сервис делает такого, что нельзя сделать самому?
Читать полностью…
я хочу, чтобы абсолютно все филды итемов проходили через несколько replace-ов с некоторыми символами.
Лучше всего такое преобразование сделать так, что к каждому филду добавить output_processor?
Всем привет, при запуске паука на ubuntu-server я получаю вот такую ошибку HTTPConnectionPool(host='localhost', port=54189): Read timed out. (read timeout=120). У меня вот такие зависимости:
[tool.poetry.dependencies]
python = "^3.12"
scrapy = "^2.11.2"
sqlalchemy = "^2.0.36"
alembic = "^1.14.0"
psycopg2-binary = "^2.9.10"
environs = "^11.0.0"
webdriver-manager = "^4.0.2"
scrapy-selenium4 = { git = "https://github.com/jirpok/scrapy-selenium4.git" }
pydantic = { version = "^2.9.2", extras = ["email"] }
selenium = "^4.26.1"
ну, что умеешь вырывать отельные фразы из контекста и отвечать только на них, игнорируя оставшуюся часть - это я уже догадался :)).
главная мысль сообщения была в том, что все обсуждение велось на совершенно другие темы. При правильно постановке вопроса - ответ нашелся за 12 минут, вместе с написанием матерного коммента :)
посему, как я выше сказал "корректно заданный вопрос = 50% ответа"©
о, надо распечатать и прилепить на стену, а то опять в оффе мозг успели вынуть :)))
я уже выше перепроверил, мидлварь ловит, а ты про нее в начале то же говорил
Читать полностью…
моего знания буржяза не хватает прочесть все эти простынки :))))
Читать полностью…
https://github.com/scrapy/scrapy/issues/6437
по моему, в стартовом топике об этом речь и идет
изначально вопрос звучал как "остановится ли паук", на этот вопрос и пытались ответить, потом все свернуло что "мне надо что бы страницы обрабатывались, наверное надо экранировать ошибки", теперь - ошибки надо отлавливать и анализировать.....
Читать полностью…
ну изначально вопрос звучал "возможно ли как-то перехватить то, что это произошло в функции parse?" иными словами перехватить ошибку
Читать полностью…
Если это ответ мне, то их же сотни провайдеров только по России...
Читать полностью…
Ну я тогда подумал, что я хз как через мидлвари это сварить, а потом, на следующий день, забыл про то, что надо глянуть как в мидлварях это возможно сделать; и начал отвечать на прошлые сообщения, на которые еще не отвечал, потому что общение с людьми приносит больше удовольствия чем айтишечка 😁
Читать полностью…
Я в 5 вечера написал, после этого не писал, сегодня еще отписал
Читать полностью…
ну и, фули было размазывать гавно по проруби и мусолить тему весь вчерашний день?
первая ссыль на гугле по корректно заданному вопросу ведет на иссю + 5 минут на проверку, и находим изумительный метод в классе SPIDER_MIDDLEWARES под названием def process_spider_exception(self, response, exception, spider): который сейчас отлично отработал деление на ноль в пауке.... да, в лог трейсбеком насрало, но, дало увидеть респонс, что, как я понял, и надо было....
@wrar42 ты же там отвечал... колебек errback отловит деление на ноль в методе?
Читать полностью…
нигде не было такого вопроса. И так понятно, что остановится
Читать полностью…
а, ну да, интересовало изначально, чтобы было видно конкретно, что это в parse
Читать полностью…
ну, изначальный вопрос был про совсем другое.... это потом уже пошла речь про отлов, а дискорд, вообще, очень позже всплыл
Читать полностью…
хех, так, оно, выясняется, что надо не просто спрятать ошибки, а обработать? собстн, как всегда - "корректно заданный вопрос = 50% ответа" :))).
так да, тогда - надо конкретные куски кода оборачивать и отправлять это дело в логи/или еще куда... Либо, не оборачивать, а пользоваться get'ами, как я и говорил... :)
зачем мне логи? Меня интересует содержание респонсов, потому что их не всегда можно воспроизвести
Читать полностью…