Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
в методе connectionLost класса _ResponseReader нашёл
if not self._fail_on_dataloss:
self._finish_response(flags=["dataloss"])
return
Не хочу говорить ерунды, но я бы попробовал посмотреть в ide код
from scrapy core.downloader.handlers import http11
и проверил нельзя ли как-то продуплицировать и под себя поменять
или ты про то, что стоит в пайплайне чекать существуют/не поломаны ли файлы по путям?
Читать полностью…Мне лично в коде удобней читать и модифицировать ф-строки
Читать полностью…я думал, что он фильтрует пост запросы по переданным данным
Читать полностью…всем привет, возник вопрос. из метода parse я делаю yield scrapy.http.JsonRequest, но, в метод parse у меня допустим проходит 34 страницы, а пост запрос отправляется только лишь для 13, в чем может быть проблема?
Читать полностью…ну наследоваться от хендлера вариант есть и его под себя настроить, чтоб тот ексепшн возвращал а не варнинг, но как то оверкил как будто
Читать полностью…с одним из вариантов настройки это будет в флагах респонса, с другим не помню, наверно будет эксепшн
Читать полностью…а что не так? при скачивании некоторых картинок, бывает даталосс, такие итемы проходят дальше по пайплайнам с путём до несуществующей картинки, или которая весит 0 байт
сейчас решаю это проходят по бд с путями до картинок, проверяя их существование или размер и скачиваю заново
хочу чтоб при таком варнинге, который я привёл, итем дропался
помогите, пожалуйста, как дропать итемы, у которых в реквестах (в основном с картинками) был дата лосс
2024-04-08 17:03:22 [scrapy.core.downloader.handlers.http11] WARNING: Got data loss in ~url~. If you want to process broken responses set the setting DOWNLOAD_FAIL_ON_DATALOSS = False -- This message won't be shown in further requestsЧитать полностью…
std_print=printЧитать полностью…
def print(*args, **kwargs):
db[“collection”].insert_one({“print”:args})
std_print(*args, **kwargs)
тогда можно не заморачиваться с логером и использовать принты
Читать полностью…ф строки форматируются сразу
а если уровень логирования выставлен иной, чем в вызове, строки не форматируются
если логируешь список с огромной кучей больших словарей то тут лучше через %, это будет смысл иметь
Читать полностью…