scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

где тут видно что разные

Читать полностью…

Scrapy

но они разные всегда

Читать полностью…

Scrapy

вот я тоже только что об этом подумал

Читать полностью…

Scrapy

могу сюда лог скинуть?

Читать полностью…

Scrapy

в методе connectionLost класса _ResponseReader нашёл

if not self._fail_on_dataloss:
self._finish_response(flags=["dataloss"])
return

значит так и буду ловить

Читать полностью…

Scrapy

Мб в response.meta что-то будет?

Читать полностью…

Scrapy

Не хочу говорить ерунды, но я бы попробовал посмотреть в ide код
from scrapy core.downloader.handlers import http11
и проверил нельзя ли как-то продуплицировать и под себя поменять

Читать полностью…

Scrapy

или ты про то, что стоит в пайплайне чекать существуют/не поломаны ли файлы по путям?

Читать полностью…

Scrapy

это надо в пайплайне ловить, возможно руками

Читать полностью…

Scrapy

сформулируй нормально задачу и сразу получишь ответ

Читать полностью…

Scrapy

logging.warn удобнее

Читать полностью…

Scrapy

А принт нельзя делать жёлтым или красным

Читать полностью…

Scrapy

как принтануть в монгу

Читать полностью…

Scrapy

Мне лично в коде удобней читать и модифицировать ф-строки

Читать полностью…

Scrapy

lazy evaluation пропадает

Читать полностью…

Scrapy

если уверены в этом значит не дупфильтр

Читать полностью…

Scrapy

я думал, что он фильтрует пост запросы по переданным данным

Читать полностью…

Scrapy

голосую за дупфильтр

Читать полностью…

Scrapy

всем привет, возник вопрос. из метода parse я делаю yield scrapy.http.JsonRequest, но, в метод parse у меня допустим проходит 34 страницы, а пост запрос отправляется только лишь для 13, в чем может быть проблема?

Читать полностью…

Scrapy

ну наследоваться от хендлера вариант есть и его под себя настроить, чтоб тот ексепшн возвращал а не варнинг, но как то оверкил как будто

Читать полностью…

Scrapy

с одним из вариантов настройки это будет в флагах респонса, с другим не помню, наверно будет эксепшн

Читать полностью…

Scrapy

нет, про ловить ворнинг, но я не помню как это делается

Читать полностью…

Scrapy

а как такой варнинг словить?

Читать полностью…

Scrapy

а что не так? при скачивании некоторых картинок, бывает даталосс, такие итемы проходят дальше по пайплайнам с путём до несуществующей картинки, или которая весит 0 байт
сейчас решаю это проходят по бд с путями до картинок, проверяя их существование или размер и скачиваю заново
хочу чтоб при таком варнинге, который я привёл, итем дропался

Читать полностью…

Scrapy

помогите, пожалуйста, как дропать итемы, у которых в реквестах (в основном с картинками) был дата лосс

2024-04-08 17:03:22 [scrapy.core.downloader.handlers.http11] WARNING: Got data loss in ~url~. If you want to process broken responses set the setting DOWNLOAD_FAIL_ON_DATALOSS = False -- This message won't be shown in further requests

Читать полностью…

Scrapy

std_print=print
def print(*args, **kwargs):
db[“collection”].insert_one({“print”:args})
std_print(*args, **kwargs)

Читать полностью…

Scrapy

думаю можно изловчиться, но мне без надобности

Читать полностью…

Scrapy

тогда можно не заморачиваться с логером и использовать принты

Читать полностью…

Scrapy

ф строки форматируются сразу
а если уровень логирования выставлен иной, чем в вызове, строки не форматируются

Читать полностью…

Scrapy

если логируешь список с огромной кучей больших словарей то тут лучше через %, это будет смысл иметь

Читать полностью…
Subscribe to a channel