Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
это всё может упереться в то что это find(), а не нормальные селекторы, но опять же лол
Читать полностью…ну хочется быть уверенным
потому что если это блок "Причины" то лол
обычно когда классы хитро-мудро названы, где-то рядом тупой json лежит, а еще конвертация из этой каши во "внутренние" названия. И чаще это не защита от ботов, а просто какая-нибудь околофронтендовая либа. А вообще - хочешь лучше совет, линкани в пастебине кусок html-я побольше, лучше даже тупо весь исходник (ну можешь повырезать там секреты)
Читать полностью…Библиотека pyTelegramBotAPI. Возможно вопрос будет выглядеть, как не по теме данного чата, но я считаю что здесь я получу самый правильный ответ на этот вопрос . Как сделать цикл, который будет срабатывать каждые 5 минут, но при нажатии кнопки цикл должен остановиться ?
Читать полностью…Try/except и залогируй документ, потом глянешь как надо было
Читать полностью…я сделал так,но боюсь что если какой-то див на другой странице будет отсутствовать, полетит логика
Читать полностью…только текстовым наполнением,они размещены в контейнере основного контента страницы по порядку, но в них абсолютно разный текст
Читать полностью…да в том то и дело, что они только с разным текстовым наполнением и общие признаки у них одинаковые
Читать полностью…правильно понимаю, что если в extension сохранить ссылку на crawler.stats, то при сигнале spider_closed все статы будут актуальны на момент закрытия паука, а не на момент вызова from_crawler?
Читать полностью…да там даже такое сработает (что все-таки хуже чем прыгать от причин): .b-text-block-6+ .bg-grey .container
ну или идешь до конта, содержащего причины (но берешь весь container, и потом в нем берешь этот text)
Читать полностью…тебе надо подвязываться "<h2 class="page-title-2">Причины</h2>"
Читать полностью…simptom_reasons = simptom_page_bs4.find_all('div', class_='b-text-block-6__text text')[2].text
а, я понял судя по
ну этот b-text-block-6__text
- это обозначение куска текста бустрапом или чем-то таким, там их мильярд
1. пользовать что то вроде Celery
2. не бесить модера в выходной вопросами не по теме чата
ну зачем так сайты делать?)Антипарсерская защита какая-то
Читать полностью…но вы же не можете сформулировать чем третий лучше второго, значит так тому и быть
Читать полностью…simptom_reasons = simptom_page_bs4.find_all('div', class_='b-text-block-6__text text')[2].text
Читать полностью…бгг, ну, если они ничем не отличаются - значит, они все три и нужны? а, если, не нужны все три, то, чем то они отличаются?
Читать полностью…Есть 3 div с одинаковыми классами и абсолютно идентичной вложенностью как при использовании find грамотно выбирать только те div которые тебе нужны?
Читать полностью…