scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

https://dpaste.com/9ZXXU6MCJ

Читать полностью…

Scrapy

прямой путь в ад к выгоранию

Читать полностью…

Scrapy

Спасибо, не могу порой отвлечься пока не решу, и уже голова не варит вообще

Читать полностью…

Scrapy

например он рендерится только когда до него долистать

Читать полностью…

Scrapy

TimeoutError: Page.wait_for_selector: Timeout 5000ms exceeded.
Call log:
waiting for locator("button.pagination_nextPageButton__QpxSP") to be visible

Читать полностью…

Scrapy

как с network работать (как на скриншоте) в dynamic content описано, оттуда видно чего этот запрос show more делает, ну вобщем, разберетесь)

Читать полностью…

Scrapy

и тд. и даже жсон отдает

Читать полностью…

Scrapy

простенький аяксовый апи

Читать полностью…

Scrapy

А тогда вообще пофигу

Читать полностью…

Scrapy

Прочту, спасибо.

Пока пойду по пью чай, а то ноут горячий как и моя голова

Читать полностью…

Scrapy

На питоне 3 года, скрапинг впервые

Читать полностью…

Scrapy

Ну или dynamic content , да, playwright это если на производительность не особо важно

Читать полностью…

Scrapy

А вы только начали писать? Если да, рекомендую бросить эти связку и взять https://github.com/scrapy-plugins/scrapy-playwright

Читать полностью…

Scrapy

У меня есть задача спарсить страницу, на которой есть кнопка “Show More”, при нажатии на которую динамически подгружаются новые данные. Это не классическая пагинация, которая ведет на другую URL-страницу, поэтому я не могу использовать стандартные инструменты Scrapy для решения этой задачи. Я узнал, что для этого лучше использовать Splash или Selenium, но с обеими технологиями я пока не работал.

Я решил попробовать Splash и узнал, что его лучше всего запускать через Docker, так как у меня не установлен Linux. Однако возникла проблема: Scrapy и Splash не видят друг друга, хотя я многократно проверил порты и настройки.

Читать полностью…

Scrapy

Извините не то отправил

Читать полностью…

Scrapy

TargetClosedError: Request.header_value: Target page, context or browser has been closed

Читать полностью…

Scrapy

QpxSP и еще может вот эта часть очень часто меняется. Как и FAXOE.

Читать полностью…

Scrapy

Думал о том что он рендериться с задержкой, но до этого не дошел (но это увы не так)

Читать полностью…

Scrapy

Как там не может быть того селектора

Читать полностью…

Scrapy

def start_requests(self):
for url in self.start_urls:
headers = {
"User-Agent": random.choice(USER_AGENT_LIST)
}
yield scrapy.Request(
url,
meta=dict(
playwright=True,
playwright_include_page=True,
playwright_page_methods=[
PageMethod("wait_for_selector", "button.pagination_nextPageButton__QpxSP", timeout=5000),
PageMethod("click", "button.pagination_nextPageButton__QpxSP"),
PageMethod("wait_for_selector", "a.procedure-card_procedureCard__FAXOE", timeout=5000),
],
headers=headers
),
callback=self.parse,
)

Читать полностью…

Scrapy

Грубо говоря, моя задача — распарсить фотографии “до” и “после” операций для обучения искусственного интеллекта. Первостепенной задачей является пройти по всем ссылкам различных типов операций. Однако на сайте они реализованы таким образом, что на странице отображаются только 100 ссылок, а остальные загружаются только после нажатия кнопки “Show More”. В дальнейшем парсинг будет стандартным, без необходимости работы с динамическим контентом.

Читать полностью…

Scrapy

https://www.realself.com/procedureslist/filter?offset=100&limit=100&sortBy=mostpopular&sortDirection=asc&term=&locationId=130503

Читать полностью…

Scrapy

https://www.realself.com/procedures

Читать полностью…

Scrapy

Scrapy playwright если чо под виндой щас тоже работает

Читать полностью…

Scrapy

Если хотите по красоте, то почитайте про dynamic content, это сложнее но быстрее парсит и меньше ресурсов жрать будет

Читать полностью…

Scrapy

зависит от ваших навыков

Читать полностью…

Scrapy

Так что лучше взять?

Читать полностью…

Scrapy

для этого лучше использовать https://docs.scrapy.org/en/latest/topics/dynamic-content.html

Читать полностью…

Scrapy

ConnectionRefusedError: Connection was refused by other side: 111: Connection

Читать полностью…

Scrapy

возникает ошибка, связанная с файлом dupefilter.py. Я изменил этот файл вручную на локальной машине, чтобы исправить проблему, но теперь не знаю, как сделать то же самое в Docker. При каждом запуске Docker скачивает библиотеку заново, с поврежденным или неработающим файлом. Как правильно изменить файл в Docker-контейнере и сохранить изменения при перезапуске контейнера?

Спасибо!

Читать полностью…
Subscribe to a channel