Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

scrapy_python | Unsorted

Subscribe to a channel

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

01 Sep 2024 13:50

ну в первый раз, наверное, никак

а после первого раза хранить в условном dbm время выполнения, среднее время ответа, и еще может что
а в следующие запуски уже можно будет высчитать, обновляя предположительное время в зависимости от времени ответа или еще чего нибудь

Читать полностью…

Scrapy

01 Sep 2024 13:37

да и то, они показывают прогрес бар по реквесту, а не в целом

Читать полностью…

Scrapy

31 Aug 2024 03:50

https://www.realself.com/photo/galleryFilter?bypass_cache=false&page=1&search_type=recommended&topic_id=212

Читать полностью…

Scrapy

31 Aug 2024 03:47

Добрый день.

Дело в том, что с веб-скрапингом я более-менее разобрался. Проблема в том, что, как ни старался, я получаю ответ 403. Я пробовал менять заголовки и использовать свои пользовательские куки после регистрации, но все равно получаю 403. Хотя иногда приходит ответ 200. Может ли проблема быть в том, что на сайте установлен лимит запросов для конкретного пользователя?

Читать полностью…

Scrapy

30 Aug 2024 10:55

https://dpaste.com/9ZXXU6MCJ

Читать полностью…

Scrapy

30 Aug 2024 09:16

прямой путь ~~в ад~~ к выгоранию

Читать полностью…

Scrapy

30 Aug 2024 08:51

Спасибо, не могу порой отвлечься пока не решу, и уже голова не варит вообще

Читать полностью…

Scrapy

30 Aug 2024 08:48

например он рендерится только когда до него долистать

Читать полностью…

Scrapy

30 Aug 2024 08:46

TimeoutError: Page.wait_for_selector: Timeout 5000ms exceeded.
Call log:
waiting for locator("button.pagination_nextPageButton__QpxSP") to be visible

Читать полностью…

Scrapy

30 Aug 2024 07:32

как с network работать (как на скриншоте) в dynamic content описано, оттуда видно чего этот запрос show more делает, ну вобщем, разберетесь)

Читать полностью…

Scrapy

30 Aug 2024 07:26

и тд. и даже жсон отдает

Читать полностью…

Scrapy

30 Aug 2024 07:26

простенький аяксовый апи

Читать полностью…

Scrapy

30 Aug 2024 07:24

А тогда вообще пофигу

Читать полностью…

Scrapy

30 Aug 2024 07:23

Прочту, спасибо.

Пока пойду по пью чай, а то ноут горячий как и моя голова

Читать полностью…

Scrapy

30 Aug 2024 07:22

На питоне 3 года, скрапинг впервые

Читать полностью…

Scrapy

01 Sep 2024 13:38

откуда бы программе знать когда парсинг закончится?

Читать полностью…

Scrapy

01 Sep 2024 13:32

всех с праздником)
ребята, можете подсказать, пожалуйста, существует ли уже extension/addon для шкалы прогресса парсинга? который сможет приблизительно сказать через какое время парсинг закончится?
штука то, имхо, удобная, хоть я и сейчас я знаю когда парсинг закончится, но только исходя из времени предыдущих запусков

нашел только по одному пр и ишью, но они оба не очень живые

https://github.com/scrapy/scrapy/issues/3793

https://github.com/scrapy/scrapy/pull/5042

Читать полностью…

Scrapy

31 Aug 2024 03:50

К примеру, я пытаюсь парсить данную галерею. Пытаюсь парсить ее с помощью API-запроса, который я получил на этой странице. Если кому-нибудь не верит, можете проверить на своей локальной машине, работает ли это у вас. То есть является ли это неким локальным ограничением для моего юзера: https://www.realself.com/photos/breast-augmentation

Читать полностью…

Scrapy

30 Aug 2024 10:55

Как остановить закрытие контекста?

Читать полностью…

Scrapy

30 Aug 2024 10:54

TargetClosedError: Request.header_value: Target page, context or browser has been closed

Читать полностью…

Scrapy

30 Aug 2024 09:15

QpxSP и еще может вот эта часть очень часто меняется. Как и FAXOE.

Читать полностью…

Scrapy

30 Aug 2024 08:50

Думал о том что он рендериться с задержкой, но до этого не дошел (но это увы не так)

Читать полностью…

Scrapy

30 Aug 2024 08:47

Как там не может быть того селектора

Читать полностью…

Scrapy

30 Aug 2024 08:46

def start_requests(self): for url in self.start_urls: headers = { "User-Agent": random.choice(USER_AGENT_LIST) } yield scrapy.Request( url, meta=dict( playwright=True, playwright_include_page=True, playwright_page_methods=[ PageMethod("wait_for_selector", "button.pagination_nextPageButton__QpxSP", timeout=5000), PageMethod("click", "button.pagination_nextPageButton__QpxSP"), PageMethod("wait_for_selector", "a.procedure-card_procedureCard__FAXOE", timeout=5000), ], headers=headers ), callback=self.parse, )

Читать полностью…

Scrapy

30 Aug 2024 07:26

Грубо говоря, моя задача — распарсить фотографии “до” и “после” операций для обучения искусственного интеллекта. Первостепенной задачей является пройти по всем ссылкам различных типов операций. Однако на сайте они реализованы таким образом, что на странице отображаются только 100 ссылок, а остальные загружаются только после нажатия кнопки “Show More”. В дальнейшем парсинг будет стандартным, без необходимости работы с динамическим контентом.

Читать полностью…

Scrapy

30 Aug 2024 07:26

https://www.realself.com/procedureslist/filter?offset=100&limit=100&sortBy=mostpopular&sortDirection=asc&term=&locationId=130503

Читать полностью…

Scrapy

30 Aug 2024 07:24

https://www.realself.com/procedures

Читать полностью…

Scrapy

30 Aug 2024 07:23

Scrapy playwright если чо под виндой щас тоже работает

Читать полностью…

Scrapy

30 Aug 2024 07:22

Если хотите по красоте, то почитайте про dynamic content, это сложнее но быстрее парсит и меньше ресурсов жрать будет

Читать полностью…

Scrapy

30 Aug 2024 07:22

зависит от ваших навыков

Читать полностью…

Subscribe to a channel