Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

scrapy_python | Unsorted

Subscribe to a channel

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

02 Nov 2024 22:13

а вот стоковый crawlee - нет. сделал все то же самое
видимо, он ему свой конфиг проставляет при запуске
или что скорее всего он на любой чих (403) просто дропает страницу так и не дождавшись проверки

Читать полностью…

Scrapy

02 Nov 2024 21:26

спасибо, резонно
но попробую все таки поднять сначала... питоновский вариант

как накопаю в чем дело было - напишу сюда, что б другие не мучались (если найду конечно))

Читать полностью…

Scrapy

02 Nov 2024 21:25

ну мы ж не только флаги сравниваем, или только?

Читать полностью…

Scrapy

02 Nov 2024 21:24

так флаг-то относится к браузеру, как я понимаю, вот например

Читать полностью…

Scrapy

02 Nov 2024 21:23

я щас изучаю парсер на гитхабе обновленный 14 дней назад и ничего не могу понять что там такого, чего нет у меня

Читать полностью…

Scrapy

02 Nov 2024 21:16

подскажите пожалуйста, куда копать или как это отладить (найти причину бана по 403)?

библиотека crawlee, сайт ozon.ru
конфиг запуска дефолтный, разве что хедеры передал частичные

Читать полностью…

Scrapy

01 Nov 2024 18:30

Окей, а как aiohttp справляется с ним или что происходит?)

Читать полностью…

Scrapy

31 Oct 2024 04:09

https://youtube.com/shorts/Q1tez3uVaUs?si=M89atTlSyIt4MESJ

Читать полностью…

Scrapy

29 Oct 2024 17:19

Там капча geetest, может нерентабельно быть.

Читать полностью…

Scrapy

29 Oct 2024 16:25

Смотрите какая штука прикольная https://github.com/Integuru-AI/Integuru

Читать полностью…

Scrapy

26 Oct 2024 09:44

всем привет. подскажите пожалуйста, можно ведь в одном пауке юзать и scrapy-playwright и обычные хендлеры? я в meta не прописываю чтобы pw юзать, но не работает ничего((

Читать полностью…

Scrapy

22 Oct 2024 14:14

с какой страницы запрос?

Читать полностью…

Scrapy

21 Oct 2024 16:08

i am racing rockport please dm

Читать полностью…

Scrapy

21 Oct 2024 14:00

Hello everyone.
I am scrapping export.
who needs me?
Please DM

Читать полностью…

Scrapy

18 Oct 2024 09:13

парсинг ломаных строгих форматов это дорога в ад и есть

Читать полностью…

Scrapy

02 Nov 2024 22:05

хм, забавно получается
дефолтный (!!!) селениум проходит антибот проверку

Читать полностью…

Scrapy

02 Nov 2024 21:25

вот честно говоря не знаю :(

Читать полностью…

Scrapy

02 Nov 2024 21:25

ну условно, я все хедеры с клиентского браузера передал
а вот если смотреть на код выше, то не хватает только —no-sandbox и —disable-gpu

Читать полностью…

Scrapy

02 Nov 2024 21:24

Во-первых - питон, а у Вас JS

Читать полностью…

Scrapy

02 Nov 2024 21:22

Озон просто так не даст ничего )))) Это Вам не WB

Читать полностью…

Scrapy

01 Nov 2024 18:32

никак, просто он разный

Читать полностью…

Scrapy

01 Nov 2024 18:28

Всем привет. Кто может подсказать или объяснить почему когда используешь разные библиотеки то получаешь разные статус код от бекенда ?

Читать полностью…

Scrapy

30 Oct 2024 11:01

Прикольна! Правда чот я демку посмотрел, не очень понял чем это отличается (особенно генерируемый код) от условного https://curlconverter.com/
Они там говорят про то, что генерится граф из пяти действий на одно действие скачки файла и определяет где его скачали и динамические части, но по-факту динамические части оно (если я правильно понял) берет из предыдущих запросов, а запрос на скачку файла - ну он происходит тупо по нажатии "скачать файл", а в динамических частях стоит чему-то поменяться (той же дате) и все, кирдык этому коду.

Наверное, это стоит попробовать на каких-то более сложных штуках. Вон тот же шейн к примеру, как он с этим справится...)

Читать полностью…

Scrapy

29 Oct 2024 16:29

Всем привет! Куплю парсер th.shein.com
Нужно собрать товары и обновлять цены.

Читать полностью…

Scrapy

26 Oct 2024 09:45

хендлер scrapy-playwright фолбэкает на обычный

Читать полностью…

Scrapy

22 Oct 2024 14:43

запрос на получение полного описания объявления. Он раньше работал а сейчас нет.

Читать полностью…

Scrapy

22 Oct 2024 14:05

Всем привет, кто-нить знает рабочий запрос формата m.avito.ru/api/15/items/ ?

Читать полностью…

Scrapy

21 Oct 2024 14:51

I am scrapping import.... please dm

Читать полностью…

Scrapy

18 Oct 2024 09:15

странный js попадается, но я его регуляркой чищу и через chompjs прогоняю
в нём например вместо запятых в некоторых местах слеш, внутри строчек неэкранированные кавычки
тут регулярки тема

Читать полностью…

Scrapy

18 Oct 2024 09:12

Видимо ломаных респонсов вам не попадалось

Читать полностью…

Subscribe to a channel