1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Мне нужно мониторить общую группу в ватсапе и при получении триггер сообщения писать в нее 1 слово, с интервалом ~1час.
Работать должно автономно 24/7 в докере на дедике.
Насколько я понял у ватсапа нет изичной халявной апишки, в этом проблема
Ктото уже сталкивался с таким кейсом, чем воспользовались?
Если нужно подделать тлс фингерпринт, можно взять scrapy-curl-cffi
Читать полностью…
Не понравился сплеш. Browserless больше понравился, но он тяжёлый и много ненужной функций для меня, пришлось свою писать))
Читать полностью…
Сначала ж надо сломать все пальцы, а потом пойти, как большинство))
Читать полностью…
но вы уже код написали, запустили и спросили почему он не работает (кстати его не показав)
я думаю вам надо идти и смотреть исходники, ну либо создавать страницу самому и передавать её в реквесте
Есть пакет tf-playwright-stealth. На сколько я понимаю, то он с коробки подкидывает красивый фингерпинт.
Код отрабатывает, но сайт сервис по определению ботов показывает, что проверку (chromium) не прохожу. Сервис видит, что это вебдрайвер.
Подключение фингрепринта осуществляется с помощью download midlware или нужно писать свой кастомный download handler?
Или есть ещё какие-нибудь готовые технические решения?
«Человека легче обмануть, чем убедить, что его обманули».
Марк Твен
Самый распространённый имхо выкинуть по максимуму все браузеры. И воспользоваться одним из решений с браузерными tls. Они есть для scrapy. А браузер - куки получить и все.
Читать полностью…
Честно, глубоко не копал. На данный момент, какой стек является общепринятым и самым распространенным?
Читать полностью…
ну то есть есть scrapy-selenium, но большинство скорее всего и про него не знает
Читать полностью…
Я отдельно вытащил плейрайт в фаст апи и упаковал в докер. А в скрапи просто сделал запросы на этот апи и все. Не стал парится пихать плейрайт в скрапи, не все заросы делаю через плейрайт. И все это работает на кубеон
Читать полностью…
Это, я так понимаю, нужно посмотреть схему взаимодействия самого скрапи и плейврайта. Т.к. стелз применяется уже к самой Пейдж.
А в мидлваре мы получим доступ только к метадате.
Это менеджить надо на уровне хендлера
нет никакого "Подключение фингрепринта", вы всё перепутали видимо
Читать полностью…
Ребят, пытаюсь в scrapy, scrapy-playwright и tf-playwright-stealth.
Пробовал обернуть в мидлвару через 'evaluate' в process_request(). Работает не корректно, при попытке ходить на bot.sannysoft через хромиум и фф видит вебдрайвер плюс:
- в хроме варнинг на 264 кодек
- в фф половина полей связанных с видео - фейл
Не пойму, моя мидлвара отрабатывает уже после запроса чтоле?
Или фингерпинт как-то по другому имплементировать? Или есть ещё какие-нибудь технические решения?
Вот оно что, за день сменился сайт. Теперь никаких таблиц. И можно пагинацию брать сразу с каталога. Начал вчера запускать паука. А выдачи - 0. Ещё раз спасибо за помощь.
Читать полностью…