Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Приветствую всех. Товарищи с опытом в парсинге, напишите в личку, нужно спарсить один сайт. Оплачу
Читать полностью…оффтоп, не scrapy
ребят, кому интересно и кто может, пожалуйста, пройдитесь по коду, оставьте комменты и замечания https://github.com/abebus/palitra/pull/4
я в подкаротке asyncio и в weakref не силен, чувствую я явно что-то где то насрал
делаю маленькую либу для приложений застрявших на wsgi но почему то нуждающихся асинхронного взаимодействия
Приветствую.
Есть проект сбора данных с сайта.
Сначала идёт аутентификация через форму, потом собственно сбор.
Последнее время минут через 15 начало выкидывать - типа не залогинено.
Как обычно действуют в таких случаях?
Всем привет написал скрипт по поиску редких предметов для кс2 но сайт меня банит! после того пишу в тех меня розбанивают! они говорят что у них стоит скрипт который ловит ботов ! вопрос как-то можно это обойти ? типа добавить заголовки к запросу или как-то емулировать пользователя ? как вы думаете !
Читать полностью…Самый распространённый имхо выкинуть по максимуму все браузеры. И воспользоваться одним из решений с браузерными tls. Они есть для scrapy. А браузер - куки получить и все.
Читать полностью…Честно, глубоко не копал. На данный момент, какой стек является общепринятым и самым распространенным?
Читать полностью…ну то есть есть scrapy-selenium, но большинство скорее всего и про него не знает
Читать полностью…Есть у кого-то парсеры этих сайтов? (купим исходники):
YouTube
RuTube
Kommersant
Izvestia
Vedomosti
Life.ru
MK
Российская газета (Rossiskaya Gazeta)
360tv
RT на русском (RT in Russian)
Regnum
HTB.ru
KP.ru
Sport-Express
Championat
Киберспорт.ru (Kibersport.ru)
Fontanka
EurAsia Daily
Znak
74.ru
161.ru
E1.ru
Tomsk.ru
Amurmedia
Primamedia
Yakutiamedia
Moe-Online
Башинформ (Bashinform)
KI-News
31tv.ru
Sibnet
Omskinfo
Chelny-biz
Kubnews
SeverPost
Krasnews
TitNews
В middleware подсовывать новые куки непосредственно перед отправкой запроса. Те, что уже отправлены - ретраить естественно.
Читать полностью…Собственно заново авторизоваться не проблема.
А что делать с запросами, которые уже висят?
Т. е. я авторизовался и выдал список запросов на скачивание.
И один из них и последующие возвращают - не залогинено.
На каждый перелогиневатся?
Мне нужно мониторить общую группу в ватсапе и при получении триггер сообщения писать в нее 1 слово, с интервалом ~1час.
Работать должно автономно 24/7 в докере на дедике.
Насколько я понял у ватсапа нет изичной халявной апишки, в этом проблема
Ктото уже сталкивался с таким кейсом, чем воспользовались?
Если нужно подделать тлс фингерпринт, можно взять scrapy-curl-cffi
Читать полностью…Не понравился сплеш. Browserless больше понравился, но он тяжёлый и много ненужной функций для меня, пришлось свою писать))
Читать полностью…