1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
необычный прокси терминирует сам, но я таких лично не юзал и лет 5 назад думал что их не бывает
скрапи их поддерживает не очень
пока не совсем разбираюсь в уровнях osi дальше 3, поэтому хочу спросить знатоков
если прокси не поддерживает https (только http), есть ли смысл пробовать обходить tls fingerprint защиту?
не совсем понимаю, конечный сервер с кем делает хендшейк, со мной или с прокси?
Вот этот «деприкейтед»
Я новенький в Scrapy. Но мне нравится библиотека )
33 мегабайта на запрос?? Не, ну в целом для современного веба это норм, но прям на первый запрос, без кэширования, я б туда копал еще
Читать полностью…
еще удостовериться что gzip/bz включен и нормально проходит - поможет текст пожать. пошаманить с кэшем
Читать полностью…
1. попробуйте https://github.com/scrapy-plugins/scrapy-playwright
2. а еще лучше https://docs.scrapy.org/en/latest/topics/dynamic-content.html
3. а что за сайт? (тем более, в json'е ответ возвращает, может там сплеш и не нужен?
Знатоки, подскажите 🙏. Пытаюсь подгрузить в splash длинный - длинный сайт с автоскроллингом. Но получаю timeoute error. Как это обойти?
"type": "GlobalTimeoutError",
docker run -it -p 8050:8050 scrapinghub/splash --max-timeout 3600
function main(splash, args)
splash:on_request(function(request)
request:set_timeout(60)
request:set_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3')
request:set_header('Content-Type', 'application/json')
end)
assert(splash:go(args.url))
splash.images_enabled = false
assert(splash:wait(3))
local scroll_script = [[
function() {
let initialScrollY = window.scrollY;
window.scrollBy(0, -window.innerHeight);
return initialScrollY;
}
]]
local get_scroll_position = splash:jsfunc(scroll_script)
local previous_scroll_position = 0
while true do
local current_scroll_position = get_scroll_position()
splash:wait(0.5)
if current_scroll_position == previous_scroll_position then
break
end
previous_scroll_position = current_scroll_position
end
return {
html = splash:html(),
png = splash:png()
}
end
видео тоже может быть, реклама, трекеры для рекламы
Читать полностью…
prefs = {"profile.managed_default_content_settings.images": 2}
options.add_experimental_option("prefs", prefs)
Читать полностью…
Репонсы приходят, но не авторизованные.
На страницах нет части информации, которая есть, когда авторизован.
Респонсы не приходят совсем? Или перестають приходить?
Читать полностью…
у хттпс-проксей соединение от клиента до прокси тоже хттпсное, т.е. если настройка через урл со схемой, то схема будет хттпс
Читать полностью…
понял, спасибо большое!
а как понять прокси я использую обычный или необычный? wireshark?
обычный прокси пробрасывает тлс-туннель при помощи CONNECT и терминация на клиенте
Читать полностью…
1. Спасибо. Буду копать )
2. Смотрел, не разобрался c ходу(( Стал искать утилитарные решения.
3. Телеграмм-канал в вебинтерфейсе. Может, есть рекомендованные решения.
Да как -то многовато на мой взгляд. В селениуме есть фильтрация, надо обрезать все, что лишнее. Получалось так в разы ускорять загрузку страниц.
Читать полностью…
ну и да, сколько страниц? условно если там 500 тыщ, то 30 гигов это по-божески
Читать полностью…
я уже не помню как на селене, но на playwright можно блочить все 3rd-party, а там если настройки кэша каки-то не такие то и на каждый чих могут шрифты грузиться, скрипты аля адсенс и вебвизора, mailru,vk,ok,yandex,stats,google и тд и тп. Отсекаешь все до момента, пока все не перестает работать.
Читать полностью…
уже 2й вопрос за неделю со сплешем почему-то и автоскроллингом, гайд что-ли народ где-то древний откопал, откуда этот практически депрекейтед находят
Читать полностью…
картинки не гружу, прочие ресурсы это что имеешь ввиду?
Читать полностью…
кто знает как на селениуме можно уменьшить трафик? запустил парсер который схавал почти 30 гиг трафика с прокси
Читать полностью…