в app.py ничего особенного просто маршрутизация и рендер темплейт ко всем html файлам
Читать полностью…Всем привет, такой вопрос: впервые собираюсь задеплоить свой сайт на хостинге ps.kz теперь возникает ошибка, сама структура файла на картинке, загрузил в файловый менеджер ps.kz эти файлы и запустил сайт
Читать полностью…необычный прокси терминирует сам, но я таких лично не юзал и лет 5 назад думал что их не бывает
скрапи их поддерживает не очень
пока не совсем разбираюсь в уровнях osi дальше 3, поэтому хочу спросить знатоков
если прокси не поддерживает https (только http), есть ли смысл пробовать обходить tls fingerprint защиту?
не совсем понимаю, конечный сервер с кем делает хендшейк, со мной или с прокси?
33 мегабайта на запрос?? Не, ну в целом для современного веба это норм, но прям на первый запрос, без кэширования, я б туда копал еще
Читать полностью…еще удостовериться что gzip/bz включен и нормально проходит - поможет текст пожать. пошаманить с кэшем
Читать полностью…1. попробуйте https://github.com/scrapy-plugins/scrapy-playwright
2. а еще лучше https://docs.scrapy.org/en/latest/topics/dynamic-content.html
3. а что за сайт? (тем более, в json'е ответ возвращает, может там сплеш и не нужен?
Знатоки, подскажите 🙏. Пытаюсь подгрузить в splash длинный - длинный сайт с автоскроллингом. Но получаю timeoute error. Как это обойти?
"type": "GlobalTimeoutError",
docker run -it -p 8050:8050 scrapinghub/splash --max-timeout 3600
function main(splash, args)
splash:on_request(function(request)
request:set_timeout(60)
request:set_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3')
request:set_header('Content-Type', 'application/json')
end)
assert(splash:go(args.url))
splash.images_enabled = false
assert(splash:wait(3))
local scroll_script = [[
function() {
let initialScrollY = window.scrollY;
window.scrollBy(0, -window.innerHeight);
return initialScrollY;
}
]]
local get_scroll_position = splash:jsfunc(scroll_script)
local previous_scroll_position = 0
while true do
local current_scroll_position = get_scroll_position()
splash:wait(0.5)
if current_scroll_position == previous_scroll_position then
break
end
previous_scroll_position = current_scroll_position
end
return {
html = splash:html(),
png = splash:png()
}
end
prefs = {"profile.managed_default_content_settings.images": 2}Читать полностью…
options.add_experimental_option("prefs", prefs)
Привет, коллеги! Возникла проблема при работе с пеплайнами в Scrapy. У меня есть два пеплайна: один для сохранения JSON-файлов, а другой — для загрузки изображений. Я хочу, чтобы изображения и JSON-файлы сохранялись в одной и той же папке. Но вместо этого при загрузке изображений создается та же структура папок, что и при добавлении JSON-файлов, только все изображения попадают во вложенную папку None.
Я уже несколько раз проверял пути, отлаживал код, использовал ChatGPT, логи, но никак не могу найти причину. Может кто-то сталкивался с подобной проблемой или знает, как это можно исправить? Буду признателен за любую помощь!
Подскажите, пожалуйста, недорогие сервисы по скрейпингу гугла. Чтобы быстро топ50 ссылок (без сниппетов) по запросу получить и ещё похожие запросы выгружал
Читать полностью…у хттпс-проксей соединение от клиента до прокси тоже хттпсное, т.е. если настройка через урл со схемой, то схема будет хттпс
Читать полностью…понял, спасибо большое!
а как понять прокси я использую обычный или необычный? wireshark?
обычный прокси пробрасывает тлс-туннель при помощи CONNECT и терминация на клиенте
Читать полностью…1. Спасибо. Буду копать )
2. Смотрел, не разобрался c ходу(( Стал искать утилитарные решения.
3. Телеграмм-канал в вебинтерфейсе. Может, есть рекомендованные решения.
Да как -то многовато на мой взгляд. В селениуме есть фильтрация, надо обрезать все, что лишнее. Получалось так в разы ускорять загрузку страниц.
Читать полностью…я уже не помню как на селене, но на playwright можно блочить все 3rd-party, а там если настройки кэша каки-то не такие то и на каждый чих могут шрифты грузиться, скрипты аля адсенс и вебвизора, mailru,vk,ok,yandex,stats,google и тд и тп. Отсекаешь все до момента, пока все не перестает работать.
Читать полностью…уже 2й вопрос за неделю со сплешем почему-то и автоскроллингом, гайд что-ли народ где-то древний откопал, откуда этот практически депрекейтед находят
Читать полностью…