scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

хорошо, спасибо еще раз

Читать полностью…

Scrapy

они настраиваться по-разному должны

Читать полностью…

Scrapy

необычный прокси терминирует сам, но я таких лично не юзал и лет 5 назад думал что их не бывает
скрапи их поддерживает не очень

Читать полностью…

Scrapy

пока не совсем разбираюсь в уровнях osi дальше 3, поэтому хочу спросить знатоков

если прокси не поддерживает https (только http), есть ли смысл пробовать обходить tls fingerprint защиту?

не совсем понимаю, конечный сервер с кем делает хендшейк, со мной или с прокси?

Читать полностью…

Scrapy

Вот этот «деприкейтед»
Я новенький в Scrapy. Но мне нравится библиотека )

Читать полностью…

Scrapy

33 мегабайта на запрос?? Не, ну в целом для современного веба это норм, но прям на первый запрос, без кэширования, я б туда копал еще

Читать полностью…

Scrapy

еще удостовериться что gzip/bz включен и нормально проходит - поможет текст пожать. пошаманить с кэшем

Читать полностью…

Scrapy

1. попробуйте https://github.com/scrapy-plugins/scrapy-playwright
2. а еще лучше https://docs.scrapy.org/en/latest/topics/dynamic-content.html
3. а что за сайт? (тем более, в json'е ответ возвращает, может там сплеш и не нужен?

Читать полностью…

Scrapy

Знатоки, подскажите 🙏. Пытаюсь подгрузить в splash длинный - длинный сайт с автоскроллингом. Но получаю timeoute error. Как это обойти?


"type": "GlobalTimeoutError",


Время —max-timeout менял вот так

docker run -it -p 8050:8050 scrapinghub/splash --max-timeout 3600


Параметр wait Lua также менял до сотых….



function main(splash, args)
splash:on_request(function(request)
request:set_timeout(60)
request:set_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3')
request:set_header('Content-Type', 'application/json')
end)
assert(splash:go(args.url))
splash.images_enabled = false
assert(splash:wait(3))

local scroll_script = [[
function() {
let initialScrollY = window.scrollY;
window.scrollBy(0, -window.innerHeight);
return initialScrollY;
}
]]

local get_scroll_position = splash:jsfunc(scroll_script)


local previous_scroll_position = 0
while true do
local current_scroll_position = get_scroll_position()
splash:wait(0.5)
if current_scroll_position == previous_scroll_position then
break
end
previous_scroll_position = current_scroll_position
end

return {
html = splash:html(),
png = splash:png()
}
end


Спасибо )

Читать полностью…

Scrapy

видео тоже может быть, реклама, трекеры для рекламы

Читать полностью…

Scrapy

prefs = {"profile.managed_default_content_settings.images": 2}
options.add_experimental_option("prefs", prefs)

Читать полностью…

Scrapy

картинки и прочие ресурсы не грузить

Читать полностью…

Scrapy

На старте - авторизуюсь и получаю.

Читать полностью…

Scrapy

Репонсы приходят, но не авторизованные.
На страницах нет части информации, которая есть, когда авторизован.

Читать полностью…

Scrapy

Респонсы не приходят совсем? Или перестають приходить?

Читать полностью…

Scrapy

у хттпс-проксей соединение от клиента до прокси тоже хттпсное, т.е. если настройка через урл со схемой, то схема будет хттпс

Читать полностью…

Scrapy

понял, спасибо большое!
а как понять прокси я использую обычный или необычный? wireshark?

Читать полностью…

Scrapy

обычный прокси пробрасывает тлс-туннель при помощи CONNECT и терминация на клиенте

Читать полностью…

Scrapy

1. Спасибо. Буду копать )
2. Смотрел, не разобрался c ходу(( Стал искать утилитарные решения.
3. Телеграмм-канал в вебинтерфейсе. Может, есть рекомендованные решения.

Читать полностью…

Scrapy

Да как -то многовато на мой взгляд. В селениуме есть фильтрация, надо обрезать все, что лишнее. Получалось так в разы ускорять загрузку страниц.

Читать полностью…

Scrapy

ну и да, сколько страниц? условно если там 500 тыщ, то 30 гигов это по-божески

Читать полностью…

Scrapy

я уже не помню как на селене, но на playwright можно блочить все 3rd-party, а там если настройки кэша каки-то не такие то и на каждый чих могут шрифты грузиться, скрипты аля адсенс и вебвизора, mailru,vk,ok,yandex,stats,google и тд и тп. Отсекаешь все до момента, пока все не перестает работать.

Читать полностью…

Scrapy

уже 2й вопрос за неделю со сплешем почему-то и автоскроллингом, гайд что-ли народ где-то древний откопал, откуда этот практически депрекейтед находят

Читать полностью…

Scrapy

P.s. использовать кешерование

Читать полностью…

Scrapy

если 30 гиг трафика это хтмлки то что тут сделать?

Читать полностью…

Scrapy

картинки не гружу, прочие ресурсы это что имеешь ввиду?

Читать полностью…

Scrapy

кто знает как на селениуме можно уменьшить трафик? запустил парсер который схавал почти 30 гиг трафика с прокси

Читать полностью…

Scrapy

Ну так JWT нужно получить в сессии для уверенности

Читать полностью…

Scrapy

"правильные респонсы"

Читать полностью…

Scrapy

В смысле страницы долго скачиваются

Читать полностью…
Subscribe to a channel