scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

https://dpaste.com/6NUT7FJ6V

Читать полностью…

Scrapy

А точно нужно обойти прям все-все мидлвари?

Читать полностью…

Scrapy

в app.py ничего особенного просто маршрутизация и рендер темплейт ко всем html файлам

Читать полностью…

Scrapy

Всем привет, такой вопрос: впервые собираюсь задеплоить свой сайт на хостинге ps.kz теперь возникает ошибка, сама структура файла на картинке, загрузил в файловый менеджер ps.kz эти файлы и запустил сайт

Читать полностью…

Scrapy

хорошо, спасибо еще раз

Читать полностью…

Scrapy

они настраиваться по-разному должны

Читать полностью…

Scrapy

необычный прокси терминирует сам, но я таких лично не юзал и лет 5 назад думал что их не бывает
скрапи их поддерживает не очень

Читать полностью…

Scrapy

пока не совсем разбираюсь в уровнях osi дальше 3, поэтому хочу спросить знатоков

если прокси не поддерживает https (только http), есть ли смысл пробовать обходить tls fingerprint защиту?

не совсем понимаю, конечный сервер с кем делает хендшейк, со мной или с прокси?

Читать полностью…

Scrapy

Вот этот «деприкейтед»
Я новенький в Scrapy. Но мне нравится библиотека )

Читать полностью…

Scrapy

33 мегабайта на запрос?? Не, ну в целом для современного веба это норм, но прям на первый запрос, без кэширования, я б туда копал еще

Читать полностью…

Scrapy

еще удостовериться что gzip/bz включен и нормально проходит - поможет текст пожать. пошаманить с кэшем

Читать полностью…

Scrapy

1. попробуйте https://github.com/scrapy-plugins/scrapy-playwright
2. а еще лучше https://docs.scrapy.org/en/latest/topics/dynamic-content.html
3. а что за сайт? (тем более, в json'е ответ возвращает, может там сплеш и не нужен?

Читать полностью…

Scrapy

Знатоки, подскажите 🙏. Пытаюсь подгрузить в splash длинный - длинный сайт с автоскроллингом. Но получаю timeoute error. Как это обойти?


"type": "GlobalTimeoutError",


Время —max-timeout менял вот так

docker run -it -p 8050:8050 scrapinghub/splash --max-timeout 3600


Параметр wait Lua также менял до сотых….



function main(splash, args)
splash:on_request(function(request)
request:set_timeout(60)
request:set_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3')
request:set_header('Content-Type', 'application/json')
end)
assert(splash:go(args.url))
splash.images_enabled = false
assert(splash:wait(3))

local scroll_script = [[
function() {
let initialScrollY = window.scrollY;
window.scrollBy(0, -window.innerHeight);
return initialScrollY;
}
]]

local get_scroll_position = splash:jsfunc(scroll_script)


local previous_scroll_position = 0
while true do
local current_scroll_position = get_scroll_position()
splash:wait(0.5)
if current_scroll_position == previous_scroll_position then
break
end
previous_scroll_position = current_scroll_position
end

return {
html = splash:html(),
png = splash:png()
}
end


Спасибо )

Читать полностью…

Scrapy

видео тоже может быть, реклама, трекеры для рекламы

Читать полностью…

Scrapy

prefs = {"profile.managed_default_content_settings.images": 2}
options.add_experimental_option("prefs", prefs)

Читать полностью…

Scrapy

Привет, коллеги! Возникла проблема при работе с пеплайнами в Scrapy. У меня есть два пеплайна: один для сохранения JSON-файлов, а другой — для загрузки изображений. Я хочу, чтобы изображения и JSON-файлы сохранялись в одной и той же папке. Но вместо этого при загрузке изображений создается та же структура папок, что и при добавлении JSON-файлов, только все изображения попадают во вложенную папку None.

Я уже несколько раз проверял пути, отлаживал код, использовал ChatGPT, логи, но никак не могу найти причину. Может кто-то сталкивался с подобной проблемой или знает, как это можно исправить? Буду признателен за любую помощь!

Читать полностью…

Scrapy

возможно из scrapy отправить реквест в обход всех мидлварей?

Читать полностью…

Scrapy

на самом сайте такая ошибка:

Читать полностью…

Scrapy

Подскажите, пожалуйста, недорогие сервисы по скрейпингу гугла. Чтобы быстро топ50 ссылок (без сниппетов) по запросу получить и ещё похожие запросы выгружал

Читать полностью…

Scrapy

у хттпс-проксей соединение от клиента до прокси тоже хттпсное, т.е. если настройка через урл со схемой, то схема будет хттпс

Читать полностью…

Scrapy

понял, спасибо большое!
а как понять прокси я использую обычный или необычный? wireshark?

Читать полностью…

Scrapy

обычный прокси пробрасывает тлс-туннель при помощи CONNECT и терминация на клиенте

Читать полностью…

Scrapy

1. Спасибо. Буду копать )
2. Смотрел, не разобрался c ходу(( Стал искать утилитарные решения.
3. Телеграмм-канал в вебинтерфейсе. Может, есть рекомендованные решения.

Читать полностью…

Scrapy

Да как -то многовато на мой взгляд. В селениуме есть фильтрация, надо обрезать все, что лишнее. Получалось так в разы ускорять загрузку страниц.

Читать полностью…

Scrapy

ну и да, сколько страниц? условно если там 500 тыщ, то 30 гигов это по-божески

Читать полностью…

Scrapy

я уже не помню как на селене, но на playwright можно блочить все 3rd-party, а там если настройки кэша каки-то не такие то и на каждый чих могут шрифты грузиться, скрипты аля адсенс и вебвизора, mailru,vk,ok,yandex,stats,google и тд и тп. Отсекаешь все до момента, пока все не перестает работать.

Читать полностью…

Scrapy

уже 2й вопрос за неделю со сплешем почему-то и автоскроллингом, гайд что-ли народ где-то древний откопал, откуда этот практически депрекейтед находят

Читать полностью…

Scrapy

P.s. использовать кешерование

Читать полностью…

Scrapy

если 30 гиг трафика это хтмлки то что тут сделать?

Читать полностью…

Scrapy

картинки не гружу, прочие ресурсы это что имеешь ввиду?

Читать полностью…
Subscribe to a channel