scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

То есть просто отключил мидлвари?

Читать полностью…

Scrapy

да для тестов надо было, просто в настройках "DOWNLOADER_MIDDLEWARES_BASE": {} выставил

Читать полностью…

Scrapy

Привет, коллеги! Возникла проблема при работе с пеплайнами в Scrapy. У меня есть два пеплайна: один для сохранения JSON-файлов, а другой — для загрузки изображений. Я хочу, чтобы изображения и JSON-файлы сохранялись в одной и той же папке. Но вместо этого при загрузке изображений создается та же структура папок, что и при добавлении JSON-файлов, только все изображения попадают во вложенную папку None.

Я уже несколько раз проверял пути, отлаживал код, использовал ChatGPT, логи, но никак не могу найти причину. Может кто-то сталкивался с подобной проблемой или знает, как это можно исправить? Буду признателен за любую помощь!

Читать полностью…

Scrapy

возможно из scrapy отправить реквест в обход всех мидлварей?

Читать полностью…

Scrapy

на самом сайте такая ошибка:

Читать полностью…

Scrapy

Подскажите, пожалуйста, недорогие сервисы по скрейпингу гугла. Чтобы быстро топ50 ссылок (без сниппетов) по запросу получить и ещё похожие запросы выгружал

Читать полностью…

Scrapy

у хттпс-проксей соединение от клиента до прокси тоже хттпсное, т.е. если настройка через урл со схемой, то схема будет хттпс

Читать полностью…

Scrapy

понял, спасибо большое!
а как понять прокси я использую обычный или необычный? wireshark?

Читать полностью…

Scrapy

обычный прокси пробрасывает тлс-туннель при помощи CONNECT и терминация на клиенте

Читать полностью…

Scrapy

1. Спасибо. Буду копать )
2. Смотрел, не разобрался c ходу(( Стал искать утилитарные решения.
3. Телеграмм-канал в вебинтерфейсе. Может, есть рекомендованные решения.

Читать полностью…

Scrapy

Да как -то многовато на мой взгляд. В селениуме есть фильтрация, надо обрезать все, что лишнее. Получалось так в разы ускорять загрузку страниц.

Читать полностью…

Scrapy

ну и да, сколько страниц? условно если там 500 тыщ, то 30 гигов это по-божески

Читать полностью…

Scrapy

я уже не помню как на селене, но на playwright можно блочить все 3rd-party, а там если настройки кэша каки-то не такие то и на каждый чих могут шрифты грузиться, скрипты аля адсенс и вебвизора, mailru,vk,ok,yandex,stats,google и тд и тп. Отсекаешь все до момента, пока все не перестает работать.

Читать полностью…

Scrapy

уже 2й вопрос за неделю со сплешем почему-то и автоскроллингом, гайд что-ли народ где-то древний откопал, откуда этот практически депрекейтед находят

Читать полностью…

Scrapy

P.s. использовать кешерование

Читать полностью…

Scrapy

https://dpaste.com/6NUT7FJ6V#line-71 здесь в логах None есть?
если пайплайн с сохранением метаданных раньше чем картиночный, то попробуй брать path из итема

Читать полностью…

Scrapy

https://dpaste.com/6NUT7FJ6V

Читать полностью…

Scrapy

А точно нужно обойти прям все-все мидлвари?

Читать полностью…

Scrapy

в app.py ничего особенного просто маршрутизация и рендер темплейт ко всем html файлам

Читать полностью…

Scrapy

Всем привет, такой вопрос: впервые собираюсь задеплоить свой сайт на хостинге ps.kz теперь возникает ошибка, сама структура файла на картинке, загрузил в файловый менеджер ps.kz эти файлы и запустил сайт

Читать полностью…

Scrapy

хорошо, спасибо еще раз

Читать полностью…

Scrapy

они настраиваться по-разному должны

Читать полностью…

Scrapy

необычный прокси терминирует сам, но я таких лично не юзал и лет 5 назад думал что их не бывает
скрапи их поддерживает не очень

Читать полностью…

Scrapy

пока не совсем разбираюсь в уровнях osi дальше 3, поэтому хочу спросить знатоков

если прокси не поддерживает https (только http), есть ли смысл пробовать обходить tls fingerprint защиту?

не совсем понимаю, конечный сервер с кем делает хендшейк, со мной или с прокси?

Читать полностью…

Scrapy

Вот этот «деприкейтед»
Я новенький в Scrapy. Но мне нравится библиотека )

Читать полностью…

Scrapy

33 мегабайта на запрос?? Не, ну в целом для современного веба это норм, но прям на первый запрос, без кэширования, я б туда копал еще

Читать полностью…

Scrapy

еще удостовериться что gzip/bz включен и нормально проходит - поможет текст пожать. пошаманить с кэшем

Читать полностью…

Scrapy

1. попробуйте https://github.com/scrapy-plugins/scrapy-playwright
2. а еще лучше https://docs.scrapy.org/en/latest/topics/dynamic-content.html
3. а что за сайт? (тем более, в json'е ответ возвращает, может там сплеш и не нужен?

Читать полностью…

Scrapy

Знатоки, подскажите 🙏. Пытаюсь подгрузить в splash длинный - длинный сайт с автоскроллингом. Но получаю timeoute error. Как это обойти?


"type": "GlobalTimeoutError",


Время —max-timeout менял вот так

docker run -it -p 8050:8050 scrapinghub/splash --max-timeout 3600


Параметр wait Lua также менял до сотых….



function main(splash, args)
splash:on_request(function(request)
request:set_timeout(60)
request:set_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3')
request:set_header('Content-Type', 'application/json')
end)
assert(splash:go(args.url))
splash.images_enabled = false
assert(splash:wait(3))

local scroll_script = [[
function() {
let initialScrollY = window.scrollY;
window.scrollBy(0, -window.innerHeight);
return initialScrollY;
}
]]

local get_scroll_position = splash:jsfunc(scroll_script)


local previous_scroll_position = 0
while true do
local current_scroll_position = get_scroll_position()
splash:wait(0.5)
if current_scroll_position == previous_scroll_position then
break
end
previous_scroll_position = current_scroll_position
end

return {
html = splash:html(),
png = splash:png()
}
end


Спасибо )

Читать полностью…

Scrapy

видео тоже может быть, реклама, трекеры для рекламы

Читать полностью…
Subscribe to a channel