Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

06 Sep 2024 23:10

https://dpaste.com/6NUT7FJ6V

Читать полностью…

Scrapy

06 Sep 2024 22:22

А точно нужно обойти прям все-все мидлвари?

Читать полностью…

Scrapy

06 Sep 2024 14:59

в app.py ничего особенного просто маршрутизация и рендер темплейт ко всем html файлам

Читать полностью…

Scrapy

06 Sep 2024 14:58

Всем привет, такой вопрос: впервые собираюсь задеплоить свой сайт на хостинге ps.kz теперь возникает ошибка, сама структура файла на картинке, загрузил в файловый менеджер ps.kz эти файлы и запустил сайт

Читать полностью…

Scrapy

06 Sep 2024 07:59

хорошо, спасибо еще раз

Читать полностью…

Scrapy

06 Sep 2024 07:58

они настраиваться по-разному должны

Читать полностью…

Scrapy

06 Sep 2024 07:56

необычный прокси терминирует сам, но я таких лично не юзал и лет 5 назад думал что их не бывает
скрапи их поддерживает не очень

Читать полностью…

Scrapy

06 Sep 2024 07:55

пока не совсем разбираюсь в уровнях osi дальше 3, поэтому хочу спросить знатоков

если прокси не поддерживает https (только http), есть ли смысл пробовать обходить tls fingerprint защиту?

не совсем понимаю, конечный сервер с кем делает хендшейк, со мной или с прокси?

Читать полностью…

Scrapy

06 Sep 2024 05:57

Вот этот «деприкейтед»
Я новенький в Scrapy. Но мне нравится библиотека )

Читать полностью…

Scrapy

05 Sep 2024 20:19

33 мегабайта на запрос?? Не, ну в целом для современного веба это норм, но прям на первый запрос, без кэширования, я б туда копал еще

Читать полностью…

Scrapy

05 Sep 2024 17:34

еще удостовериться что gzip/bz включен и нормально проходит - поможет текст пожать. пошаманить с кэшем

Читать полностью…

Scrapy

05 Sep 2024 17:30

1. попробуйте https://github.com/scrapy-plugins/scrapy-playwright
2. а еще лучше https://docs.scrapy.org/en/latest/topics/dynamic-content.html
3. а что за сайт? (тем более, в json'е ответ возвращает, может там сплеш и не нужен?

Читать полностью…

Scrapy

05 Sep 2024 16:53

Знатоки, подскажите 🙏. Пытаюсь подгрузить в splash длинный - длинный сайт с автоскроллингом. Но получаю timeoute error. Как это обойти?


    "type": "GlobalTimeoutError",

Время —max-timeout менял вот так


docker run -it -p 8050:8050 scrapinghub/splash --max-timeout 3600

Параметр wait Lua также менял до сотых….


function main(splash, args)
   splash:on_request(function(request)
        request:set_timeout(60)  
        request:set_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3')
        request:set_header('Content-Type', 'application/json') 
    end)
    assert(splash:go(args.url))
    splash.images_enabled = false
    assert(splash:wait(3))  
    
    local scroll_script = [[
        function() {
            let initialScrollY = window.scrollY;
            window.scrollBy(0, -window.innerHeight);
            return initialScrollY;
        }
    ]]
    
    local get_scroll_position = splash:jsfunc(scroll_script)
    
    
    local previous_scroll_position = 0
    while true do
        local current_scroll_position = get_scroll_position()
        splash:wait(0.5) 
        if current_scroll_position == previous_scroll_position then
            break  
        end
        previous_scroll_position = current_scroll_position
    end
    
    return {
        html = splash:html(),
        png = splash:png()
    }
end

Спасибо )

Читать полностью…

Scrapy

05 Sep 2024 14:14

видео тоже может быть, реклама, трекеры для рекламы

Читать полностью…

Scrapy

05 Sep 2024 14:12

prefs = {"profile.managed_default_content_settings.images": 2}
options.add_experimental_option("prefs", prefs)

Читать полностью…

Scrapy

06 Sep 2024 23:09

Привет, коллеги! Возникла проблема при работе с пеплайнами в Scrapy. У меня есть два пеплайна: один для сохранения JSON-файлов, а другой — для загрузки изображений. Я хочу, чтобы изображения и JSON-файлы сохранялись в одной и той же папке. Но вместо этого при загрузке изображений создается та же структура папок, что и при добавлении JSON-файлов, только все изображения попадают во вложенную папку None.

Я уже несколько раз проверял пути, отлаживал код, использовал ChatGPT, логи, но никак не могу найти причину. Может кто-то сталкивался с подобной проблемой или знает, как это можно исправить? Буду признателен за любую помощь!

Читать полностью…

Scrapy

06 Sep 2024 19:35

возможно из scrapy отправить реквест в обход всех мидлварей?

Читать полностью…

Scrapy

06 Sep 2024 14:59

на самом сайте такая ошибка:

Читать полностью…

Scrapy

06 Sep 2024 13:59

Подскажите, пожалуйста, недорогие сервисы по скрейпингу гугла. Чтобы быстро топ50 ссылок (без сниппетов) по запросу получить и ещё похожие запросы выгружал

Читать полностью…

Scrapy

06 Sep 2024 07:58

у хттпс-проксей соединение от клиента до прокси тоже хттпсное, т.е. если настройка через урл со схемой, то схема будет хттпс

Читать полностью…

Scrapy

06 Sep 2024 07:57

понял, спасибо большое!
а как понять прокси я использую обычный или необычный? wireshark?

Читать полностью…

Scrapy

06 Sep 2024 07:56

обычный прокси пробрасывает тлс-туннель при помощи CONNECT и терминация на клиенте

Читать полностью…

Scrapy

06 Sep 2024 06:01

1. Спасибо. Буду копать )
2. Смотрел, не разобрался c ходу(( Стал искать утилитарные решения.
3. Телеграмм-канал в вебинтерфейсе. Может, есть рекомендованные решения.

Читать полностью…

Scrapy

06 Sep 2024 03:05

Да как -то многовато на мой взгляд. В селениуме есть фильтрация, надо обрезать все, что лишнее. Получалось так в разы ускорять загрузку страниц.

Читать полностью…

Scrapy

05 Sep 2024 17:35

ну и да, сколько страниц? условно если там 500 тыщ, то 30 гигов это по-божески

Читать полностью…

Scrapy

05 Sep 2024 17:33

я уже не помню как на селене, но на playwright можно блочить все 3rd-party, а там если настройки кэша каки-то не такие то и на каждый чих могут шрифты грузиться, скрипты аля адсенс и вебвизора, mailru,vk,ok,yandex,stats,google и тд и тп. Отсекаешь все до момента, пока все не перестает работать.

Читать полностью…