1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Доброго времени суток!
Собираю сайт с авторизацией по JWT. Собирается долго и токен успевает устареть.
Есть ли какие-то стандартные решения для обновления JWT во время сбора?
Haбиpaю нa oбучeниеe и в команду по крипте,заработок на разнице валют,тестнетах.
Зa oбyчeниe нe бepy, мoя выгoдa этo тoлькo %с вaшeй чиcтoй пpибыли💰
Еcть гoтoвыe cвязки
Paбoтaeте внyтpи извecтных биpж
Всему обучаю даже если совсем не понимаете в крипте.
Когда накидали елдаков на работе, но в итоге никто не может помочь по-делу
Читать полностью…
Собираешь без картинок, знаешь точное количество товаров. Запускаешь с картинками, смотришь реальную скорость, делишь количество скорость, получаешь 7 часов и идёшь спать...
Читать полностью…
тоже верно
это тогда надо было вести статистику с самого первого парсинга и отдельно учитывать скачку картинок и время на их постпроцессинг
В целом, это может быть одной из метрик в той же SRE (я про эту хрень https://github.com/mxssl/sre-interview-prep-guide ), правда это тебе покажет только то, что например количество товаров резко снизилось или увеличилось, а в реале ты эту метрику после 10-100й выгрузки смотреть не будешь. Так что вопрос только куда ты это знание применишь) А уж тем более прогресс бар, в идеале система должна тебе сигнализировать только если что-то идет не так, а в остальных случаях вести себя в духе "запустил и забыл, а дальше уж оно само"
Читать полностью…
архиваторы как то же предсказывают сколько времени займет распаковка
только у них уже есть размер архива, и растущий размер распакованного файла….. математика простая
да думаю если тервер прошуршать что нибудь найдется)
Читать полностью…
ну в первый раз, наверное, никак
а после первого раза хранить в условном dbm время выполнения, среднее время ответа, и еще может что
а в следующие запуски уже можно будет высчитать, обновляя предположительное время в зависимости от времени ответа или еще чего нибудь
да и то, они показывают прогрес бар по реквесту, а не в целом
Читать полностью…
Добрый день.
Дело в том, что с веб-скрапингом я более-менее разобрался. Проблема в том, что, как ни старался, я получаю ответ 403. Я пробовал менять заголовки и использовать свои пользовательские куки после регистрации, но все равно получаю 403. Хотя иногда приходит ответ 200. Может ли проблема быть в том, что на сайте установлен лимит запросов для конкретного пользователя?
Всем привет, кто-нибудь знает как на playwright записать видео чтобы адресная строка влезла?
Читать полностью…
Haбиpaю нa oбучeниеe и в команду по крипте,заработок на разнице валют,тестнетах.
Зa oбyчeниe нe бepy, мoя выгoдa этo тoлькo %с вaшeй чиcтoй пpибыли💰
Еcть гoтoвыe cвязки
Paбoтaeте внyтpи извecтных биpж
Всему обучаю даже если совсем не понимаете в крипте.
чатгпт прикрутить надо просто и пусть он предсказывает)
Читать полностью…
вы бы не знали, потому что вы предлагаете использовать данные таких же предыдущих запусков
Читать полностью…
один просто случай был, когда надо было перекачать все картинки и постпроцессить их
без картинок все парсилось за минуты 3, а с ними я засиделся до поздна, не зная когда это все закончится
если бы знал, что ну это примерно все займет часов 7, то пошел бы спать)
@wrar42 как обойти pairip защиту гугл через термукс на Пайтон?
Читать полностью…
Есть ли смысл парсить телеграмм канал используя scrapy или применять что-то вроде telethon с api?
Может кто поделиться настроенным Crawl на канал?
Спасибо ♥️
откуда бы программе знать когда парсинг закончится?
Читать полностью…
всех с праздником)
ребята, можете подсказать, пожалуйста, существует ли уже extension/addon для шкалы прогресса парсинга? который сможет приблизительно сказать через какое время парсинг закончится?
штука то, имхо, удобная, хоть я и сейчас я знаю когда парсинг закончится, но только исходя из времени предыдущих запусков
нашел только по одному пр и ишью, но они оба не очень живые
https://github.com/scrapy/scrapy/issues/3793
https://github.com/scrapy/scrapy/pull/5042
К примеру, я пытаюсь парсить данную галерею. Пытаюсь парсить ее с помощью API-запроса, который я получил на этой странице. Если кому-нибудь не верит, можете проверить на своей локальной машине, работает ли это у вас. То есть является ли это неким локальным ограничением для моего юзера: https://www.realself.com/photos/breast-augmentation
Читать полностью…