Ну а вообще если честно, то меня все эти видеогенераторы чутка доебали, уже многие админы тг каналов по нейронкам угарают с их обилия. Чуть ли что ни день то кто-то разраждается новым видеогенератором.
Говоря о опенсорсе, несомненно классно что он развивается в этом направлении, но будем честны - на данный момнт они все пахнут говном. Качество - стрём, врама жрут много, генерятся на пользовательском железе долго, а юзать их с таким качеством и тратить на это GPU время всяких H100 и т.п - как по мне кажется крайне сомнительной идеей, игра не стоит свечь.
Касаемо решений за денюжку как по мне - это всё ещё не совсем юзабельно.
Клинги, хуинги, минимаксы и т.п - всё это конечно любопытно, но там где есть возможность пощупать на бомж тарифах - практически вовсе не юзабельно по времени и лимитам. Ведь тут нужно понимать что генерация видео это совсем другая стезя, если же рисовачи просто выдают тебе статичную но готовую пикчу, а тот же суно тебе 4 минутный фулл трек, то с видеогенератораами это так не работает, эти секунды генерации просто ни о чём. И что бы из всего этого собрать худо бедно видосик хотя бы пол минуты длиной - нужно изрядно изъебнуться, потратить кучу времени, куча неудачных попыток т.д и т.п. Т.е по факту абсолютно любые тарифы отличные от безлимита попросту в таком ключе не имеют смысла, от слова совсем. Но даже на безлимитных тарифах вся эта возня вызывает жопоболь, когда условно ради пососного фулл промо тебе нужно прогнать не простительно много генераций, ну и конечно же стоит упомянуть цензуру. Она где то больше, где то меньше, но всё равно даже если не говорить про откровенные сиськи письки, сия цензура всё равно рано или поздно может вставить палки в колёса видению проекта.
Резюмируя всё это могу сказать следующее - ни опенсорсные ни платные решения не юзабельны.
Всё это дорого, а выхлоп зачастую сомнительный. Юзать в качестве хобби/приколдесов с той цензурой и ценой - не имеет смысла, бомж тарифы убоги и вызывают в конечном счёте лишь раздражение. безлимитные тарифы - дорогие.
Юзать в коммерческих целях в целом допустимо, но опять же, если вы действительно сможете с помощью этого залутать денюжку.
В противном же случае всё это чисто баловство за оверпрайс. Это касается и той же о1 pro модельки.
Говоря о той же Sora и о1 pro за 200 грязных бумажек - то это на наши денюжки почти 20 тысяч рублей в месяц.
За эти 20к можно нанять себе студенточку в качестве помощницы, т.е цельного человечка в услужение, с которой и поболтать можно будет, и заставить её ручками делать суммаризацию текстов если того требуется, к тому же ничто не мешает ей юзать жпт, т.е 2 в одном вообще.
.\python_embeded\python.exe -m pip uninstall -y ultralytics
.\python_embeded\python.exe -m pip install ultralytics==8.3.40
Не забудьте потом эти строчки удалить.
Но что бы всё же иметь все плюшки, придётся приучатся к новому интерфейсу, ведь только в нём можно подтянуть терминал.
Да и вкладочки с вф удобны.
Ну что-ж, свершилось! ComfyUI V1 вышел!
Установка - стандартная, касаемо миграции, то предлагается подтянуть с старого комфи - вф и модельки, кастомные ноды пока нет, но пишут что скоро добавят и такую возможность. (Ставим всё заново через менеджер или ручками)
Windows (NVIDIA) NSIS x64: https://download.comfy.org/windows/nsis/x64
macOS ARM: https://download.comfy.org/mac/dmg/arm64
Sana вышла!
Модельки 1.6B лежат на HF, но локально пощупать пока негде.
2 модельки pth весом 6.4 GB:
Моделька на 512
Моделька на 1024
Код
Ждём-с пока прикрутят к комфи либо разрабы, либо city96 в ComfyUI_ExtraModels
Suno расчехлили V4
Новые голоса и музыкальные стили, а также более разнообразные вокализмы. V4 легко интегрируется с цифровыми звуковыми рабочими станциями (DAW) и другими программными инструментами, позволяя юзерам включать треки, созданные в суно в свои рабочие процессы. Максимальная длина генерации трека не изменилась, и так же составляет 4 минуты.
Плюсы:
- Нативная генерация звука в формате 16 бит, 48 кГц, стерео.
- Центр дискретной частоты стал более сбалансированным.
- Вокал стал более чистым.
- Изменился алгоритм встроенной цифровой подписи.
- Мастеринг треков стал более сбалансированным.
- Можно делать ремастеринг треков, созданных в прошлых версиях.
Минусы:
- Улучшения в чистоте вокала заметны только в тихих и умеренных жанрах музыки.
- В жанрах, таких как рок и металл, по-прежнему иногда фирменный суновский песок.
Пока что доступно только для бояр (Pro и Premier) но как и с прошлыми версиями, позже раскатают и на бомжей с 50 кредитами в сутки.
SeniorPioner: тренинг FLUX на 4гб картах теперь реален
ну штош, тренинг FLUX на 4гб картах теперь реален ^_^ сорс и генерации с лорой+hyperflux 8stepsЧитать полностью…
конфиг тренировки прилагается в OneTrainer nf4 + LayerOffloadFraction=1.0
LayerOffloadFraction (аналог split-mode в kohya): 0 — отключен, 1 — максимально возможная выгрузка слоев в RAM. Другие значения, отличные от 0 и 1, пока не тестировал, но логично предположить, что этот параметр можно регулировать под свою карту в меньшую сторону, например, 0.5. В этом случае скорость тренировки будет выше, а потребление VRAM — соответственно больше.
Без использования LayerOffloadFraction (значение = 0) тренинг в nf4 требует чуть более 8 ГБ VRAM
в kohya на моей карте с splitmode fp8 у меня было чтото около 8s/t, здесь в OT с nf4 и фичей LayerOffloadFraction 3.3s/t
SD 3.5 Medium вышла
https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
И что тут можно сказать? я слегка так пощупал, ну.. и не сказать что бы в восторге, ну и не сказать что прям вот совсем говно.
Из того что я прощупал - в текст может, но иногда бывают проблемы даже при юзании Т5. (хотя может с сидом не повезло)
В целом если же на sd3.5 Turbo вполне можно обходится без Т5 и даже так она вполне сносно могёт в текст, то тут без Т5 прям порою грустно в целом.
Касаемо анатомии так же всё плохо как и на старших моделях, в обнажёнку - может, но ультра всрато, хотя это считайте не баг а фича. C- Cтабилити так сказать. Из хорошего что можно отметить, вполне сносно могёт в арт и подобное.
По скорости - ну для меня на моей 1660S тут всё грустно, но у вас бояр должно летать, в примере ВФ от стабилити они юзают 40 шагов, CFG 5.5, семплер dpmpp_2m и планировщик sgm_uniform, я же тестил в разрешении 768х1024, на 20 шагах, CFG 5.5, euler_a, sgm_uniform, и по времени эти 20 шагов у меня заняли 1 минуту и 40 секунд, SD 3.5 turbo при 4 шагах, euler, simple у меня генерится 30 секунд. (справедливости ради на тех же настройках что и турбо, Medium у меня отрабатывает за 9 секунд) поэтому когда зовезут оптимизашки всякие по типу хайпер лор и т.п, будет и на моей улице праздник, хотя а надо ли оно когда есть турбо?
P.S что бы щупать модельку в комфи, комфи нужно обновить, vae уже вшит в модельку
Появилось демо Sana в открытом доступе, можно пощупать!
Я пощупал, есть конечно к чему придратся, однако не забываем что это 0.6B (хотя в демо написано Sana-1.6B - опечатка или нам чего-то не расказали?) и базовая модель. Это по сути новая "полторашка" в мире рисовачей, которая умеет в текст и для своих параметров базовая генерит очень даже хорошо. вспомним какой была базовая SD1.5, и какая SD1.5 сейчас после допиливания сообществом. так что ждём.
Все пикчи 1024х1024 25 шагов + стиль Cinematic (по умолчанию стоит 18 шагов, и без стиля но как по мне шагов маловато да и без стиля не очень + всё это без какого-либо негативного промта)
https://ea13ab4f5bd9c74f93.gradio.live
ComfyUI V1 Release
В течении 2 месяцев разрабы пыхтели что бы сделать наш всеми любимый комфи десктопным приложением. Теперь даже девственные умы далёкие от всяких технических приколдесов смогут прикоснутся к прекрасному!
Python и ComfyUI-Manager в комплекте, будут автоматические обновления, безопасный и подписанный код, так же теперь можно будет использовать вкладки для открытия нескольких workflows и перемещения между ними, настройка горячих клавиш, встроенный просмотр логов. При установке приложения можно будет подтянуть все модельки и настройки с своего старого комфи. Приложение будет на базе Electron и доступно на Windows / macOS / Linux.
Чё там по интерфейсу?:
1 - Верхняя панель меню: много чего засунули в верхнюю панель меню, и кудесники custom_nodes теперь могут легко прикреплять к ней пользовательские менюшки.
2 - Более легкий доступ к моделям и логам: Быстрый доступ к моделям, нодам, output файлам и логам - щелкнув правой кнопкой мыши по значку в трее.
3 - Библиотека моделей: Можно легко чекать все свои модели и перетаскивать их как Load Checkpoint прямо из библиотеки.
4 - Браузер Workflows: Можно сохранять cвои workflows в Браузере Workflows для быстрого доступа или экспортировать их в другой каталог.
5 - Автоматическая загрузка моделей: Комфи теперь позволит юзерам встраивать URL/ID моделей в workflows и автоматически загружать их. Например, если вы откроете какой нибудь workflows и у вас не будет моделей, комфи предложит вам загрузить отсутствующие модели, определенные в workflows.
Так то сей новый интерфейс уже доступен всем и его можно пощупать. Нужно лишь обновится, тыкнуть на шестерёнку напротив Queue size и включить "BETA Use new menu and workflow management."
Nvidia хотят потягаться с FLUX, и скоро разродятся новым рисовачём Sana
Что нам обещают:
1 - Генерацию пикч 4096х4096 в 100 раз быстрее чем FLUX. (в 1024х1024 в 40 раз)
2 - Высокое качество пикч и точное следование промпту.
3 - Выпустить исходный код и модель в опенсорс.
По их тестам - генерация 1024 на 1024 на RTX4090:
Sana (FP16) - 0.88c
Sana (W8A8) - 0.37с.
ОБНОВЛЕНИЕ.
[Файлы AINetSD] 38. FluxGym-AINetSD - /fluxgym_ainetsd (обновлено до версии 1.1)
Что нового?
1 - Автоматическая генерация примеров изображений.
2 - Добавлена функция «Опубликовать в Huggingface»
3 - 100% поддержка функции Kohya sd-scripts.
4 - Автоматическая загрузка моделей (нет необходимости вручную загружать модели)
5 - Поддержка пользовательских базовых моделей (не только flux-dev, но и любых других, просто нужно включить их в файл models.yaml.
Поддерживаемые flux модели:
Flux1-dev
Flux1-dev2pro
Flux1-schnell
Модель автоматически загружается, когда вы начинаете обучение с выбранной моделью.
Установка:
Запустить "Установка torch и прочего.bat" для загрузки всех необходимых библиотек.
После - "Запуск FluxGym.bat"
Доступно в @AINetSD_bot
Тут кое-кто возмутился, мол чего это не gpt песенку написал, вот специально вот для @srg_vlcv песенка придуманная chatgpt-4o-latest-20240903
промт - "Придумай песню вот для этого человека:
вот что он написл - "сначала подумал "ого, нейронка наконец то придумала текст в рифму", жаль""
Хотелось бы немного высказать свои мысли про Sora. Как по мне, это полнейшее фиаско и слив, подобно релизу SD3.
К чему такое сравнение? Я был одним из немногих, кто на самом старте не стал хоронить новую модель от Stability, ссылаясь на то, что стоит подождать, каким образом подхватит новинку комьюнити, но спустя несколько дней стало понятно, что это провал, и новости (о ужасной лицензии и о том, что это вообще бракованная модель) всё больше и больше подкрепляли это ощущение. Конечно же, стоит сделать оговорку, что базовая модель могла в какой-то ситуации показать себя лучше, чем её опенсорс конкуренты, но по большей части это никуда не годилось. И даже несмотря на всё это, за неимением альтернатив, переобувания Stability на более лояльную лицензию, были какие-то шансы на улучшения от комьюнити, но после вышел Flux, совершив революцию в опенсорс генерации изображений.
Ну а теперь, что мы видим с Sora.
Это готовый продукт,который если и будет улучшаться,то только разработчиками и тут быстрых изменений точно ждать не приходиться.
Качеством на фоне конкурентов не блещет, о "ВАУ" эффекте и подавно речи не идёт.
Меня лично очень смутили тесты генераций у блогера, который выпустил ролик за несколько часов до релиза. Ролик наверняка модерировался OpenAI, и как они пропустили галлюцинации в этот ролик, для меня вопрос.
А теперь к самому вкусному – те ограничения, которые выставлены. Фотографии с реальными людьми нельзя (вы это серьёзно? В то время когда Kling только так хайповал оживлением фотографий из вашего фотоальбома).
Страны, в которых можно пользоваться – это тоже ещё один затык. Стоимость для частного лица в 200$, мягко говоря, кусается. А самый главный вопрос после всего увиденного: за что, собственно, такие денежки платить? За ту же сумму можно взять безлимиты в Runway + Minimax и генерировать сколько душе угодно без всяких танцев с VP*.
Конечно же, стоит оговориться, что в чём-то Sora может показать себя лучше конкурентов. К примеру, типо консистентные сюжеты и генерация в 20 секунд, но на этом пока светлые пятна заканчиваются.
Никогда такого не было, и вот опять - В некоторых версиях пакета ultralytics pip был обнаружен криптомайнер
Скомпрометированный ultralytics загружает майнер в /tmp/ultralytics_runner и запускает его.
Благо Windows бояре вроде вне опасности, а вот линуксойдам и маководам снова приходится затерпеть.
Ultralytics не является основной зависимостью Комфи, но является зависимостью некоторых очень популярных пользовательских нод, например таких как ComfyUI-Impact-Pack.
ComfyUI-Manager уже обновлён и предупредит вас о греховных версиях.
Если вам всё же не повезло, и по пути /tmp/ultralytics_runner вас ожидает сюрприз, то убейте процесс, и удалите файл.
Первое прощупывание прошло успешно!
Всё установилось, кастомные ноды поставились, модельки подтянуты, настройки тоже, вф с пикч грузятся, всё работает штатно.
Кому не привычно от нового интерфейса, в настройках его можно поменять на старый(как на скрине) - перейти в настройки(шестерёнка в левом нижнем углу) - Menu - Disabled
Тут NVlabs выпустили мультиязычный файнтюн своей модельки на 512
Sana_1600M_512px_MultiLing (английский/китайский/эмодзи)
Всё ещё ждём пока прикрутят к комфи
На бомж тарифе доступен 1 бесплатный ремастеринг ваших треков на v4, дневные кредиты на это не тратятся, треки для ремастеринга рандомные?, в моём случае все на v3 (видимо специально что бы показать разницу в лучшем свете)
Читать полностью…ОБНОВЛЕНИЕ.
[Файлы Neurogen] 29. gpt4free - /gpt4free (обновлено)
- Обновлен код до актуального
- Добавлена поддержка новых моделей:
claude-3.5-sonnet
gemini-flash
llama-3.1-405B
Flux
И ряда других различных моделей.
Доступно в @AINetSD_bot
Зелёные сообщили о серьёзных уязвимостях в своих драйверах.
Никогда такого не было, и вот опять - согласно бюллетеню безопасности Nvidia , в драйверах и другом программном обеспечении компании было обнаружено несколько уязвимостей безопасности, требующих срочного внимания. Всего перечислено восемь уязвимостей, все с рейтингом серьёзности "Высокий"
По данным Зелёных, с помощью этих дырочек можно получить доступ ко всей вашей системе. С помощью такого доступа можно не только внедриться и выполнить вредоносный код на вашем ПК, но и прочитать и украсть персональные данные.
Уязвимости затрагивают программное обеспечение GeForce, Nvidia RTX, Quadro, NVS и Tesla как под управлением Windows, так и Linux.
Так что бежим ставить последние драйвера - Для Windows это 566.03, для Linux - 565.57.01, 550.127.05 и 535.216.01
SD 3.5 Large
Ну что-ж, добрался я до SD3.5 - дефолтную версию щупать я не стал, а вот 4 степную "turbo" на своей 1660S погонял, ну и в целом доволен.
768х1024 - 30 секунд, в целом терпимо
Кажись стабилити в этот раз не оподливились, 29 октября выкатят ещё и "Medium" на 2.5B, посмотрим чё там будет.
SD 3.5 Large FP8
SD 3.5 Turbo (p.s сам перегонял в FP8)
Гайд по обучению (нужно 24ГБ vram для лор, а для полного файнтюна понадобится как минимум одна H100)
1 / 2 / 3 - Первые лоры на SD3.5
Всем привет! Мы в лаборатории анализа информационных ресурсов НИВЦ МГУ проводим исследования по адаптации LLM на русский язык под рабочим названием ruadapt. Год назад я уже писал в этом чате о наших экспериментах с адаптацией LLaMa-2 (Impact of Tokenization on LLaMa Russian Adaptation), теперь же у нас есть новые наработки, которыми я хочу с вами поделиться.
Вот уже год как открытые LLM взяли курс на мультиязычность, однако все мы наблюдаем две старые проблемы: (1) замедление генерации на неанглийских промптах и (2) внезапные китайские иероглифы. А все потому, что словарь модели хоть и стал больше, русских слов в нем почти не прибавилось и как было по 3 русских символа на токен так и осталось (qwen2.5 - 2.5, mistral-nemo - 3.0, llama-3 - 3.0, gemma - 3.2). Как результат мы не только тратим на русские слова раза в 2 больше токенов чем на английские (отсюда и замедление), но также оказываемся неспособны полноценно выделять смыслы этих токенов на фоне других (привет 嗨).
В качестве лекарства в нашей работе Impact of Tokenization on LLaMa Russian Adaptation мы предложили просто заменять словарь токенизации, входные и выходные эмбеддинги на адаптированные под русский язык. Год назад это хорошо сработало и даже смогли превзойти исходное качество LLaMA на Russian Supeglue и side-by-side тестах (со всеми ускорениями и экономией контекста).
Но как и все экспериментальные препараты методы наш имел ряд побочных эффектов:
1. Во-первых, из-за полной замены токенизации страдали исходные англоязычные знания модели,
2. Во-вторых, несмотря на то, что на выходе мы получаем более качественную базовую модель с точки зрения русского языка, чтобы получить сравнимую с популярными инструктивными версиями моделей требуется произвести сопоставимые процедуры инстракт-тюнинга, при том, что не все подходы воспроизводимы, так как не всегда открыты инструктивные датасеты (у llama-3 он состоял из 10 миллионов примеров)
Вот мы и решили посмотреть, а можно ли как-то совместить наши ruadapt базовые модели и исходные инструктивные версии (например, модель openchat-3.5 является инструктивной версией модели mistral-7b-v0.1). Мы выяснили следующее:
1. Даже просто заменив матрицы эмбеддингов у инструктивных версий моделей на новые ruadapt версии, модель не перестает работать, хотя и существенно теряет в качестве
2. Если вспомнить линал и посчитать траекторию (проекцию) от весов базы к весам инстракта, то можно откорректировать наши ruadapt эмбедды для лучшей состыковки со слоями инстракта. Этот подход и был нами реализован и назван как Learned Embedding Propagation (LEP).
3. Если этого мало, то после LEP можно произвести дополнительные шаги калибровки и/или инстракт тюнинга, по сути, аналогично любым методам, которые применяются над инстрактами (например, saiga или новый Vikhr)
Таким образом мы создали новое поколение ruadapt моделей: они имеют лучшую токенизацию, по сравнению с исходной моделью и не теряют в качестве, а по ряду бенчмарков даже превосходят качество исходных версий моделей. Первая в списке таких моделей идет RuadaptQwen-3B. Это адаптированная на русский язык модель qwen2.5_3B, к которой была применена описанная процедура. После LEP был произведено несколько этапов инстракт-тюнинга на основе кода проекта saiga. Токенизатор собрали с учетом специализации на русский и сохранения способностей на английском (i.e. 4.0 символа на русский токен), так что ускорение генерации русскоязычного текста до 60%.
На известном бенче Vikhrmodels/arenahardlb наш RuadaptQwen-3B набрал 66 очков , обходя при этом большинство моделей размером в 7-8 миллиардов параметров (и это мы ещё не применили секретную технику "тюна на тесте" 🤡). Это не говорит о том, что модель действительно лучше 7-8 миллиардных моделей, но по крайней мере с точки зрения данной арены не уступает им, имея при этом всего 3 миллиарда параметров.
Welcome попробовать нашу новую модель, будем рады полезному фидбеку, особенно по сравнению данной модели с ее исходным эквивалентом Qwen/Qwen2.5-3B-Instruct :)
https://huggingface.co/RefalMachine/ruadapt_qwen2.5_3B_ext_u48_instruct_v4
Чё там под капотом?:
1 - Они обучили AE с глубоким сжатием. AE-F32 агрессивно увеличивает коэффициент масштабирования до 32, в отличие от традиционных AE-F8. Это уменьшает количество данных для обработки и ускоряет генерацию так как выводит в 16 раз меньше латентных токенов.
2- Заменили дефолтный DiT на Linear DiT. Вычислительная сложность исходного DiT составляет O(N²), которая увеличивается квадратично при обработке изображений высокого разрешения. Они заменили все стандартные блоки внимания линейным вниманием, уменьшая вычислительную сложность с O(N²) до O(N). В то же время присоседили Mix-FFN, который интегрирует глубинную свертку 3×3 в MLP для агрегирования локальной информации токенов. и тем самым получили буст в 1.7 раз при генерации в 4к. профитом Mix-FFN является ещё и то, что как выяснилось - позиционное кодирование (NoPE) оказалось не нужным. поэтому они без зазрения совести выпилили позиционное встраивание в DiT и не обнаружили потери качества.
3 - Они отказались от богомерзкого Т5: В качестве кодировщика юзается православная Gemma. Это позволяет Sana лучше понимать и следовать промту.
4 - По обучению: Они заюзали несколько VLM для создания повторных подписей для каждого изображения, включая автоматическую маркировку изображений и так же динамически выбирали подписи с высоким clip score. их эксперименты показали, что сей подход улучшает сходимость обучения и соответствие текста изображению. Кроме того, вместо 28-50 шагов при Flow-Euler-Solver, годные пикчи можно получать при 14-20 шагах засчёт Flow-DPM-Solver
Sana-0.6B обещает быть любопытной, и как вишенка на торте - обещают выложить хитро квантованную в W8A8 модельку - (симметричное квантование INT8 для каждого токена для активации и симметричное квантование INT8 для каждого канала для весов. А чтобы сохранить высокое семантическое сходство с 16-битным вариантом при минимальных накладных расходах на время выполнения, они сохронят уровни нормализации, линейное внимание и уровни проекции ключ-значение в блоке перекрестного внимания с полной точностью.)
Тут это, на цивите из-за лага можно на халяву лутануть 225 синих бомж бузов!
https://civitai.com/claim/buzz/uh-oh
P.S
Синие бомж бузы - лутаются за просмотр рекламы, и выполнение ежедневных задачек, можно тратить на генерации пикч и обучение.
Жёлтые православные бузы - покупаются либо лутаются как вознаграждения от других юзеров, можно тратить на генерации пикч, обучение а так же в Tips, Creator Club и Bounties
ОБНОВЛЕНИЕ.
[Файлы Neurogen] 15. FaceFusion - /FaceFusion (обновлено до версии 3.0.0)
Доступно в @AINetSD_bot
ОБНОВЛЕНИЕ.
[Файлы AINetSD] 39. Object Cutter-AINetSD - /objectcutter_ainetsd
Вырезка объектов по промту/рамке
Используется модель Finegrain Box Segmenter, обученная на смеси естественных данных, собранных Finegrain, и синтетических данных, предоставленных Nfinite. Работа основана на опенсорсном микро-фреймворке Refiners для простой адаптации базовых моделей.
Не следует ожидать прям вау результатов, иногда может криво вырезать
P.s у кого проблема с скачиванием результата - загляните в комментарии к этому посту.
Доступно в @AINetSD_bot