Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
У Runway потрясающее новое обновление — улучшенное управление камерой
Можно будет выбрать направление движения, скорость, сочетать это все в ролике. Есть даже панорамирование объекта, то есть обучали не только на видео. Подробнее и с черрипиками тут.
Готовлюсь тестировать на все деньги, вместе с новым обновлением в Midjourney (позволяющим работать со своими изображениями) — это новое слово в творчестве и рекламе. После сотни итераций, конечно.
Классная игра – где одна LLM рисует картинку кодом (SVG), а другие LLM угадывают что это
(Кода пока нет, но наверное будет)
Автор
Тем временем главный не-мешки-ворочатель Openai лично опроверг выход новой модели Orion в декабре. Значит, релиз точно будет 😂
Читать полностью…HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
Красивое! Авторы DC-AE и sana продолжают жечь сердца людей опенсорсом.
На этот раз они взяли авторегрессивную модель и к привычному дискретному пайплайну добавили немного диффузии. То есть основную работу делают с обычным next token prediction, и потом поверх наваливают немного диффузии, чтобы сгладить углы.
В итоге получают соту во все поля. Элегантно и эффективно! Так ли уж нам нужна теперь эта ваша sana? 😂
Code
Project
Paper
Demo
@derpleaning
Кстати диффузионных моделек, использующих DC-AE, целый зоопарк, но они все class conditioned и походу тренились только на imagenet :D
Даже не знаю, что хочется больше - задистиллить sd под этот DC-AE, или запихнуть эти модели в disco diffusion
code
models
A gta5 loading screenshot featuring a man, by Stephen bliss, comics, thick lines, outlines, high detail, cyberpunk 2077 arasaka armor
Забили очередь, ахах.
У мега-ультра-супербыстрого генератора картинок от Nvidia под названием SANA появился репозитарий на Гитхабе. Но кода пока нет, а Readme обновилось 3 часа назад. Ждем-с...
https://github.com/NVlabs/Sana
Когда хотел сгенерить картинку 1910*1080, но вместо * написал ^
Хватит ли сферы Дайсона и нашего солнышка, чтобы запитать кластер на 1 эксабайт (1 млн терабайт)?
Ну наконец-то для is-odd обнова вышла!
Теперь можно узнать четное число или нечётное с помощью гпт3.5!
Еще одна классная фича нового Adobe Illustrator, это когда вы загружаете 2D векторную картинку, и можете ее "повернуть" в объеме – на видео понятно как работает
Фича называется Project Turntable
Все же придется уходить с Corel Draw, чуваки 😮
Mistral выкатил пару новых моделей для edge девайсов: Ministral 3B & 8B, 128k context.
Подвох в том, что они доступны по API, опенсорсная 8B - с рисерч лицензией, а за коммерческой писать в им лс :D
Announcement
Ministral 8B - Research License
😮 А вот подъехала и первая публичная цена на DGX B200. За него придётся отдать чуть больше полумиллиона долларов.
Серваки с H100, для сравнения, стоят где-то в районе 300к (для больших компаний явно дешевле, но они покупают их десятками или даже сотнями тысяч).
@ai_newz
SpaceX lands Starship's rocket booster in the arms of massive metal pincers, marking a huge success in its fifth test flight.
Читать полностью…По всей видимости, текущие методы RL не очень подходят для генерации трёхмерных представлений либо тратят слишком много вычислительных ресурсов. Поэтому для новой беты модели Gen-1 RLHF V0.9 использовали Reinforcement Learning with Human Feedback (RLHF): у них, натурально, в штате сидит команда моделлеров, которые раздают вознаграждения.
К слову, генерации на уровне Tripo3D из этого поста — возможно, у Tripo тоже RLHF, но это же не звучит так волшебно, если у тебя разметку делают люди.
На старте дадут 8 бесплатных кредитов, погонять тесты хватит. Для остального есть возобновляемые кредиты у Tripo.
Пробовать тут
Тем временем Nvidia стала самой дорогой компанией, обойдя эпол.
Продавать современные обогреватели для датацентров хайповее железа пятилетней давности, кто бы мог подумать.
Doesn't look like anything to me.
Кто куда, а я за модной черной шляпой и конем :D
Помните, недавно кидал подобную робо-руку от этих же товарищей?
Они времени зря не теряют, и уже запилили тушку.
Torso by Clone Robotics
@derplearning
Когда сгорел на работе и стал запретной слоеной булочкой
Читать полностью…Anthropic показал новые модели Sonnet 3.5 (New) — эта чуть лучше прошлой (все равно вы ее для кода используете, на 5% лучше его пишет), Haiku 3.5 — эта их конкурент gpt4o-mini (получше, но дороже). Тут у Игоря подробный разбор релиза.
Мне же понравилось другое, они показали как примерно будет работать управление компьютером агентом — посмотрите видео, я их чуть обрезал. То есть через какое-то время, мышку можно будет не двигать, просто говорите компьютеру что хотите — и оно делает скриншотя экран – ну как в Sci-Fi фильмах только сегодня
Уже доступно через апи, вот код из примера, а тут документация
Ботоводы, наверное, потирают руки
Слухи подтвердились, используют DC-AE, официальное репо sana это подтверждает!
Код ещё не подьехал, но уже есть градио демка. Генерит быстро, 1-2с на 1024х1024 картинку.
В принципе, даже если качество самой модели будет неоч, DC-AE отдельно уже очень крут.
DC-AE project
DC-AE paper
DC-AE code
Sana repo
Sana gradio demo (1.6b 1024)
Paper
@derplearning
efficientvit
TLDR; на реддит пишут что это исходный код того самого эффективного VAE (жмет в 32 раза), который заюзан в Sana
https://github.com/mit-han-lab/efficientvit
Вот держите список open-source-ных генераторов картинок. Которые можно развести локально.
Не у всех хорошие лицензии, например, Хуньянь только что обновили свое лицензионное соглашение вот так:
You must not use, reproduce, modify, distribute, or display the Tencent Hunyuan Works, Output or results of the Tencent Hunyuan в Европейском Союзе. Еще раз "показывать работы!!!!".
Ну да ладно. Вернемся к списку.
Список неполный, но Влад его постоянно обновляет.
https://github.com/vladmandic/automatic/wiki/Models
Только что добавил неведомых зверух типа MeissonFlow или Thu-ML или IDKiro.
Есть даже динозавры типа Дипфлойда.
Дико полезно, что вы можете в одном месте поглядеть и сравнить вот такие параметры:
Size
Diffusion Architecture
Model Params
Text Encoder(s)
TE Params
Auto Encoder
Еще раз, это то, для чего есть код. Для Flux 1.1 кода нет.
В общем сразу хочется все попробовать, целюсь в MeissonFlow.
Пишите, кто пробовал разную дичь из этого списка.
И кто вообще юзает SD.Next.
p.s. Тут все постят про SANA от Нвидия.
https://nvlabs.github.io/Sana/
Пока кода нет, сложно что-то сказать. Упор на скорость. Я не впечатлился и не стал постить. Странная ответочка на Flux Turbo от Алимамы, но меня зацепило, что там вся команда из Пиксарт Сигмы, которую сманили из Хуавея в Нвидию.
@cgevent
The Man Who Sold The World
Тем временем WorldCoin от Scam'a Альтмана ребренднулся в World и запилил более кошерный девайс для скана сетчатки. Его можно будет юзать как для себя, так и сканировать соседей за небольшой гешефт.
На данный момент сетчатку уже сдали более 7млн человек.
Намерения на бумаге, конечно, благие - в эпоху ии-агентов важно знать, что ты общаешься с реальным человеком, скан сетчатки которого и будет его уникальной электронной подписью. Ну и UBI каждому даром, и пусть никто не уйдет обиженным.
Однако, зная способности к переобуванию данного персонажа, а также подментованность опенаи, я бы относился к этому с опаской 😅
Подробнее
@derplearning
Ah yes the man from the famous
sissy themed of ad lawn
Adobe показал новую АИ-фичу от которой уже на самом деле дизайнеры напряглись – для такой работы в иллюстраторе раньше приходилось тратить кучу времени 🌚
Читать полностью…Один из крутейших инструментов, которые есть сейчас в Photoshop, — это возможность генерировать 3D-сплаты и на их основе дополнять 2D-генерациями (диффузиями). Проще говоря, генерить модельки и догенерировать окружение.
Конечно, в продакшене это будет не так быстро, как на видео (оно ведь ускорено в 10 раз 🤡). Всегда захочется что-то домоделить, поменять форму, угол, добавить более зеленой травы и прочей маркетинговой дрочи. Мы ведь мечту продаём не меньше!
Но всё равно это в десятки раз быстрее, чем когда я занимался дизайном лет 10 назад.
Вопрос к дизайнерам: напишите, как часто пользуетесь сейчас генеративными тулзами и спасает ли это вас от менеджмента с их комментариями?)))
Чтоб вы понимали, эта бандура 20 этажей в высоту (70м) и 200 тонн чистой массы (без топлива)
Просто представьте как пьяный дед сажает вашу многоэтажку.
Произошло первое в истории возвращение сверхтяжёлого ускорителя ракеты Starship на стартовую площадку с захватом.
Это ещё один серьёзный шаг в освоении космоса. Только посмотрите, насколько круто выглядит
r/#BeAmazed