Telegram-канал derplearning - Derp Learning: Unsorted - каталог телеграмм

derplearning | Unsorted

Subscribe to a channel

Telegram-канал derplearning - Derp Learning

12739

Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Subscribe to a channel

Derp Learning

01 Oct 2024 16:08

YC, когда увидел форк форка vscode

Читать полностью…

Derp Learning

01 Oct 2024 14:05

Роболапки в каждый дом!

Котаны с huggingface & therobotstudio запили новый DIY-набор для роборук, за треть стоимости предыдущей версии.

Одна рука теперь обойдется в 125$, но нужен 3д принтер.

Не могу нарадоваться тренду на опенсорс роботикс и это вот все

Git с моделями и списком деталей
Git lerobot (soft для рук)
Lerobot discord

@derplearning

Читать полностью…

Derp Learning

01 Oct 2024 10:01

Никто не застрахован, распространите!

Читать полностью…

Derp Learning

01 Oct 2024 08:17

На (в) теплотрассе теперь тоже больше не спрятаться

Читать полностью…

Derp Learning

01 Oct 2024 04:53

Only 6 spots left in the next yc batch

Читать полностью…

Derp Learning

29 Sep 2024 19:40

LVCD: Reference-based Lineart Video Colorization with Diffusion Models

А вот и код подвезли!

Под капотом SVD + sketch temporal controlnet + всякие хаки с аттеншеном.

Осталось только сделать depth controlnet, и "runwayml vid2vid gen2 есть у нас дома" готов!

Code
Paper
Project

@derplearning

Читать полностью…

Derp Learning

29 Sep 2024 15:58

Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance (NeurIPS 2024)

И такой еще подход зарелизили.
Берем две референсных картинки: одну для стиля, другую для структуры, шатаем ими аттеншен, и получаем контролируемые генерации без гайданса, тюна, или контролнетов.

Похоже на reference controlnet (который контролнетом назвали видимо потому, что было лень объяснять)

code
paper
reddit
project

@derplearning

Читать полностью…

Derp Learning

29 Sep 2024 13:36

PortraitGen - Portrait Video Editing Empowered by
Multimodal Generative Priors

Интересный подход к video2video с объездом через 4D гауссианы.
Неожиданно, с кодом и претренами.

paper
git
project

Читать полностью…

Derp Learning

29 Sep 2024 13:03

Так и запишем: на чердаке больше не спрятаться

Robust Ladder Climbing with a Quadrupedal Robot

paper

Читать полностью…

Derp Learning

27 Sep 2024 07:54

Тем временем VisualRWKV не стоит на месте и уже подбирается к LLAVA по метрикам, при большей скорости и меньшем расходе памяти.

Когда они уже картинки начнут генерить, ну.

https://github.com/howard-hou/VisualRWKV

Читать полностью…

Derp Learning

26 Sep 2024 10:27

Индустрия через пару лет такая: «А чего бы нам не запускаться только на нейронных чипах?»

Думаете, Хуанг не пойдет на это, учитывая все его последние заявления? Отлично же картинку держит, не?!

Читать полностью…

Derp Learning

25 Sep 2024 12:18

Принес классную ссылку тем кто хотел бы начать разбираться в «агентах» с LLM – агентами называют мини-ботов которые делают какую-то задачу и обладают некой степенью свободы:
https://github.com/NirDiamant/GenAI_Agents

Внутри примеры на все случаи жизни: автоматизация саппорта, чатботы, автоматический поиск в интернете и тп., у всех примеров открыт исходный код

Агента Смита пожалуйста не делайте, спасибо

Читать полностью…

Derp Learning

23 Sep 2024 17:07

https://www.youtube.com/watch?v=3sVZ_f6Rs-Q

его не ждали, а он жив

Читать полностью…

Derp Learning

18 Sep 2024 13:02

Вот держите еще немного утечек и Снапчат-метаверса.

Эван Шпигель, сам, без ансамбля, тизерит генеративный AI при создании линз.
Тут бы впору выпить за всех, кто зарабатывает на линзах, ибо он просто говорит давай чизбургер или котика - и оно моментально генерит (сначала 2Д-прокси, а потом 3Д(!) AR-объект. Он делает хорошее шоу - из зала люди кричат, что они хотят увидеть, а он просто говорит "imagine cowboy frog" и лягушка ковбой возникает в 3Д. Смотрится куда лучше, чем твитторные треды типа "кидайте промпты, а я нагенерю".
Ну и совсем убойно смотрится вот это вот меню на ладони. А трюк с настройками на тыльной стороне - вообще шедевр UX.
Все эти фильмы про будущее уже здесь.

Снап молодцы, у них очень крутой ресерч.
И я добавлю, что именно тут ИИ-генерация очень уместна и по делу - нет требований к качеству 2Д и 3Д, аудитория уже приучена к некоторому стилю, в которой ИИ попадает с первого раза.

А порассматривать очки можете тут:
https://techcrunch.com/2024/09/17/snaps-extremely-large-spectacles-bring-impressive-ar-to-developers-at-99-a-month/

@cgevent

Читать полностью…

Derp Learning

16 Sep 2024 05:07

Очень хочется посмотреть «необчные» версии известных шоу, сделанные AI.

Читать полностью…

Derp Learning

01 Oct 2024 16:08

Когда запилил сайт-визитку на AWS

Читать полностью…

Derp Learning

01 Oct 2024 10:33

Тем временем колаб расщедрился и снизил стоимость L4 аж на целых 38%. (Было 4 с чем-то кредита, стало 3, т.е. 30 центов, что вполне неплохо)
Конечно, кому их юзать, если ты побанил всех a1111 халявщиков 🥲

Коммент и реклама под постом как отдельный вид искусства

З.ы. тому челу, просравшему все кредиты на установку торча, написал продакт колаба и пообещал вернуть кредиты 😂

Tweet

@derplearning

Читать полностью…

Derp Learning

01 Oct 2024 09:17

Openai внезапно вспомнили, что они open, и выкатили whisper v3 large turbo & turbo

Commit
Git

@derplearning

Читать полностью…

Derp Learning

01 Oct 2024 05:06

AGI (average general indian) achieved internally

Читать полностью…

Derp Learning

29 Sep 2024 20:29

’🥲🤔🌚

Читать полностью…

Derp Learning

29 Sep 2024 17:33

🔥Molmo: Outperformimg Proprietary Multimodal Language Models

Приношу вам самый сок. Кажется, это самый лучший доклад за сегодня.

За два часа до релиза Llama 3.2, челы выложили семейство открытых моделей Molmo (и нет, это не совпадение):
- 1B,
- 7B и
- 72 B

По качеству на визуальных задачах Molmo выдает +- перформанс как Llama 3.2. где-то лучше, где-то хуже, и приближается к GPT-4o .

- Но, пре-трейн модель они делали всего на 700к размеченных парах картинка-текст (PixMo-Cap). В то время как Llama тренили на 6 млрд!
- Использовали в 9000 раз меньше данных, но гораздо больше высокого качества.
- люди не любят печатать, люди любят говорить. Поэтому разметчиков просили не печатать описание картинки, а описывать её ГОЛОСОМ 60-90 сек. Далее запись автоматом переводили в текст. Это гораздо эффективнее, проще и помогает быстро собрать очень длинные и детальные описания картинок.
- дополнительно разметчиков просили тыкать точками на объекты, про которые они говорят. Это помогло научить модель связывать пиксели текст, выдавая точки на картинке, когда она описывает какой-то объект.

Все это очень сильно подняло качество модели. Это прям крутые идеи.

По архитектуре ничего необычного – transformer с late fusion. То есть токены картинок пропускаются через обучаемый коннектор, а затем кормятся в LLM.

Трейн в два стейджа, ничего не замораживая:
(1) multimodal pre-training для генерации описаний на новом датасете - 700к картинок (2) supervised fine-tuning на instruction датасете, который они тоже собрали сами (там и точки на картинках, и документы прочие задачи) - тут в около 1.9 млн картинок (возможно пересекается с претрейн-датасетом)

Трейн и эвал код и датасет (PixMo) выложат в течение 2 месяцев - я им верю!

Блогпост про модели
Arxiv

@ai_newz

Читать полностью…

Derp Learning

29 Sep 2024 15:43

CogView3 & CogView-3Plus

В целом осень выдалась урожайной, в основном благодаря ECCV & SIGGRAPH ASIA

Вот и китайцы выкатили очередную итерацию CogView text2image

Если верить авторам, бьет SDXL во все поля (пора все-таки уже с FLUX сравнивать, сдохле второй год пошел)

paper
code

@derplearning

Читать полностью…

Derp Learning

29 Sep 2024 13:19

Фоторежим из Death Stranding 2 как отдельный вид искусства

@derplearning

Читать полностью…

Derp Learning

28 Sep 2024 12:43

Runway: режим Video-2-Video теперь есть и в Turbo версии Gen-3. До этого оно было только в базовой модели.

Также в Turbo завезли работу с вертикальными видео.

Твит
Сайт
Про Runway Turbo

Читать полностью…

Derp Learning

26 Sep 2024 18:00

https://fxtwitter.com/blizaine/status/1839301081656078579

Читать полностью…

Derp Learning

26 Sep 2024 08:17

I shared the following note with the Openai team today

Читать полностью…

Derp Learning

24 Sep 2024 22:32

While we’re talking about nuances

Winamp published their source code on github

https://github.com/WinampDesktop/winamp

And they used custom license which, among other things, forbids creation of forks

What’s nuance? GitHub’s license doesn’t allow usage of license where forks are forbidden 🌚

Fork time ! 😈

Читать полностью…

Derp Learning

19 Sep 2024 23:45

Издалека прочитал неправильно название - даже захотелось купить кому-нибудь в подарок 😅🥲

Читать полностью…

Derp Learning

18 Sep 2024 12:45

Маск, Альтман, Брокман, Суцкевер

Читать полностью…

Derp Learning

12 Sep 2024 07:19

⚡️В ближайшем обновлении emoji будет добавлен самый важный, которого мы ждали — читатель интернета вечером

PDF-документ обоснования добавления

Читать полностью…

Subscribe to a channel