derplearning | Unsorted

Telegram-канал derplearning - Derp Learning

13017

Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Subscribe to a channel

Derp Learning

https://youtu.be/lOfZLb33uCg?si=E6l58CtlMrkxFhgE

A clip literally made by Al
(Al yankovich)

Читать полностью…

Derp Learning

Мечтает ли GPT-4o о сегментации картинок...?

Рассказал на Habr найденный способ как заставить GPT-4o работать с детекцией объектов на картинке и выдавать координаты (bounding boxes), с которыми можно работать.

Внутри много деталей о том, с какими препятствиями и нюансами мы сталкиваемся в Vibe AI при парсинге сообщений со скриншотов переписки.

Приятного прочтения, буду благодарен вашей обратной связи, лайкам, репостам ❤️

Читать полностью…

Derp Learning

GPT-2 за двадцать долларов

Три недели назад llm.c был просто быстрым, на игрушечных датасетах и одной видеокарте. Но Карпатый на месте не стоял - он уже тренирует небольшие модели на десятках миллиардов токенов и восьми видеокартах. И при этом сохраняя огромную пропускную способность: GPT-2 Small выдаёт 180k токенов за секунду на каждую видеокарту. И при такой скорости тренировки, совсем не жертвуют точностью - результаты даже лучше чем у оригинальной GPT-2, при том что датасет похожий, а количество токенов такое же.

Small версию вообще можно натренировать за полтора часа на одной машине с 8 видеокартами. Стоить такое удовольствие будет всего двадцать долларов. Тренировка Medium обойдётся уже в $200, а XL в $2,5k, но проект всё ещё есть куда оптимизировать.

Пока что натренированы только Small и Medium размеры GPT-2, но с такой бешенной скоростью разработки поддержка моделей побольше будет уже в ближайшие дни.

Следующие майлстоуны:
➖Тренировка 770m и 1.5B моделек
➖ Поддержка нескольких нод
➖ Поддержка H100 и с ней fp8
➖ Воспроизводимая тренировка - чтобы можно было тренировать модель на двух разных машинах с побитово идентичными результатами

Нужно всё-таки попытаться потренировать на фритюрнице

@ai_newz

Читать полностью…

Derp Learning

Небольшой апдейт по истории: Vox получили доступ к договору, который вынуждали подписывать экс-сотрудников, и ряду других внутренних документов OpenAI. В этих документах есть чудесный пункт о возможностях компании обнулить акции любого экс-сотрудника вообще без повода. На всех этих прекрасных документах либо подписи COO и VP of People либо лично Альтмана. Как, после таких откровений, звучат заявления о том что "руководство ничего не знало" - решайте сами.

not consistently candid in his communications with the board звучит всё понятнее и понятнее

@ai_newz

Читать полностью…

Derp Learning

Надеемся, Openai не решат устроить battle royale

Читать полностью…

Derp Learning

Мелкомягкие выкатили пучок instruct моделей Phi-3:

Phi-3-Vision (mini, 4B, 128k context)
Phi-3-mini (4b, 128k)
Phi-3-small (7B, 128k)
Phi-3-medium (14B, 128)

Также есть и 4k контекст.

На бенчмарках vision-mini ведет себя на уровне 7B опенсорсных и некоторых проприетарных моделей. Сразу видно, обучали на лучших тестсетах.

Читать полностью…

Derp Learning

Коротко о презентации гугла

Читать полностью…

Derp Learning

Теперь каждый может встречаться с моделью 🥲

Читать полностью…

Derp Learning

А еще недавно опенсорснули MS-DOS 4.0 (1 и 2 версии уже пылятся на гитхабе 6 лет)

github

Читать полностью…

Derp Learning

Переносим ComfyUI в телеграм бота

Ожидая трансляцию OpenAI с апдейтами, хочется рассказать про еще рандомные тесты im-a-good-gpt2-chatbot:

Благодаря im-a-good-gpt2-chatbot понял как запихнуть ComfyUI, Gradio или Automatic внутрь бота, и работать прям из Телеграм с телефона.

🐈‍⬛ Из плохих вещей:
— Вам все еще нужно запустить GPU сервер в colab, runpod, вашего компа с доступом в инет
— Дизайн чуть адаптирован под телефон, но бывают трудности

🐈‍⬛ Из неожиданных плюсов:
— Теперь можно генерить в любимых UI для нейронок через тг и телефон со всеми своими лорами и чекпоинтами, которые вы собирали годами
— Можно шарить ссылку друзьям и вместе генерить, генерации автоматически попадают в очередь, или вы хотите сразу 5 разных пайпланов тестить с разных устройств.

Конечно я понимаю, что идеально переписывать все под формат телеграмма, чтобы это был готовый продукт. Но если вам нужно дешево и сердито, то вот ссылка на Colab. Нужно только заменить API ключ бота ТГ и подставить ссылку публичную, которую выдаст ComfyUI, Automatic или Gradio.

☺️ Мне почему-то возможность менять ноды в ComfyUI сидя в лесу невероятно нравится. Еще немного лет и может с новым gpt адаптирую Блендер под Тг бота.

Читать полностью…

Derp Learning

ElevenLabs тизерит конкурента Suno

Пока есть только пара демо-треков, по первым впечатлениям - выносят Suno по качеству. И не удивительно - ElevenLabs лучше всех умеют в клонирование голоса, что, надеюсь, они прикрутят и сюда.

Главная проблема тут, как и со всей ИИ музыкой — копирайт. Если не понятно на чём модель тренировали, то при использовании в чём-либо серьёзном есть нехилые шансы нарваться на многомилионный иск, музыкальная индустрия их любит. Решается это лишь полным лицензированием трейнинг сета, что сделали пока что лишь для Stable Audio (которая не умеет генерить вокал).

Как вы думаете, когда увидим первые судебные иски?

@ai_newz

Читать полностью…

Derp Learning

What the hell happened here.jpg

В пятницу Сони сделалав Helldivers 2 принудительный логин через свою playstation network, которая мало того что была далеко не у каждого и работал через одно место, так ещё и недоступна в 170 странах.

Довольная публика оценила жест и накидала отзывов за выходные. Жаль разрабов, ведь они сами фактически не при чем.

Интересно что ответит издатель в понедельник.

Читать полностью…

Derp Learning

Умельцы из твиттера сделали инфографику о том, как топ ChatBot Arena менялся за последний год.

Чат-гпт все ещё держится, но ей дышать в затылок. Конкуренция идёт серьезная. Посмотрим, есть ли у ClosedAI ещё козыри в рукаве.

Что такое ChatBot Arena – тут.

@ai_newz

Читать полностью…

Derp Learning

В Абу-Даби прошла первая в мире гонка болидов-беспилотников.

Самое интересное происходило на квалификации, когда машины делали тестовые заезды, чтобы «познакомиться» с трассой. Машины вылетали с трасс, разворачивались, влетали в отбойники. Одним словом делали то, за что мы любим беспилотники.

Читать полностью…

Derp Learning

Блогер под ником GingasVR собрала сетап для игры в Skyrim с полным погружением. Она надела жилет с вибрацией и костюм, который бьёт током во время получения урона в игре.

Кроме того, GingasVR настроила вентилятор так, чтобы он подстраивал температуру под игру. А ещё она установила мод, который интегрирует ChatGPT в NPC.

@zavtracast

Читать полностью…

Derp Learning

Your "totally not wrong" versions are very welcome !

Читать полностью…

Derp Learning

ToonCrafter: Аниматоры напряглись, аниме-любители радуются

Пока мы ждем сору, вот вам ToonCrafter — прикольная модель для тех, кто делает двигающиеся картинки в стиле аниме.

Я уже вижу, как китайские аниме-студии сразу сокращают количество кадров. Собственно для этого она и создавалась в соавторах Tencent AI Lab.

Есть три режима:

- межкадровая интерполяция. Модель дорисует кадры между двумя key frames. Причем не просто линейным поступательным движением, как это сделано в других работах по интерполяции видео, а полноценная анимация.

- интерполяция, но на башне скетчей. Когда цвета нет.

- окрашивание. Перед тем как анимешку сделают цветной, сначала делают полноценный анимированный эскиз в чб. Вот его теперь будут красить автоматически.

Непонятно, насколько мощный черипик в примерах. Выглядит ну как-то уж слишком хорошо. Хоть здесь и используются для каких-то более сложных вещей эскизы как референсы.

У них, оказывается, уже есть демо. Сгенерил простенькую кошечку — работает офигенно, хоть и две секунды и разрешение шакальное.

Как этого достигли?
1. Хитро зафайнтюнили DynamiCrafter на аниме видосах. Там есть своя специфика, ведь в мультиках много регионов без текстур, и нет motion блура, как в реальных видео.
2. Натренировали специальный 3D декодер, который берет на вход кроме latent векторов фреймов, ещё и дополнительно исходные первый и последний кадры, чтобы сохранить точную информацию о внешности объектов.

Project Page с примерами. Рекомендую глянуть.
Пейпер
Код на гитхабе
Демо на обнимающем лице

@ai_newz

Читать полностью…

Derp Learning

Штош, Nvidia стоит дороже Германии 🥲

Читать полностью…

Derp Learning

Если этот ваш ai такой клёвый, то почему до их пор нет ai 2?

Читать полностью…

Derp Learning

Люди: SORA иногда генерирует какой-то неправдоподобный бред

Реальный мир:

Читать полностью…

Derp Learning

Выхожу из тени с классными новостями.

Мой фильм DREAM вошел в финал в AIFA Awards. И 28 мая будет показываться на большой NFC конференции в Лиссабоне. Поздравляйте! 🍓

#jane #ai #aifilm

Читать полностью…

Derp Learning

О, а вот и Илью из подвала выпустили.
Новые сюжеты в передаче Sam себе режиссер.

Твит

Читать полностью…

Derp Learning

Бедные индусы с Ютуба остались без работы 🥲

Интересно, можно ли попросить говорить с акцентом 🤔

Читать полностью…

Derp Learning

Опенаи выкатили свою новую мультимодальную GPT-4o, которую величают омнимодальной. (Не иначе как переобщались с эпплом).

Она уже уделывала конкурентов на бенчмарке чатботов LMSYS, нативно понимает голос, быстрая, дешёвая, подробнее можете прочитать в каждом чайнике.

Самое главное - она доступна всем даром и пусть никто не уйдет обиженный
Сэм Альтман давно вещает про этот ваш гарантированный базовый доход, и даже вроде давал кому-то денег в рамках эксперимента.
Но недавно он переобулся и начал называть его universal basic compute. Тобищь гпт-7 будет уже в каждом чайнике (на этот раз буквально), и доступ к нему Сама предлагает приравнять к базовому доходу.

Звучит, конечно, альтруистично. Но мы-то с вами знаем, где бывает бесплатный сыр.

И вот, выходит новая gpt, 4o. Мощная и доступная каждому. Неужто Universal basic compute? Возможно, но пока рядовые домохозяйки поймут, как это монетизировать, большинство конкурирующих стартапов загнётся, так как не смогут конкурировать ни по цене, ни по качеству.

Ждём новую модель от Майкрософт, и надеемся, что остальные конкуренты тоже не оплошают.

Читать полностью…

Derp Learning

Gazelle - первая open source VoiceToLLM модель

TincansAI объявил о выпуске Gazelle v0.2, инновационной речевой модели, которая может может обрабатывать устные запросы и длинные аудиофайлы напрямую, без их транскрипции или распознавания речи.

Благодаря прямой обработке аудио данных, модель быстрее, точнее, а также способна интерпретировать эмоции и даже сарказм в речи.

Код "из коробки", с абсолютно нулевой оптимизацией и работающий с полной точностью, достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход. По оценкам авторов, задержка более сложной системы с синтезом составит менее 300 миллисекунд, что меньше воспринимаемой человеком задержки в реальном времени

Насколько известно авторам, данная модель является первой и единственной open source моделью, способной вести диалог в реальном времени. Кроме того, разработчики публично проводят оценку безопасности и сообщают об успешных атаках на речевую модель. Наконец, это первая речевая модель, в которой применяется мультимодальная оптимизация предпочтений.

Производительность Gazelle оптимизирована для реальных приложений, таких как поддержка клиентов, телефонные звонки и общение в чате.

🌐 Сайт
🤗 HuggingFace
👨‍💻Демо1
✖️ Демо2

Читать полностью…

Derp Learning

StoryDiffusion: генерация консистентных наборов изображений без дообучения

Если вам нужно сгенерировать последовательную историю из фотографий, чтобы везде чётко прослеживалась единая локация, а главные персонажи не меняли одежду и причёску от фото к фото, то StoryDiffusion — именно то, что вам нужно.

Идея гениальна в своей простоте — ничего даже учить не нужно, только заменить блок self-attention на версию, которая "смотрит" на соседние фотографии в батче. Оказалось, этого более чем достаточно, чтобы генерации стали согласованными между собой.

StoryDiffusion идеально подходит для создания комиксов и даже видео (нужно только интерполировать сгенерированные ключевые кадры, что авторы и делают). Код уже в открытом доступе! Должно работать почти с любыми обученными диффузионными моделями.

Статья, GitHub, HuggingFace

Читать полностью…

Derp Learning

😗llm.c теперь быстрее PyTorch - запускаем GPT-2 на рисоварке экстра быстро!

Андрей Карпатый и комьюнити показывают чудеса продуктивности – за 3 недели проект из игрушки (/channel/ai_newz/2557) превратился в настоящего зверя: добавили поддержку CUDA, FlashAttention, тренировку на нескольких видеокартах и кучу оптимизаций. Результат – llm.c тренирует GPT-2 на 46% быстрее чем текущий релиз PyTorch. Это возможно подстегнуло разрабов торча оптимизировать фреймворк и значительно сократить отставание - Nightly билды всего на 7% медленнее llm.c.

С большим функционалом код стал комплекснее, теперь там 3 тысячи строк кода и компилируется он заметно дольше изначальной секунды.

Не смотря на головокружительный прогресс нужно ещё много чего сделать:
* сейчас использование нескольких видеокарт лишь ускоряет тренировку, но размер модели всё ещё ограничен памятью одной видяхи
* подготовить кодбазу к полноценному воспроизведению GPT-2 (модели всех размеров на нормальном датасете)
* добавить поддержку моделей кроме GPT-2.
* ещё больше оптимизаций

Всё это на самом деле сложные задачи, но после наблюдения за темпами разработки у меня возникло впечатление что всё это мы увидим ещё в этом месяце.

https://github.com/karpathy/llm.c

@ai_newz

Читать полностью…

Derp Learning

Нас ждут в скором времени безумные игрушки

Читать полностью…

Derp Learning

Букет котов. А почему-бы, собственно, и нет :3

Читать полностью…

Derp Learning

Valheim и её великолепная механика сруба деревьев

r/#shitposting

Читать полностью…
Subscribe to a channel