ai_newz | Unsorted

Telegram-канал ai_newz - эйай ньюз

73705

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow

Subscribe to a channel

эйай ньюз

Провел гугл свою презентацию Google I/O

Смотреть стало скучно спустя 0 секунд, начиная с речи ни о чем от Сундара Пичалька. Фото из зрительского зала прикрепляю.

Показали свою новую Сору, а еще поржали сами над собой, посчитав, что сказали "AI" 121 раз. Ну это кроме Gemini 1.5 Pro, которую открыли для пользователей Advanced.

Почти все презентованное будет доступно... когда-то...

В целом, это был рассказ о том, как Google видит свое будущее в AI или AI будущее в себе. Gemini запихнули ну куда только можно, о чем директор каждого отдела с большой гордостью отчитался. Такое ощущение, что у них там устроили конкурс, кто больше придумает юзкейсов и интеграций в интерфейсы своих приложух. Ну а в итоге, все говорили об одном и том же.

Акции GOOGL немножко приподнялись в моменте, думаю в этом и была цель — закинуть удочку на будущее для инвесторов.

При всем при этом вот что я думаю:
Gemini со всеми этими приколюхами может стать go-to нейронкой для обывателей, так как он торчит из всех щелей, бесплатный и бесшовно встраивается в существующие привычки пользователей. Я говорю о том, что в Chrome ты так и так зайдешь, а вот сайт OpenAI не каждый обыватель специально откроет.

@ai_newz

Читать полностью…

эйай ньюз

Gemma 2 релизнут уже в следующем месяце

К существующим 2B и 7B (на самом деле 8B) размерам добавится ещё 27B моделька. Прямо сейчас релизнули PaliGemma, 3B визуальную LLM, веса тут.

@ai_newz

Читать полностью…

эйай ньюз

А вот примеры генерации с помощью Veo.

Говорят, что могут сгенерит до 60 секунд в 1080p. Но почему-то все примеры в твиттере, кроме одного, по 8 сек.

Собака, кстати, вообще не очень-то черипикнутая вышла.

Больше примеров тут

@ai_newz

Читать полностью…

эйай ньюз

Veo - конкурент Sora от Google

Понимает промпты в виде текста, видео и картинок, генерит в 1080p.

Модель доступна через вайтлист на labs.google, заявки уже принимаются.

@ai_newz

Читать полностью…

эйай ньюз

На сцену выпустили Демиса Хассабиса, главу Google DeepMind

Он показал Gemini 1.5 Flash, более лёгкую модель, оптимизированную для низкой задержки. Версия с 1 миллионом контекста доступна всем, для 2 миллионов нужно просить доступ.

@ai_newz

Читать полностью…

эйай ньюз

Google в 2018: Фантастическая технология Duplex, бронирует за тебя встречи, общается как реальный человек

Google спустя 6 лет:

Читать полностью…

эйай ньюз

Прикольный юзкейс GPT-4o – переводчик. Подумал, что мне оно могло бы пригодиться в поездах в Азию (Япония, Корея, Китай), где люди часто не знают английского от слова совсем. Несколько лет назад я пользовался Google Translate в таких ситуациях, и он, конечно, ни в какие сравнения не идет с GPT-4o. А тут гэпэтэшка так бодренько переводит приятным голосом, да и с минимальными задержками.

@ai_newz

Читать полностью…

эйай ньюз

Завтра Google I/O и они тизерят апдейты Gemini

Так же как и в GPT-4o есть поддержка видео, но задержка звука после презентации OpenAI ощущается ужасно - больше 3 секунд против 300 миллисекунд у GPT-4o.

@ai_newz

Читать полностью…

эйай ньюз

Курс по квантизации для тех, кто хочет быть в теме

Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.

Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.

Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.

Ссылочка на курс

@ai_newz

Читать полностью…

эйай ньюз

Немного с задержкой, но вот все-таки он:

Нейродайджест за неделю (#17)

1. Ла Лэ Мэ
  - Xiaomi из мира LLM. Deepseek V2. Топ за свои деньги, чуть хуже Llama 3.
  - Майки тизерят MAI-1, это будет их первенец; без помощи OpenAI. Есть закос на уровень GPT-4, но с 500B MoE.
  - Сравнительная таблица 100+ лучших LLM-ок для выбора под свои задачи.
  - В чем феномен Llama 3 или подробный анализ успеха всеми любимой ламы.

2. Тизеры и релизы
  - ElevenLabs снова всех уделал в звуке, представив свой txt2music. Судя по тизеру, у Suno и Udio нет шансов.
  - IC Light или кнопка "Сделай красиво" для фотошоперов. Плагин для A1111 и др. мэтчит освещение фона и добавленного предмета.

3. Интересное
- Определяем и делаем Jiggle physics 🍒 для гауссовских сплатов по сгенерированному видео.
  - 1900 вопросов с разбором для подготовки к собесу в ML и т.п.
  - Пускаем скупую мужскую слезу на олдскульные девайсы.


> Читать дайджест #16

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

А вот мои приколюхи с помощью IC Light. Не стал париться с автоматиком, а в демке освещение изменятся только промптом. Оказывается, работает даже с пейзажами. Но мелкие детали все же коверкает.

На первой фотке - я катаюсь в Гудаури. На второй - вид на Сан-Франциско, который я сфоткал во время своей последней поездки.

@ai_newz

Читать полностью…

эйай ньюз

ElevenLabs тизерит конкурента Suno

Пока есть только пара демо-треков, по первым впечатлениям - выносят Suno по качеству. И не удивительно - ElevenLabs лучше всех умеют в клонирование голоса, что, надеюсь, они прикрутят и сюда.

Главная проблема тут, как и со всей ИИ музыкой — копирайт. Если не понятно на чём модель тренировали, то при использовании в чём-либо серьёзном есть нехилые шансы нарваться на многомилионный иск, музыкальная индустрия их любит. Решается это лишь полным лицензированием трейнинг сета, что сделали пока что лишь для Stable Audio (которая не умеет генерить вокал).

Как вы думаете, когда увидим первые судебные иски?

@ai_newz

Читать полностью…

эйай ньюз

Первая собственная большая модель Microsoft, MAI-1, судя по репорту от The Information, уже тренируется. Хотят достигнуть уровня GPT-4 с 500B MoE моделькой.

Это, конечно, не модель на 1.8 трлн параметров, как у сильных мира сего, но тоже сойдёт.😼

В целом понятное желание перестать зависеть от OpenAI, особенно учитывая постоянный цирк с конями, который OpenAI устраивают: вот например, пока майки продают доступ к GPT на Azure, OpenAI напрямую работают с их конкурентами – Salesforces, в то время как бесплатно хостятся на Microsoft Azure.

Взлетит план или нет, мы узнаем скоро: тренировка закончится в этом месяце.

И это спустя всего месяц после того как Microsoft высосал кровь у стартапа Inflection AI и поставил его CEO, Мустафу Сулеймана, рулить Microsoft AI. С тех пор Мустафа, похоже, так хаслил, что даже перестал продвигать свою книжку. Зато начал косплеить Джобса.

В принципе шансы догнать гэпэтэ у них есть. У Microsoft на порядок больше ресурсов чем у Inflection, плюс в тренировке кроме датасетов Inflection используются синтетические датасеты Microsoft, вроде того что использовали для Phi-3.

Делайте ваши ставки, господа

@ai_newz

Читать полностью…

эйай ньюз

Заностальгировал на секунду. 🎮 Шок от осознания того, как сильно поменялись технологии за 25-30 лет.

Теперь уже даже кажется, что магнитные кассеты — это инопланетная технология забытой цивилизации (эх, жаль ллмки на них не покрутишь).

Кидайте свои олдскульные девайсы в комментарии.

@ai_newz

Читать полностью…

эйай ньюз

🔥 Это база с 1900 вопросами с собеседований по машинному обучению, анализу данных, ai, sql. Фишка в том, что вопросы  разбирают эксперты, которые сами проводят собесы и дают примеры правильных ответов. Вы легко получите оффер, изучив  популярные вопросы 💼

Читать полностью…

эйай ньюз

Тут, кажется, все пропустили Music Ai Sandbox. Первая music2music моделька! Это уже полноценный инструмент со своим интерфейсом, который дорабатывает готовые сэмплы, а еще делает style transfer и вариации. Короче, диванным-продюсерам наконец-то есть с чем поэкспериментировать. Хотя, если честно, я действительно вижу, как настоящие музыканты могли бы ее использовать в своем workflow (см пример на видео, как hip-hop исполнители ее используют для создания сэмплов).

Гугл об этом инструменте писал еще в Ноябре 2023 года (модель Lyria). Его только переименовали в Music Ai Sandbox теперь, и, наверное, доработали. Но сейчас, как и тогда, инструмент доступен только узкому кругу музыкантов. 😢

Еще примеры работы тут.

@ai_newz

Читать полностью…

эйай ньюз

Gems - аналог GPTs для Gemini. Как всегда, не релизят сразу, будет доступно через несколько месяцев.

@ai_newz

Читать полностью…

эйай ньюз

Новое поколение чипов для тренировки от Google - TPU v6 Trillium, в 4.7 раз быстрее текущего поколения, будут доступны клиентам в конце 2024 года.

@ai_newz

Читать полностью…

эйай ньюз

Imagen 3 - новая моделька для генерации изображений. Лучше понимает длинные промпты и рендерит текст.

@ai_newz

Читать полностью…

эйай ньюз

Улучшенная Gemini 1.5 Pro теперь доступна в Gemini Advanced и для разработчиков. В приватном превью для разработчиков будет доступна версия с контекстом в два ляма токенов.

@ai_newz

Читать полностью…

эйай ньюз

Через двадцать минут основная презентация Google I/O, так что вот мой минимальный список ожиданий:

* Релиз Gemini 1.5 Pro за пределами AI Studio

* Анонс (и желательно релиз) Gemini 1.5 Ultra

* Анонс, или хоть какой-то намёк на совместный VR шлем Google и Samsung

* Память и аналог GPTs для Gemini

* Видео функционал который они тизерили вчера

Хотелось бы увидеть какие-то подвижки к Gemini 2.0, побольше окно контекста для API Gemini 1.5, хоть какие-то опенсорс релизы и аналоги функционала со вчерашней презентации GPT-4o, но тут есть сомнения.

Я конечно же напишу пост по итогам, а стрим посмотреть можно тут (пока что там бегает вылезший из чашки диджей и поставляет кринж в промышленных масштабах).

@ai_newz

Читать полностью…

эйай ньюз

"Выигрыш в лотерею каждый день", "Японские первоклассные порнографические блокбастеры", "Бесплатные видео для просмотра онлайн"

Не бойтесь, меня не взломали. Это просто токены, которые нашли в новом мультиязычном токенизаторе GPT-4o, переведённые с китайского (大发快三的, _日本一级特黄大片, 免费视频在线观看). В датасет для тренировки токенизатора попала куча спама, и там теперь есть токены для рекламы казино, пиратского контента и просьб всяких нигерийских принцев

Я забираю обратно свои слова о том, что OpenAI тщательно фильтруют данные 😀

Это хороший пример того, какой бардак творится в токенизаторах даже SOTA LLM, и прекрасное напоминание о том, что и в OpenAI не боги горшки обжигают.

Какие ещё сюрпризы нас ждут в токенизаторе GPT-4o?

@ai_newz

Читать полностью…

эйай ньюз

OpenAI показали GPT-4o (omni), выбрал главное

Доступна для бесплатных пользователей

Запредельные результаты на Chatbot Arena - отрыв в 57 ELO на общих задачах и в 100 ELO на коде

Модель нативно понимает звук, с ней можно разговаривать, задержка разговора упала в 10 раз по сравнение с более ранним голосовым режимом

Она может петь

Нейронка понимает видео в реальном времени

У ChatGPT есть теперь приложение на MacOS, которому можно даже стримить экран!

В два раза быстрее и дешевле GPT-4 Turbo

Новый мультиязычный токенизатор - для для некоторых языков нужно теперь в 4.4x меньше токенов

За счёт этого модель суммарно в 3.5 раза дешевле для русского языка

Доступ к модели уже начали выдавать пользователям ChatGPT, API доступен разработчикам

Разговорный режим будет доступен для подписчиков Plus в ближайшие недели

Более продвинутые аудио и видео возможности дают ограниченным группам пользователей

Ждём завтрашнего Google I/O. Интересно, чем они смогут ответить.

>> Полное видео презентации
>> Страница модели с демками
>> Ещё офф пост с апдейтами

@ai_newz

Читать полностью…

эйай ньюз

Yandex приглашает поучаствовать в Practical ML Conf 14 сентября!

На конференции расскажут о том, как применять ML-технологии в бизнесе и реальных продуктах. Зарегистрироваться можно уже сейчас — те, кто сделает это раньше всех, попадут на закрытый мини-ивент в июле.

Желающие поделиться своим опытом в ML могут стать спикером конференции, оставив заявку. Ключевые темы конференции — CV, RecSys, MLOps, NLP, Speech и Analytics. После подачи программный комитет рассмотрит заявки и примет решение об участии каждого претендента.

🔹 Сбор заявок завершится 13 июля.

Реклама. ООО "Яндекс", ИНН 7736207543.
#промо

Читать полностью…

эйай ньюз

Орги ChatBot Arena проанализировали, как Llama-3 забралась так высоко на лидерборде.

Llama 3, будучи сравнительно маленькой моделью отстаёт от GPT-4 на более сложных задачах, типа матеши и ризонинга, судя по анализу от Lmsys. Но вот в креативных задачах и особенно в каких-то абстрактных задачах, где нужно что-то придумать (куда сходить вечером и тп) выигрывает старшие модели причём со значительным отрывом. Таких запросов от пользователей по всей видимости большинство, и именно они закидывают ламу3 в топ. Но это не отвечает на вопрос, как ей удаётся побеждать старшие модели на этих запросах. Кажется, что если модель лучше и больше, то она должна быть лучше и больше во всем.

Так почему же llama 3 так хороша? Если коротко, то это компьют и качественные данные.

- Датасет фильтровали и фильтровали, чтобы модель училась только на всем хорошем. Кстати секрет той же Dalle 3 или GPT-4 в том же. У Dalle3 картинки в тренировочном датасете очень подробно описаны gpt-шкой с виженом. А для самой GPT-4, понятно, тоже сильно фильтровали тексты.

- Есть такая гипотеза – Оптимальность модели по Шиншилле. Из нее следует, что для 8B модели достаточно датасета в 200B токенов. И долгое время это считалось стандартом – якобы дальше тренить смысла нет. Но Llama3 натренили на 15 триллионах токенов и она всё ещё продолжала учиться. Крч перетрейн капитальный.

- И, пожалуй, главное –аккуратный файнтюн на ручной разметке. Кроме почти уже стандартных supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO), и direct preference optimization (DPO) парни скормили лламе3 10 лямов размеченных вручную примеров.

Окей, с тяжелыми тасками она всё равно не очень справляется. Но, оказывается, это и не надо...🤷‍♀️

Юзеры обычно просят какую-нибудь фигню по типу придумай то то, как сделать это...
Лама благодаря хорошему датасету и ручному файнтюну просто оказалась очень харизматичной. Отвечает приятно, структура хорошая, на человека похожа:)

High-level Видосик про Llama3
Предыдущий пост про Llama3
Блог пост

@ai_newz

Читать полностью…

эйай ньюз

Сначала не обратил внимания на эту программулину. Но теперь очевидно, насколько это мощный инструмент.

IC Light выкатили обновление, которое позволяет матчить освещение двух картинок.

i.e. поместить предмет на фон и сделать так, чтобы свет на этот предмет падал в соответствии с освещением фоновой картинки.

Можно долго рассказывать про то, как на протяжении веков фотошоперы мучились и страдали от того, что не могли скомпозить две картинки из-за не совпадающего освещения. Но теперь вот вопрос решился ;)

Демо на обнимающем лице (пока без фоновой картинки)
GitHub

@ai_newz

Читать полностью…

эйай ньюз

Прикольный юзкейс видеомоделек. Оказывается, сгенерированные видео можно использовать для определения физических свойств объекта.

Ситуация такая:

У нас есть Gaussian Splatting какого-то нетвердого предмета. Мы хотим его потрогать (в VR, например), а для реализма добавить его, скажем так, колыхание. Значит, нужно как-то определить физические свойства этого предмета и включить его в физический движок.

Но вот незадача. Неизвестно сплаты чего у нас есть, и как они вели бы себя, будь они физическим объектом т.е. нужна его упругость, масса и пр. В случае классической 3D модельки, физические свойства предмета указываются вручную, а мы хотим все автоматизировать.

А парни из PhysDreamer нашли способ определить физические свойства и реалистично анимировать такие облака гауссиан.

Внимание... они анимируют по сути скриншот этого нечто (в данном случае цветка) с какого-то из ракурсов в SD Video, а затем, используя данные о том, как двигался этот цветочек в сгенерированном референс видео, определяют упругость материала в каждой его части (стебель, бутон, горшок) в виде градиента упругости (в статье это называют "material field"), см. картинки. Таким образом определяется на сколько должна колыхаться каждая гаусианка. Это позволяет ну очень реалистично анимировать случайное колебание целого объекта под внешним  воздействием.

Гауссовские сплаты легко натеренить. Но минус их в том, что как работать с ними не понятно (с нерфами, например, тоже нелегко работать, а тут вообще облака полупрозрачных точек). И вот потихоньку учимся. Мб скоро и 3D-моделирование канет в лету, как и рисование, потому что все можно сгенерить. 🙂

Еще раз. Качающийся цветок на видео — это анимация, а не реальная видеозапись.

Пейпер
Гитхаб

@ai_newz

Читать полностью…

эйай ньюз

Deepseek V2: топ за свои деньги

Что-то в опенсорс в последнее время попадает прям поток MoE моделей, вот и DeepSeek V2 из них. 236B параметров, из которых 21B - активных. По качеству - между Mixtral 8x22B и LLaMa 3 70B, но при этом в 2-4 раза дешевле этих моделей у самых дешёвых провайдеров, всего лишь 14 центов за млн токенов инпута и 28 за млн токенов на выход. Лицензия модели MIT, так что до конца недели будет штук пять разных провайдеров дешевле этого.

Главная особенность - Multi-Head Latent Attention (MLA). От обычного Multi-Head Attention (MHA) он отличается механизмом сжатия KV Cache, где он хранится как низкоранговая матрица, откуда и куда проецируется когда его нужно использовать или обновить. Из экспериментов, по качеству это работает лучше MHA, при этом используя в 4 раза меньше памяти чем обычные Grouped Query Attention конфиги. Из нюансов - авторам пришлось изобрести новый вариант RoPE чтобы это всё заработало, так как обычный RoPE такого количества линейных проекций туда и назад переживать решительно отказывается. Если честно, я не совсем понимаю почему это работает и почему нету абляций для dense моделей, но интересно как это будет сочетаться с квантизацией KV кэша.

Размер контекста - 128k. Тренировали это всё на 8 триллионах токенов в течении 1.5 миллиона часов на H800 (китайская версия H100). Это уровень компьюта тренировки LLaMa 3 8B и примерно в 3 раза больше чем у Snowflake Arctic.

У модели 162 эксперта, из которых 2 перманентно активные, а из остальных 160-ти на каждый токен выбирается 6. Хочу отметить что эксперты там крайне маленькие – у каждого размерность всего 1536.

Соотношение цены и качества прекрасное, если все подтвердится на ChatBot Arena.

Из минусов — размер. В BF16 для локального инференса нужно 8x A100 с 80GB VRAM. Вся надежда на квантизацию.

Демка
Пейпер
Базовая модель
Чат версия

@ai_newz

Читать полностью…

эйай ньюз

Наконец-то дата аналитики проанализировали дату для дата аналитики.

Artificial Analysis собрали топ 100 LLM в одной таблице, чтобы можно было удобно выбрать свою ту самую💍 под свои задачи.

Выбираем по параметрам:

- Бенчмарки: Chatbot Arena, MMLU, HumanEval, Index of evals, MT-Bench.
- Стоимость: вход, выход, средняя
- Скорость в токенах/сек: median, P5, P25, P75, P95 (кто понял, тот понял).
- Задержка: median, P5, P25, P75, P95.
- Размер контекстного окна.
- Совместимость с библиотекой OpenAI.

Топ-1 из каждой категории:
- Бенчмарки: Claude 3 Opus, GPT-4 Turbo
- Стоимость: $0.06/1M токенов Llama 3 (8B) через API groq
- Скорость: 912.9 токенов/сек Llama 3 (8B) через API groq
- Задержка: 0.13s Mistral 7B через API baseten
- Размер контекстного окна: 1m Gemini 1.5 Pro

Сделали красиво.

Табличка на HF
Есть еще всякие графики

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#16)

1. Интересно знать
Провел сходку в Кремниевой долине. Спасибо вам, подписчики, что вы такие крутые:)
   — Борьба за хайп: большие и маленькие команды в ML. Размышления о месте малых групп в большом мире AI.

2. LLM
   — Snowflake Arctic: Непрофильная компания создала LLM. Огромный объём, странная архитектура и предсказуемо средние результаты.
   — Новый бенчмарк Arena Hard v0.1 для LLM. Поиск альтернатив человеческим оценкам.
   — Автоматизация ChatBot Arena: Kaggle конкурс на создание RLHF модели, которая могла бы предсказать выбор человека.
   — Ускоряем GPT-2 с llm.c. Треним ллм на рисоварке еще быстрее в новом релизе от Карпатого

3. Посмотреть глазами
— Прикольная визуализация изменений в рейтинге ChatBot Arena за год.
   — Первый клип от Sora. Реальные возможности и ограничения детища Open AI.
   — Самые чёткие Гауссовские сплаты, да в движении и в риалтайме.

> Читать дайджест #15

#дайджест
@ai_newz

Читать полностью…
Subscribe to a channel