Adobe вчера показала обновленный AI во всех своих продуктах. Самое популярное - в Photoshop
https://blog.adobe.com/en/publish/2024/10/14/photoshop-delivers-powerful-innovation-for-image-editing-ideation-3d-design-more
- Позволяет удалять 1 кнопкой провода и ужасных мешающих людишек на фото
- Обновили Generative Fill и подобное на новую "более лучшую" и фотореалистичную 3 модель. Это до сих пор самый быстрый и качественный способ инпейтинга (например, одежду поменять или котика добавить) в ваши фотки
- Expand теперь дорисовывает картинки более фотореалистично и на больший размер.
- Generate Similar теперь больше вариантов дает и более похожих на оригинальную картинку
- Generate background стал "более лучший" тоже. Учитывая, что там удаление фона тоже одной кнопкой - можно вообще творчески использовать.
- В Photoshop Web теперь можно одной кнопкой объекты выделять, а не страдать с лассо
- В Бету добавили Workspace-режим - генерацию сразу множества картинок, которые можно менять и комбинировать.
- Выложили бету Substance 3D Viewer - можно 3д-объектами манипулировать без сумасшедшего знания 3д и потом легко вставлять в фотошоп.
В общем, для любителей поковыряться с новинками Text-to-Image и Computer Vision, нового мало что, но то, как удобно это встроено в продукты, поражает. Вот так вы и должны встраивать GenAI в ваши.
И еще одна новость от OpenAI - релиз затюнненой Speech-to-Text модели Whisper Turbo
https://github.com/openai/whisper/discussions/2363
На самом деле оптимизаторы из опенсорса уже пытались библиотеку ускорсить, и WhisperX или FastWhisper действительно работали в 8-10 раз быстрее при практически том же уровне качества, но от OpenAI все-таки получить улучшенную версию еще приятнее.
Пишут, что скорость стала на уровне base-tiny моделей, то есть в 6-8 раз быстрее, но качество упало примерно на 10%, для некоторых языков больше (см картинку) что как бы не лучший вариант. Плюс модель не заточена на перевод, только на транскрибацию. Так что если надо что-то прям быстро получить и на источниках с хорошим качеством - подойдет, но для качественного транскрибирования и перевода - нет.
И последнее - API для дистилляции моделей
https://platform.openai.com/docs/guides/distillation
Самая частая задача файнтюнинга, которую я видел, и которая описывается в продакшн-сценариях у множества крутых компаний, - обучение маленькой модели по результатам большой модели, чтобы получить х10 в скорости и x0.1 в цене, потому что вызывается маленькая моделька, а не большая. Раньше все это требовали довольно большого количества ручных шагов, а теперь вот у OpenAI появился прям интерфейс для этого дела.
- Записываем результаты работы большой модели (флажок store) и сохраняем датасет
- Оцениваем (наконец-то появился eval), как на этих входных данных работает маленькая и большая моделька, чтобы отслеживать разницу в качестве до и после
- Закидываем выбранные результаты в дообучение (200 сэмплов норм) и OpenAI всю работу по файнтюну сделает сама
- Теперь можно посмотреть, что получилось после и использовать дообученную модельку.
В итоге вместо например GPT-4o, которая стоит 2.5/10 будет использовать адаптированная GPT-4o-mini, которая стоит 0.3/1.2 - в 8 раз дешевле при том же качестве.
И до конца месяца тренинг бесплатный, но и после это все равно копейки какие-то и окупается за месяц работы.
Далее разрешили файнтюнить GPT-4o с помощью картинок
https://openai.com/index/introducing-vision-to-the-fine-tuning-api/
Это конечно открывает прям огромный пласт возможностей использования, если вам надо какие-то computer vision задачи решать. Например, знаки или разметку на дороге (как сделал Grab всего по 100 картинок) или распознавание UI элементов, как Automat, или с помощью 200 картинок инвойсов подняли качество на 7% они же, или генерация кода сайта по картинке с помощью сайтов, собранных на вашем фреймворке (что сделал Coframe). И файнтюнить можно на ваших данных до конца месяца бесплатно, а дальше примерно $10 за 100 картиночек 1000x1000 пикселей и API будет стоить в 1.5 раза дороже, но это все равно копейки по сравнению с обучением такой модели самостоятельно и размещением у себя.
Смотрю тут развернутую LLM Arena (вкладка NEW: Overview) и какая-то новая необъявленная chatgpt-4o-latest-20240903 оказывается на прям новой высоте. В API она тоже есть под именем chatgpt-4o-latest и даже был соблазн переключиться, но работает медленно... От 2 до 7 раз на тестах. Видимо скоро будут анонсы о какой-то более крутой, но дорогой GPT-4o от OpenAI.
Ну и из прикольного, Илон Маск с Гроком обошел и Antropic, и GPT-4o, и на равных с самой сильной моделью от Google.
https://lmarena.ai/
Скачал тут от разработчиков RAG-систем руководство по их созданию. Напоминаю, что это по сути ответ на вопрос LLM-кой с получением доп.информации из внешней базы, например, вашей базы знаний или документации. Практически все AI-стартапы, где пишут, что они "тренируются на ваших данных", банально используют RAG. Это наверное самый частый юзкейс и с самым высоким ROI сейчас.
Понятно, что они свое решение пиарят, но быстро посмотрел и интересного много, от выбора векторной базы и эмбеддингов, до разрезания больших документов на кусочки хитрыми способами и промпт-инжиниринга.
А вот кстати подробности, как OpenAI тренировался на улучшение размышлений в GPT O1.
Новый подход показывает, что правильные шаги в цепочке рассуждений повышают производительность больше, чем концентрация на конечном результате/ответе! 👀 OpenAI улучшил результаты GPT-4 с 42,5 до 78 % на бенчмарке MATH , используя Process-supervised reward models (PRM, то есть которые за каждый шаг награду дают). PRM обучены оценивать промежуточные этапы рассуждений в цепочке рассуждений, а не только конечный результат, что приводит к более надежным и точным результатам при решении сложных задач на рассуждение.
Реализация:
1️⃣ Зафайнтюнили GPT-4 (даже не О, поэтому так долго все было), чтобы настроить специальную пошаговую выдачу рассуждений.
2️⃣ Сгенерировали задачу, похожую на MATH, используя доработанную GPT-4, и представили ее разметчикам, чтобы те пометили каждый шаг как положительный, отрицательный или нейтральный. Получили датасет RPM800k (тоже выложили).
3️⃣ Обучили PRM с использованием набора данных PRM800K для оценки каждого промежуточного шага рассуждения, чтобы обратная связь была по каждому шагу.
4️⃣ Использовали методы активного обучения для улучшения RPM и отбора наиболее информативных образцов данных для аннотирования человеком.
5️⃣ Обучили GPT-4 с помощью RLHF и использовали PRM для улучшения промежуточных шагов рассуждений.
Интересное:
🔧 Файнтюн LLM помог выдавать пошаговый формат, с чем не справляются текущие модели.
📊 PRM800K содержит 800 тыс. шагов для 75 тыс. решений 12 тыс. задач.
🎯 78% правильных решений на бенчмарке MATH по сравнению с 72,4% для моделей вознаграждения за результат (а не за шаги).
💼 Активное обучение снижает стоимость и повышает эффективность обратной связи с человеком.
💰 Обратная связь от человека использовалась только для маркировки шагов рассуждения, все остальное синтетика.
Подробнее тут: https://arxiv.org/abs/2305.20050
И самое прикольное, что теперь O1 поможет генерировать еще более качественные и валидные данные для обучения моделей следующего поколения. Так что данных будет завались, потолок еще очень далеко. Ну и даже сейчас если GPT-4o я считал скорее выпусником ВУЗа для сложных задач, то O1 - это уже опытный сотрудник!
Microsoft конечно двигает технологии к людям.
Сделали типа AI-генерацию кода вычислений на Python в Excel. Просто пишешь или выбираешь из списка, чего тебе сделать с данными надо
https://youtu.be/zkyzrLwRwlo
Берег эту новость еще со времен отпуска.
LM Studio, моя любимая система для запуска локальных LLM, обновилась до версии 0.3!
https://lmstudio.ai/blog/lmstudio-v0.3.0
Вот какие обновления:
- Локальный чат с вашими документами! Теперь можно свои секретные рабочие документы (до 30 Мб), скрипты интервью, имейлы локально и безопасно "опрашивать", переписывать, саммаризовывать без слива всего в интернет
- Можно каждую локальную модель просить выдать валидный JSON
- Тем для UI добавили
- Автоконфигурацию в соответствии с вашим оборудованием (не надо будет руками все подбирать)
- Можно запускать как сервер, чтобы другие устройства по сети обращались. Например, завели комп с норм видюхой и дали доступ к нему коллегам.
- Папочки для чатов (как же не хватает этого в ChatGPT).
- Ну и мелочи всякие
Как обычно самый большой минус, что на Mac работает только с процессорами M1/M2/M3, с Intel лучше использовать jan.ai
Пользуйтесь!
Хорошая статья, как практически в автоматическом режиме перевести веб-сайт на 7 языков
https://inten.to/blog/how-we-used-machine-translation-to-make-our-website-speak-7-languages-and-you-can-too/
Хах, LLM Arena для русского языка
https://llmarena.ru/
GPT-4o и Claude в лидерах, но на удивление модель от Тинькова довольно высоко.
Но голосов мало, так что голосуйте интенсивнее, поможете всему русскоязычному сообществу
И вот еще понравился стартап из Ycombinator - автотест ваших голосовых агентов
https://hamming.ai/
Могут создать сотню голосовых юзкейсов для вашего теста и автоматически проанализировать поведение вашего голосового AI. Типа а если про погоду спросить? А если отвлечься? А если долго не отвечать? А если грубить? А если спрашивать по 10 раз одно и то же? Соответственно потом сможете отчет увидеть и после модификации снова проверить.
Нобелевка "наша" (AI-ная)
Физика 2024: Лауреатами стали Джон Хопфилд и Джеффри Хинтон. Они были отмечены за их работу над нейронными сетями, которая легла в основу современных методов машинного обучения. Хопфилд разработал так называемые «сети Хопфилда» — это один из первых примеров рекуррентных нейронных сетей, которые могут запоминать и восстанавливать данные с помехами.
Работа Хинтона, в свою очередь, привела к созданию «машины Больцмана», метода, использующего идеи статистической физики для обучения моделей с большими массивами данных. Эти открытия оказали огромное влияние на развитие искусственного интеллекта и нейронных сетей, которые используются сегодня во множестве приложений, от распознавания образов до обработки данных.
В общем, придумал первые "скрытые" слои, что заложило основу глубого обучения и генеративных нейросетей.
Химия 2024: Лауреаты Дэвид Бейкер, Демис Хассабис и Джон Джампер получили премию за их работу, связанную с белковыми структурами. Бейкер разработал методы компьютерного дизайна белков, позволяющие создавать новые белки с заданными функциями, что открыло широкие возможности для биомедицины. Хассабис и Джампер из Google DeepMind внесли вклад в решение многолетней задачи предсказания трёхмерной структуры белков на основе их аминокислотной последовательности, разработав алгоритм AlphaFold2. Это достижение значительно улучшило понимание биологических процессов и уже используется для исследования антибиотикорезистентности и разработки ферментов для разложения пластика.
За них болел больше всего.
Для AI остались еще, получается, медицина, литература и мир...
Ну и наконец 🖼 Canvas - https://openai.com/index/introducing-canvas/
Включается переключателем моделей. Режим просто 🔥! Для контента и кода идеален: открывается в отдельном редакторе, где можно редактировать отдельные части с помощью 🤖. Можно уточнять, переписывать, исправлять ошибки, адаптировать тон текста. Например, обновить только заголовок или переписать вводную часть.
А для кода это просто находка: и ревью, и комментирование, и логи, и анализ, и исправление багов, и портирование на другой язык. Смотрите видео 🎥, там показаны основные возможности:
https://www.youtube.com/watch?v=IouuO0sdYO8
https://www.youtube.com/watch?v=3m8-CX79CtY
Да, вначале шутили: "ахаха, они просто украли у Claude их Artifact", но блогпост ясно показывает, что они уже интегрировали это в тюнинг GPT-4o. Возможности редактирования текста стали намного лучше 📈. По сравнению с базовой моделью точность правок отдельных частей выше на 10-15%. Качество комментариев тоже подтянули: точность выросла на 30%, а качество на 16% (оценка проводилась людьми, а не синтетическими тестами). Пользуйтесь! Постепенно раскатывают, но у платных пользователей уже должно быть доступно ✅.
Да, эмодзи я добавил с его помощью.
А вот например переделка для детей детского сада (есть там возможность выбрать reading level):
Вот и Canvas!
Этот режим очень крутой! Он помогает редактировать тексты и код с помощью умного помощника. Можно менять слова, исправлять ошибки, и даже переписывать заголовки. А для кода - проверять ошибки, добавлять комментарии и даже переводить код на другие языки. Смотрите видео, чтобы узнать больше
Теперь все работает еще лучше и пользователи могут уже попробовать этот классный инструмент!
Дальше Prompt caching
https://platform.openai.com/docs/guides/prompt-caching
Если ваш промпт больше 1024 токенов и вы вызываете этот промпт часто (например, просите переписать какие-то части текста в соответствии с постоянным шаблоном или в промпте указываете много примеров, или описание, чего делать надо, большое), то автоматически включается кэширование, которое позволяет в 2 раза сэкономить затраты на API. Грубо говоря первые вычисления по вашему промпту сохраняются, чтобы вариабельная часть уже дальше считалась не с нуля. Соответственно желательно в верхней части промпта описывать повторяемую часть, а уже в нижней части - допконтекст или какие-то нюансы о пользователе.
Кэш хранится 5-10 минут, поэтому лучше работает при равномерной нагрузке на это апи.
Чуть менее выгоднее, чем у конкурентов, но все равно полезно. Главное - посмотреть на промпты, чтобы удовлетворяло условия и работало хорошо.
Фух, я пережил довольно тяжелый период планирования и вернулся.
Все еще жду визу в Англию (прошел месяц, ау) на OpenAI Dev Day, но и на этом Dev Day навалили новостей.
Во-первых, запустили RealtimeAPI - https://openai.com/index/introducing-the-realtime-api/
Advanced Voice Mode, который показывали на демо 3 месяца назад.
Раньше для создания подобного голосового помощника разработчикам приходилось транскрибировать аудио с помощью модели автоматического распознавания речи, например Whisper, передавать текст в текстовую модель для умозаключений или рассуждений, а затем воспроизводить его с помощью модели преобразования текста в речь. Такой подход часто приводил к потере эмоций, акцентов и ударений, а также к заметным задержкам. С помощью API Chat Completions разработчики могут обрабатывать весь процесс с помощью одного вызова API, хотя это по-прежнему медленнее, чем человеческий разговор. API Realtime улучшает эту ситуацию за счет прямой потоковой передачи входных и выходных аудиоданных, обеспечивая более естественный разговор. Он также может автоматически обрабатывать прерывания, подобно расширенному голосовому режиму в ChatGPT.
Под капотом Realtime API позволяет создать постоянное WebSocket-соединение для обмена сообщениями с GPT-4o. API поддерживает вызов функций, что позволяет голосовым помощникам отвечать на запросы пользователей, вызывая действия или получая новый контекст. Например, голосовой помощник может разместить заказ от имени пользователя или получить соответствующую информацию о клиенте, чтобы персонализировать свои ответы.
Все очень круто!
Есть только 2 минуса: это дорого, в среднем 15 центов за минуту (обычный пайплайн, что выше описали они, стоит 5-9 центов, и индусский кол-центр будет стоить 3), и это не работает в Европе из-за самого лучшего в мире регулирования AI... 😢
Китайцы продолжают двигать опенсорс.
Новая Qwen-2.5 в 7 разных размерах и 2 специально заточенные под математику версии, на подходе модель для кодинга!
Производительность на 5-70% выше, чем у предыдущего поколения, обходит по тестам Meta Llama 3.1 70B и соответствует 405B! Qwen 2.5 32B превосходит OpenAI GPT-4o mini. 🤯
📈 Обучены на 18 триллионах токенов, вход до 128К токенов, выход до 8К.
🌎 Поддержка более 29 языков, включая английский, французский, испанский, китайский и другие.
⚒ Улучшенное следование инструкциям, понимание структурированных данных и вывод JSON.
🎭 Улучшена обработка системных подсказок для улучшения ролевых игр и работы чатботов.
🔓 Все размеры выпущены под Apache 2.0, кроме 72B и 3B
🥇 72B превосходит более крупные модели, такие как Llama3-405B
🥈 7B и 32B являются лучшими среди своих размеров
🧑🏻💻 Улучшенные модели кодирования на подходе (7B превосходит 22B CodeStral).
В общем, лучшие опенсорс модели по бенчмаркам в своем размере.
Подробнее: https://qwenlm.github.io/blog/qwen2.5-llm/
Модели: https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e
Вчера OpenAI сбросили у всех лимиты на O1, а сегодня их увеличили (видимо нагрузка не такая большая, как ожидали)
Для платников мини-версию теперь можно гонять аж 50 раз в день, а большую версию - 50 сообщениями в неделю мучить (вместо 30).
Новая text-to-speech и voice cloning моделька - FishAudio. Достаточно 30 секунд для клонирования. 50 генераций бесплатно, а так подписка 10 баксов в месяц.
Звезд с неба не хватает, но стоит очень дешево и есть API. Плюс она опенсорсная - https://github.com/fishaudio
Там уже наклонировали кучу голосов для вас, в том числе каких-нибудь Масков и Трампов. Вот например хит Бритни Спирс от него в аттаче.
Подробнее: https://fish.audio/
О, как раз исследовал библиотеки для анонимизации и удаления персональных данных. Вышло свежее - Пиранья
Piiranha-v1 - 280-мегабайтная открытая модель кодировщика для обнаружения PII. Поддерживает 6 языков (русского нет, но с именами/адресами вы и сами можете разобраться, а все остальное - цифры) с отличными результатами тестов и выпущена под лицензией MIT!
🛡 Обнаруживает 17 типов PII (Personal Identifiable Information)
🔑 Поддерживаемые типы PII: Номер счета, номер здания, город, номер кредитной карты, дата рождения, водительское удостоверение, электронная почта, имя, фамилия, идентификационная карта, пароль, номер социального страхования, адрес улицы, налоговый номер, номер телефона, имя пользователя, почтовый индекс.
🎯 98,27% обнаружения лексем PII
🔍 99,44% общая точность классификации
💯 100% точность для электронных писем и почти идеальная точность для паролей
🌐 Поддержка английского, испанского, французского, немецкого, итальянского и голландского языков
🧠 Доработанная версия microsoft/mdeberta-v3-base
🧮 Длина контекста 256 токенов, больший текст необходимо разбить на части
🆓 Доступно по лицензии MIT
Модель тут: https://huggingface.co/iiiorg/piiranha-v1-detect-personal-information
Ладно, к делам земным.
Google тоже не спит, а фигачить инновации.
Выпустили открытые DataGemma, натюненные на минимизацию галлюцинаций и которые сверяются с Google Data Commons, хранилищем проверенных данных о мире, чтобы выдавать точный ответ.
Основная идея в том, что теперь модели, прежде чем дать ответ, будут сверяться с этой базой данных. Например, если вы задаете вопрос о том, насколько увеличилось использование возобновляемых источников энергии в мире, DataGemma проверит статистику в Data Commons и даст точный ответ. Это поможет сократить количество ошибок, сделав AI более надежным инструментом для исследований, принятия решений и других задач, требующих точных данных.
Сделали 2 подхода: RIG и RAG. В первом случае сначала получаем ответ от LLM, потом валидируем его в базе, во-втором в промпт запихиваем нужный контекст из этой базы. На картинке подробнее.
В итоге стало лучше по фактической точности (но конечно не идеально все равно) и ответы больше нравятся людям, особенно из RAG.
Веса - https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643
Статья - https://docs.datacommons.org/papers/DataGemma-FullPaper.pdf
Блог - https://blog.google/technology/ai/google-datagemma-ai-llm/
Даже Андрей Карпатый, ex-Tesla AI-директор, ex-OpenAI, фигачит на чиле с AI-ассистентом.
Программирование меняется так быстро... Я пробую VS Code Cursor + Sonnet 3.5 вместо GitHub Copilot и думаю, что теперь это выигрышная комбинация. Эмпирически, за последние несколько дней большая часть моего «программирования», - это
написание текста на английском (промпт, а затем просмотр и редактирование созданного
diffs) и немного «полукодирования», когда вы пишете первый фрагмент кода, который вам нужен, возможно, немного комментируете его, чтобы LLM знал, какой план, а затем tab - tab - tab - готово. Иногда вы получаете 100 строк нового кода, который идеально подходит, что могло бы занять 10+ минут раньше.
Я до сих пор не думаю, что достаточно освоился со всеми функциями. Это немного похоже на обучение кодированию заново, но я в принципе не могу себе представить, что на данный момент вернусь к «самостоятельному» кодированию, что было единственной возможностью всего около 3 лет назад.
О, мой любимый Ideogram обновился - https://about.ideogram.ai/2.0
Генератор картиночек от экс-гугловцев, что специализируется на правдоподобном тексте. Что изменилось.
- Добавили жанры, типа Realistic, Design, 3D and Anime
- Добавили больше гибкости в размерах
- Может учитывать палитру
- Сделали iOS приложеньку
- Добавили API (8 центов за картинку)
- Добавили поиск в картиночки сообщества
- Улучшили описание картинки и "магическое" улучшение промпта
- Обещают, что лучше Flux.Pro по фотореализму, следованию промпту и генерации текста на картинке
Бесплатно можно 20 картинок сделать, подписка стоит $8 в месяц.
https://ideogram.ai/t/explore
Только я сегодня закрыл вкладку с обзором 100 самых популярных GenAI продуктов от a16z, как они прям ровнехонько сегодня зарелизили обновленную версию - https://a16z.com/100-gen-ai-apps-3/
Их выводы
1. Музыко-видео-генераторы как категория растут быстрее всего и в вебе, и в мобилке.
2. В вебе Perplexity растет как не в себе, а потом Claude, ChatGPT как всегда топчик. Из мобилы интересен рост Luiza, испаноговорящего ассистента, с 45 миллионами MAU - https://apps.apple.com/us/app/luzia-your-ai-assistant/id6472703434
3. ByteDance выпуливает AI-продукты с бешеной скоростью: образовательная платформа Gauth (#44), бот-конструктор Coze (#45) и общий помощник Doubao (#47). Doubao также впервые попал в список мобильных приложений, заняв 26-е место. Фото- и видеоредактор Hypic (#19) и ассистент Cici (#34) также являются продуктами Bytedance.
4. Растут приложения по анализу внешности (LooksMax, Umax) и советник по дейтингу Rizz
5. Discord - хорошая платформа для запуска и продвижения AI-продуктов. 10 из топ-100 - оттуда.
Microsoft снова рулит в маленьких моделях - выпустила 3 модели: Phi 3.5 mini, Mixture of Expert и модель с поддержкой зрения и контекстом в 128K токенов, все многоязычные и с MIT лицензией! MoE выигрывает у Gemini flash, Vision конкурирует с GPT4o🔥
> Mini с параметрами 3.8B, выигрывает у Llama3.1 8B и Mistral 7B и конкурирует с Mistral NeMo 12B
> Многоязычная модель и токенизатор с большим 32K словарем
> Обучен на 3,4 Т лексем
> Для обучения использовалось 512 видюх H100 в течение 10 дней
> MoE - 16x3.8B (6.6B активных - 2 эксперта) - побеждает Gemini flash
> 128K контекста, многоязычный и одинаковый токенизатор (32K слов)
> Обучался на 4,9 Т лексем
> Использовано 512 H100 в течение 23 дней
> Ph3.5 Vision - 4.2B params - побеждает GPT4o в усредненных бенчмарках
> Обучался на 500B токенах
> Использовал 256 A100 для обучения в течение 6 дней
> Специализация на TextVQA + ScienceVQA
Для локального применения вообще топ. И видимо будет встроена в Винду.
Крупняки продолжают атаковать разработку продуктов
Вот Salesforce взял, да и объединил всех доступных агентов, чтобы они свои идеи решения задачи предлагали (Aider, Moatless, Agentless, OpenDevin на разных задачах специализируются), а потом их "мета-модуль" выбирал самые лучшие решения и их уже отправлял в прод. В итоге удалось обойти по качеству решений всех индивидуальных агентов.
В общем-то ничего не ново, типичные ансамбли, а точнее стекинг, но с LLM у метода открывается второе дыхание.
Так что берите на вооружение.
Вот статья:
https://salesforce-research-dei-agents.github.io/