ai_product | Unsorted

Telegram-канал ai_product - AI Product | Igor Akimov

2737

Subscribe to a channel

AI Product | Igor Akimov

И туда же к теме агентов - Writer (лингвисты, которые с 2020 c LLM работают, писал уже о них), теперь взялись за агентов и выпустили новую Palmyra X 004. Цель - уметь разбирать запрос на подзадачи и обращаться к корпоративным базам и софту, чтобы ее решать, то есть по сути заменить всех офисных сотрудников, хах )

Соответственно в новой модели прокачали вызов функций, RAG, цитирование и рассуждение, добавили генератор кода с деплоем, расширили контекст до 128к токенов и планируют выпустить точное соблюдение формата скоро (аналог structured output от OpenAI).

Вот чего пишут (продакты, берегитесь)
Допустим, менеджер по продукту определяет приоритетность запросов на новые функции в Zendesk на основе отзывов клиентов. Теперь Palmyra может автоматизировать этот процесс, интерпретируя запрос и решая, какие инструменты нужно использовать для ответа пользователю. Определив нужные инструменты, она может интерпретировать запрос и составить последовательность действий, которые необходимо предпринять. Затем она собирает отзывы из Zendesk, прогоняет их через инструмент определения приоритетов и создает тикет в Jira - все автоматически.

Скоро и посты за меня будет писать )

https://writer.com/blog/actions-with-palmyra-x-004/

Читать полностью…

AI Product | Igor Akimov

Вау. Смотрите, чего можно с вектором делать! Поворачивать в 3d! И этих углов там нарисовано не было!
Это Project Turntable, прототип пока.
https://www.creativebloq.com/design/adobes-new-image-rotation-tool-is-one-of-the-most-impressive-ai-concepts-weve-seen

Читать полностью…

AI Product | Igor Akimov

Nvidia затюнила Llama-3.1-70B с помощью 20000 тщательно подобранных ответов, чтобы сделать модель, как они пишут "более полезной, фактологически корректной, последовательной и настраиваемой по сложности и многословности" и обошла в сложных бенчмарках "старичков".

Попробовать можно тут - https://build.nvidia.com/nvidia/llama-3_1-nemotron-70b-instruct

Кстати, клубника там тоже есть :)
A sweet question!
Let’s count the “R”s in “strawberry”:
1. S
2. T
3. R
4. A
5. W
6. B
7. E
8. R
9. R
10. Y
There are 3 “R”s in the word “strawberry”.

Читать полностью…

AI Product | Igor Akimov

И совсем не в тему AI, но блин, SpaceX запустила огроменную ракету в космос, а потом поймала и "обняла" ее еще одной гигантской конструкцией! Просто офигеть!😱

Запуски SpaceX уже снизили стоимость вывода на орбиту килограмма в 5 раз, хотя до этого прогресс шел оооочень медленно, а теперь вот вывести 1 кг будет стоить $200 вместо $7000, дешевле, чем экспресс-доставки некоторые.

Читать полностью…

AI Product | Igor Akimov

Нобелевка "наша" (AI-ная)

Физика 2024: Лауреатами стали Джон Хопфилд и Джеффри Хинтон. Они были отмечены за их работу над нейронными сетями, которая легла в основу современных методов машинного обучения. Хопфилд разработал так называемые «сети Хопфилда» — это один из первых примеров рекуррентных нейронных сетей, которые могут запоминать и восстанавливать данные с помехами.
Работа Хинтона, в свою очередь, привела к созданию «машины Больцмана», метода, использующего идеи статистической физики для обучения моделей с большими массивами данных. Эти открытия оказали огромное влияние на развитие искусственного интеллекта и нейронных сетей, которые используются сегодня во множестве приложений, от распознавания образов до обработки данных.
В общем, придумал первые "скрытые" слои, что заложило основу глубого обучения и генеративных нейросетей.

Химия 2024: Лауреаты Дэвид Бейкер, Демис Хассабис и Джон Джампер получили премию за их работу, связанную с белковыми структурами. Бейкер разработал методы компьютерного дизайна белков, позволяющие создавать новые белки с заданными функциями, что открыло широкие возможности для биомедицины. Хассабис и Джампер из Google DeepMind внесли вклад в решение многолетней задачи предсказания трёхмерной структуры белков на основе их аминокислотной последовательности, разработав алгоритм AlphaFold2. Это достижение значительно улучшило понимание биологических процессов и уже используется для исследования антибиотикорезистентности и разработки ферментов для разложения пластика​.
За них болел больше всего.

Для AI остались еще, получается, медицина, литература и мир...

Читать полностью…

AI Product | Igor Akimov

Ну и наконец 🖼 Canvas - https://openai.com/index/introducing-canvas/

Включается переключателем моделей. Режим просто 🔥! Для контента и кода идеален: открывается в отдельном редакторе, где можно редактировать отдельные части с помощью 🤖. Можно уточнять, переписывать, исправлять ошибки, адаптировать тон текста. Например, обновить только заголовок или переписать вводную часть.

А для кода это просто находка: и ревью, и комментирование, и логи, и анализ, и исправление багов, и портирование на другой язык. Смотрите видео 🎥, там показаны основные возможности:
https://www.youtube.com/watch?v=IouuO0sdYO8
https://www.youtube.com/watch?v=3m8-CX79CtY

Да, вначале шутили: "ахаха, они просто украли у Claude их Artifact", но блогпост ясно показывает, что они уже интегрировали это в тюнинг GPT-4o. Возможности редактирования текста стали намного лучше 📈. По сравнению с базовой моделью точность правок отдельных частей выше на 10-15%. Качество комментариев тоже подтянули: точность выросла на 30%, а качество на 16% (оценка проводилась людьми, а не синтетическими тестами). Пользуйтесь! Постепенно раскатывают, но у платных пользователей уже должно быть доступно ✅.

Да, эмодзи я добавил с его помощью.

А вот например переделка для детей детского сада (есть там возможность выбрать reading level):

Вот и Canvas!
Этот режим очень крутой! Он помогает редактировать тексты и код с помощью умного помощника. Можно менять слова, исправлять ошибки, и даже переписывать заголовки. А для кода - проверять ошибки, добавлять комментарии и даже переводить код на другие языки. Смотрите видео, чтобы узнать больше
Теперь все работает еще лучше и пользователи могут уже попробовать этот классный инструмент!

Читать полностью…

AI Product | Igor Akimov

Дальше Prompt caching
https://platform.openai.com/docs/guides/prompt-caching

Если ваш промпт больше 1024 токенов и вы вызываете этот промпт часто (например, просите переписать какие-то части текста в соответствии с постоянным шаблоном или в промпте указываете много примеров, или описание, чего делать надо, большое), то автоматически включается кэширование, которое позволяет в 2 раза сэкономить затраты на API. Грубо говоря первые вычисления по вашему промпту сохраняются, чтобы вариабельная часть уже дальше считалась не с нуля. Соответственно желательно в верхней части промпта описывать повторяемую часть, а уже в нижней части - допконтекст или какие-то нюансы о пользователе.
Кэш хранится 5-10 минут, поэтому лучше работает при равномерной нагрузке на это апи.
Чуть менее выгоднее, чем у конкурентов, но все равно полезно. Главное - посмотреть на промпты, чтобы удовлетворяло условия и работало хорошо.

Читать полностью…

AI Product | Igor Akimov

Фух, я пережил довольно тяжелый период планирования и вернулся.
Все еще жду визу в Англию (прошел месяц, ау) на OpenAI Dev Day, но и на этом Dev Day навалили новостей.

Во-первых, запустили RealtimeAPI - https://openai.com/index/introducing-the-realtime-api/
Advanced Voice Mode, который показывали на демо 3 месяца назад.

Раньше для создания подобного голосового помощника разработчикам приходилось транскрибировать аудио с помощью модели автоматического распознавания речи, например Whisper, передавать текст в текстовую модель для умозаключений или рассуждений, а затем воспроизводить его с помощью модели преобразования текста в речь. Такой подход часто приводил к потере эмоций, акцентов и ударений, а также к заметным задержкам. С помощью API Chat Completions разработчики могут обрабатывать весь процесс с помощью одного вызова API, хотя это по-прежнему медленнее, чем человеческий разговор. API Realtime улучшает эту ситуацию за счет прямой потоковой передачи входных и выходных аудиоданных, обеспечивая более естественный разговор. Он также может автоматически обрабатывать прерывания, подобно расширенному голосовому режиму в ChatGPT.

Под капотом Realtime API позволяет создать постоянное WebSocket-соединение для обмена сообщениями с GPT-4o. API поддерживает вызов функций, что позволяет голосовым помощникам отвечать на запросы пользователей, вызывая действия или получая новый контекст. Например, голосовой помощник может разместить заказ от имени пользователя или получить соответствующую информацию о клиенте, чтобы персонализировать свои ответы.

Все очень круто!
Есть только 2 минуса: это дорого, в среднем 15 центов за минуту (обычный пайплайн, что выше описали они, стоит 5-9 центов, и индусский кол-центр будет стоить 3), и это не работает в Европе из-за самого лучшего в мире регулирования AI... 😢

Читать полностью…

AI Product | Igor Akimov

Цукерберг учит ребенка нейросетям с пеленок :)

Читать полностью…

AI Product | Igor Akimov

Китайцы продолжают двигать опенсорс.
Новая Qwen-2.5 в 7 разных размерах и 2 специально заточенные под математику версии, на подходе модель для кодинга!

Производительность на 5-70% выше, чем у предыдущего поколения, обходит по тестам Meta Llama 3.1 70B и соответствует 405B! Qwen 2.5 32B превосходит OpenAI GPT-4o mini. 🤯

📈 Обучены на 18 триллионах токенов, вход до 128К токенов, выход до 8К.
🌎 Поддержка более 29 языков, включая английский, французский, испанский, китайский и другие.
⚒ Улучшенное следование инструкциям, понимание структурированных данных и вывод JSON.
🎭 Улучшена обработка системных подсказок для улучшения ролевых игр и работы чатботов.
🔓 Все размеры выпущены под Apache 2.0, кроме 72B и 3B
🥇 72B превосходит более крупные модели, такие как Llama3-405B
🥈 7B и 32B являются лучшими среди своих размеров
🧑🏻‍💻 Улучшенные модели кодирования на подходе (7B превосходит 22B CodeStral).

В общем, лучшие опенсорс модели по бенчмаркам в своем размере.

Подробнее: https://qwenlm.github.io/blog/qwen2.5-llm/

Модели: https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e

Читать полностью…

AI Product | Igor Akimov

Вчера OpenAI сбросили у всех лимиты на O1, а сегодня их увеличили (видимо нагрузка не такая большая, как ожидали)

Для платников мини-версию теперь можно гонять аж 50 раз в день, а большую версию - 50 сообщениями в неделю мучить (вместо 30).

Читать полностью…

AI Product | Igor Akimov

Новая text-to-speech и voice cloning моделька - FishAudio. Достаточно 30 секунд для клонирования. 50 генераций бесплатно, а так подписка 10 баксов в месяц.

Звезд с неба не хватает, но стоит очень дешево и есть API. Плюс она опенсорсная - https://github.com/fishaudio
Там уже наклонировали кучу голосов для вас, в том числе каких-нибудь Масков и Трампов. Вот например хит Бритни Спирс от него в аттаче.

Подробнее: https://fish.audio/

Читать полностью…

AI Product | Igor Akimov

О, как раз исследовал библиотеки для анонимизации и удаления персональных данных. Вышло свежее - Пиранья

Piiranha-v1 - 280-мегабайтная открытая модель кодировщика для обнаружения PII. Поддерживает 6 языков (русского нет, но с именами/адресами вы и сами можете разобраться, а все остальное - цифры) с отличными результатами тестов и выпущена под лицензией MIT!

🛡 Обнаруживает 17 типов PII (Personal Identifiable Information)
🔑 Поддерживаемые типы PII: Номер счета, номер здания, город, номер кредитной карты, дата рождения, водительское удостоверение, электронная почта, имя, фамилия, идентификационная карта, пароль, номер социального страхования, адрес улицы, налоговый номер, номер телефона, имя пользователя, почтовый индекс.
🎯 98,27% обнаружения лексем PII
🔍 99,44% общая точность классификации
💯 100% точность для электронных писем и почти идеальная точность для паролей
🌐 Поддержка английского, испанского, французского, немецкого, итальянского и голландского языков
🧠 Доработанная версия microsoft/mdeberta-v3-base
🧮 Длина контекста 256 токенов, больший текст необходимо разбить на части
🆓 Доступно по лицензии MIT

Модель тут: https://huggingface.co/iiiorg/piiranha-v1-detect-personal-information

Читать полностью…

AI Product | Igor Akimov

Ладно, к делам земным.

Google тоже не спит, а фигачить инновации.
Выпустили открытые DataGemma, натюненные на минимизацию галлюцинаций и которые сверяются с Google Data Commons, хранилищем проверенных данных о мире, чтобы выдавать точный ответ.

Основная идея в том, что теперь модели, прежде чем дать ответ, будут сверяться с этой базой данных. Например, если вы задаете вопрос о том, насколько увеличилось использование возобновляемых источников энергии в мире, DataGemma проверит статистику в Data Commons и даст точный ответ. Это поможет сократить количество ошибок, сделав AI более надежным инструментом для исследований, принятия решений и других задач, требующих точных данных.

Сделали 2 подхода: RIG и RAG. В первом случае сначала получаем ответ от LLM, потом валидируем его в базе, во-втором в промпт запихиваем нужный контекст из этой базы. На картинке подробнее.

В итоге стало лучше по фактической точности (но конечно не идеально все равно) и ответы больше нравятся людям, особенно из RAG.

Веса - https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643
Статья - https://docs.datacommons.org/papers/DataGemma-FullPaper.pdf
Блог - https://blog.google/technology/ai/google-datagemma-ai-llm/

Читать полностью…

AI Product | Igor Akimov

Даже Андрей Карпатый, ex-Tesla AI-директор, ex-OpenAI, фигачит на чиле с AI-ассистентом.

Программирование меняется так быстро... Я пробую VS Code Cursor + Sonnet 3.5 вместо GitHub Copilot и думаю, что теперь это выигрышная комбинация. Эмпирически, за последние несколько дней большая часть моего «программирования», - это
написание текста на английском (промпт, а затем просмотр и редактирование созданного
diffs) и немного «полукодирования», когда вы пишете первый фрагмент кода, который вам нужен, возможно, немного комментируете его, чтобы LLM знал, какой план, а затем tab - tab - tab - готово. Иногда вы получаете 100 строк нового кода, который идеально подходит, что могло бы занять 10+ минут раньше.

Я до сих пор не думаю, что достаточно освоился со всеми функциями. Это немного похоже на обучение кодированию заново, но я в принципе не могу себе представить, что на данный момент вернусь к «самостоятельному» кодированию, что было единственной возможностью всего около 3 лет назад.

Читать полностью…

AI Product | Igor Akimov

Sequoia выпустила интересный обзор новых возможностей для стартапов в связи с выходом o1, "рассуждающей модели", и LLM нового типа в целом
https://www.sequoiacap.com/article/generative-ais-act-o1/

Вот что для стартапов полезного пишут:
Большие игроки, такие как OpenAI, Google и Meta, заняли прочные позиции на уровне моделей и инфраструктуры. Конкурировать на этом уровне для стартапов сложно, но возможности есть на других уровнях.

Приложения — ключевая возможность для стартапов. Несмотря на мощь моделей и инфраструктуры крупных компаний, они не успевают внедрять ИИ на уровне конечных продуктов. Здесь появляются стартапы, которые могут создавать более специфичные и удобные решения для реальных задач. В прошлом приложения казались просто «обертками» для моделей, но теперь они развиваются в полноценные когнитивные архитектуры.

Фокус на агентные приложения. Новая волна стартапов нацелена на разработку приложений, которые не просто предоставляют интерфейс к ИИ, а выполняют конкретные задачи. Такие агентные приложения, как Harvey (ИИ-юрист) или XBOW (ИИ-пентестер), превращают трудозатратные процессы в автоматизированные решения.

Новая бизнес-модель — продажа результата (не software-as-a-service, а service-as-a-software, а это триллионный рынок!). Если раньше компании продавали ПО по подписке, то стартапы с агентными ИИ-приложениями могут продавать не ПО, а результат выполнения задач (например, оплата за решение запроса клиента, как у Sierra).

Таким образом, для стартапов сейчас открыты значительные возможности на уровне приложений и решений для реального мира, в отличие от работы на уровне базовых моделей или инфраструктуры, где доминируют большие компании.

Читать полностью…

AI Product | Igor Akimov

И еще от Nvidia. Их оптимизированная Speech-to-Text модель Canary по качеству обошла и предыдущий parakeet, и whisper-large от OpenAI, при этом в 10 раз быстрее и в 4,5 раза дешевле.
Но русского все еще нет :(

Читать полностью…

AI Product | Igor Akimov

Meta (запрещенная в России) не только модельки опенсорсные делает, но теперь и архитектуру железа для серверных стоек выводит в опенсорс
https://engineering.fb.com/2024/10/15/data-infrastructure/metas-open-ai-hardware-vision/
Говорит, что тренила Llama 3.1 405B на 16000 видюх H100, а теперь модельки тренируются на 48000 карточек
В общем, представила Catalina, архитектуру для сбора стоек с видюхами, чтобы все это было на общедоступных компонентах, с максимальной скоростью, масштабированием и охлаждением. И предлагает поучаствовать в улучшении дизайна.

А также для инференса теперь использует Grand Teton, который поддерживает карточки AMD.

Короче, показывают кукиш Nvidia и всем, кто хочет завязывать их на вендор-лок, и говорит, что вместе с MS и компьюнити хотят сделать самую открытую и стабильную архитектуру для кластеров с GPU.

Это, конечно, очень правильно. Отваливать каждый раз кучу денег монополистам с дефицитом всего, - не путь к быстрому масштабированию AI. А то там уже скорее всего продаются аналоги колесиков для десктопа за 1000 баксов.

Читать полностью…

AI Product | Igor Akimov

Adobe вчера показала обновленный AI во всех своих продуктах. Самое популярное - в Photoshop
https://blog.adobe.com/en/publish/2024/10/14/photoshop-delivers-powerful-innovation-for-image-editing-ideation-3d-design-more
- Позволяет удалять 1 кнопкой провода и ужасных мешающих людишек на фото
- Обновили Generative Fill и подобное на новую "более лучшую" и фотореалистичную 3 модель. Это до сих пор самый быстрый и качественный способ инпейтинга (например, одежду поменять или котика добавить) в ваши фотки
- Expand теперь дорисовывает картинки более фотореалистично и на больший размер.
- Generate Similar теперь больше вариантов дает и более похожих на оригинальную картинку
- Generate background стал "более лучший" тоже. Учитывая, что там удаление фона тоже одной кнопкой - можно вообще творчески использовать.
- В Photoshop Web теперь можно одной кнопкой объекты выделять, а не страдать с лассо
- В Бету добавили Workspace-режим - генерацию сразу множества картинок, которые можно менять и комбинировать.
- Выложили бету Substance 3D Viewer - можно 3д-объектами манипулировать без сумасшедшего знания 3д и потом легко вставлять в фотошоп.

В общем, для любителей поковыряться с новинками Text-to-Image и Computer Vision, нового мало что, но то, как удобно это встроено в продукты, поражает. Вот так вы и должны встраивать GenAI в ваши.

Читать полностью…

AI Product | Igor Akimov

И еще одна новость от OpenAI - релиз затюнненой Speech-to-Text модели Whisper Turbo
https://github.com/openai/whisper/discussions/2363
На самом деле оптимизаторы из опенсорса уже пытались библиотеку ускорсить, и WhisperX или FastWhisper действительно работали в 8-10 раз быстрее при практически том же уровне качества, но от OpenAI все-таки получить улучшенную версию еще приятнее.

Пишут, что скорость стала на уровне base-tiny моделей, то есть в 6-8 раз быстрее, но качество упало примерно на 10%, для некоторых языков больше (см картинку) что как бы не лучший вариант. Плюс модель не заточена на перевод, только на транскрибацию. Так что если надо что-то прям быстро получить и на источниках с хорошим качеством - подойдет, но для качественного транскрибирования и перевода - нет.

Читать полностью…

AI Product | Igor Akimov

И последнее - API для дистилляции моделей
https://platform.openai.com/docs/guides/distillation

Самая частая задача файнтюнинга, которую я видел, и которая описывается в продакшн-сценариях у множества крутых компаний, - обучение маленькой модели по результатам большой модели, чтобы получить х10 в скорости и x0.1 в цене, потому что вызывается маленькая моделька, а не большая. Раньше все это требовали довольно большого количества ручных шагов, а теперь вот у OpenAI появился прям интерфейс для этого дела.
- Записываем результаты работы большой модели (флажок store) и сохраняем датасет
- Оцениваем (наконец-то появился eval), как на этих входных данных работает маленькая и большая моделька, чтобы отслеживать разницу в качестве до и после
- Закидываем выбранные результаты в дообучение (200 сэмплов норм) и OpenAI всю работу по файнтюну сделает сама
- Теперь можно посмотреть, что получилось после и использовать дообученную модельку.
В итоге вместо например GPT-4o, которая стоит 2.5/10 будет использовать адаптированная GPT-4o-mini, которая стоит 0.3/1.2 - в 8 раз дешевле при том же качестве.
И до конца месяца тренинг бесплатный, но и после это все равно копейки какие-то и окупается за месяц работы.

Читать полностью…

AI Product | Igor Akimov

Далее разрешили файнтюнить GPT-4o с помощью картинок
https://openai.com/index/introducing-vision-to-the-fine-tuning-api/

Это конечно открывает прям огромный пласт возможностей использования, если вам надо какие-то computer vision задачи решать. Например, знаки или разметку на дороге (как сделал Grab всего по 100 картинок) или распознавание UI элементов, как Automat, или с помощью 200 картинок инвойсов подняли качество на 7% они же, или генерация кода сайта по картинке с помощью сайтов, собранных на вашем фреймворке (что сделал Coframe). И файнтюнить можно на ваших данных до конца месяца бесплатно, а дальше примерно $10 за 100 картиночек 1000x1000 пикселей и API будет стоить в 1.5 раза дороже, но это все равно копейки по сравнению с обучением такой модели самостоятельно и размещением у себя.

Читать полностью…

AI Product | Igor Akimov

Смотрю тут развернутую LLM Arena (вкладка NEW: Overview) и какая-то новая необъявленная chatgpt-4o-latest-20240903 оказывается на прям новой высоте. В API она тоже есть под именем chatgpt-4o-latest и даже был соблазн переключиться, но работает медленно... От 2 до 7 раз на тестах. Видимо скоро будут анонсы о какой-то более крутой, но дорогой GPT-4o от OpenAI.

Ну и из прикольного, Илон Маск с Гроком обошел и Antropic, и GPT-4o, и на равных с самой сильной моделью от Google.

https://lmarena.ai/

Читать полностью…

AI Product | Igor Akimov

Скачал тут от разработчиков RAG-систем руководство по их созданию. Напоминаю, что это по сути ответ на вопрос LLM-кой с получением доп.информации из внешней базы, например, вашей базы знаний или документации. Практически все AI-стартапы, где пишут, что они "тренируются на ваших данных", банально используют RAG. Это наверное самый частый юзкейс и с самым высоким ROI сейчас.

Понятно, что они свое решение пиарят, но быстро посмотрел и интересного много, от выбора векторной базы и эмбеддингов, до разрезания больших документов на кусочки хитрыми способами и промпт-инжиниринга.

Читать полностью…

AI Product | Igor Akimov

А вот кстати подробности, как OpenAI тренировался на улучшение размышлений в GPT O1.

Новый подход показывает, что правильные шаги в цепочке рассуждений повышают производительность больше, чем концентрация на конечном результате/ответе! 👀 OpenAI улучшил результаты GPT-4 с 42,5 до 78 % на бенчмарке MATH , используя Process-supervised reward models (PRM, то есть которые за каждый шаг награду дают). PRM обучены оценивать промежуточные этапы рассуждений в цепочке рассуждений, а не только конечный результат, что приводит к более надежным и точным результатам при решении сложных задач на рассуждение.

Реализация:
1️⃣ Зафайнтюнили GPT-4 (даже не О, поэтому так долго все было), чтобы настроить специальную пошаговую выдачу рассуждений.
2️⃣ Сгенерировали задачу, похожую на MATH, используя доработанную GPT-4, и представили ее разметчикам, чтобы те пометили каждый шаг как положительный, отрицательный или нейтральный. Получили датасет RPM800k (тоже выложили).
3️⃣ Обучили PRM с использованием набора данных PRM800K для оценки каждого промежуточного шага рассуждения, чтобы обратная связь была по каждому шагу.
4️⃣ Использовали методы активного обучения для улучшения RPM и отбора наиболее информативных образцов данных для аннотирования человеком.
5️⃣ Обучили GPT-4 с помощью RLHF и использовали PRM для улучшения промежуточных шагов рассуждений.

Интересное:
🔧 Файнтюн LLM помог выдавать пошаговый формат, с чем не справляются текущие модели.
📊 PRM800K содержит 800 тыс. шагов для 75 тыс. решений 12 тыс. задач.
🎯 78% правильных решений на бенчмарке MATH по сравнению с 72,4% для моделей вознаграждения за результат (а не за шаги).
💼 Активное обучение снижает стоимость и повышает эффективность обратной связи с человеком.
💰 Обратная связь от человека использовалась только для маркировки шагов рассуждения, все остальное синтетика.

Подробнее тут: https://arxiv.org/abs/2305.20050

И самое прикольное, что теперь O1 поможет генерировать еще более качественные и валидные данные для обучения моделей следующего поколения. Так что данных будет завались, потолок еще очень далеко. Ну и даже сейчас если GPT-4o я считал скорее выпусником ВУЗа для сложных задач, то O1 - это уже опытный сотрудник!

Читать полностью…

AI Product | Igor Akimov

Microsoft конечно двигает технологии к людям.
Сделали типа AI-генерацию кода вычислений на Python в Excel. Просто пишешь или выбираешь из списка, чего тебе сделать с данными надо
https://youtu.be/zkyzrLwRwlo

Читать полностью…

AI Product | Igor Akimov

Хм... Генератор музыки Suno даёт 1 месяц Pro подписки по промокоду
NICK100

Читать полностью…

AI Product | Igor Akimov

Берег эту новость еще со времен отпуска.
LM Studio, моя любимая система для запуска локальных LLM, обновилась до версии 0.3!
https://lmstudio.ai/blog/lmstudio-v0.3.0

Вот какие обновления:
- Локальный чат с вашими документами! Теперь можно свои секретные рабочие документы (до 30 Мб), скрипты интервью, имейлы локально и безопасно "опрашивать", переписывать, саммаризовывать без слива всего в интернет

- Можно каждую локальную модель просить выдать валидный JSON

- Тем для UI добавили

- Автоконфигурацию в соответствии с вашим оборудованием (не надо будет руками все подбирать)

- Можно запускать как сервер, чтобы другие устройства по сети обращались. Например, завели комп с норм видюхой и дали доступ к нему коллегам.

- Папочки для чатов (как же не хватает этого в ChatGPT).

- Ну и мелочи всякие

Как обычно самый большой минус, что на Mac работает только с процессорами M1/M2/M3, с Intel лучше использовать jan.ai

Пользуйтесь!

Читать полностью…

AI Product | Igor Akimov

Ничего себе! Я выиграл-таки билет на OpenAI DevDay в Лондоне! 😍

Читать полностью…

AI Product | Igor Akimov

Я в отпуске, но могу предложить мемчик :)

Читать полностью…
Subscribe to a channel