Кстати Voice Advanced Mode запустили-таки в ЕС. Попробовал греческий переводить в режиме реального времени, но пока такое себе... Видимо риалтаймовые библиотеки очень урезанные.
Читать полностью…Shanghai AI Lab парсила книжки и статьи для обучения своей LLM-ки и попутно сделала библиотеку распознавания PDF, включая модуль сложной разметки - DocLayout-YOLO.
Демо тут https://huggingface.co/spaces/opendatalab/DocLayout-YOLO
Код - https://github.com/opendatalab/DocLayout-YOLO
Ресерч - https://arxiv.org/abs/2410.12628
Все это в итоге завернули в полную обработку PDF - https://github.com/opendatalab/PDF-Extract-Kit
А также в отдельный парсер PDF в Markdown - https://github.com/opendatalab/MinerU
Круто, что сообщество, причем скорее всего небольшими силами, так как университет, улучшает работу распознавалок документов, которыми занимаются десятки тысяч человек.
О, JetBrains выпустила свою LLM для разработчиков, специально для code completion, - Mellum
Работает с Java, Kotlin, Python, Go, and PHP
По результатам тестов скорость на треть выше, подтверждение пользователем саджеста в 40% случаев, отказов от саджеста в 3-4 раза меньше и в 2 раза больше предложений по автодополнению, чем было раньше,
Ну и естественно это своя LLM, а значит никакой паранойи у бизнеса. Хотя никаких данных о том, что за модель, на чем тренили и тем более весов, - нет.
https://blog.jetbrains.com/blog/2024/10/22/introducing-mellum-jetbrains-new-llm-built-for-developers/
И Apple тоже показала интересный прогресс в их исследовании агентных LLM на мобилке - CAMPHOR, тюненая версия Phi-3.5
https://machinelearning.apple.com/research/collaborative-agents
В CAMPHOR используется иерархическая архитектура, в которой агент рассуждений высокого порядка декомпозирует сложные задачи и координирует работу экспертных агентов, отвечающих за поиск персонального контекста, взаимодействие с инструментами и динамическую генерацию планов. Реализовав совместное использование параметров агентами и используя сжатие оперативной информации, мы значительно сократили размер модели, время ожидания и объем используемой памяти. Эксперименты показывают, что агенты SLM, прошедшие тонкую настройку, не только превосходят закрытые LLM по скорости выполнения задачи F1 на 35 %, но и устраняют необходимость в связи с серверным устройством, повышая при этом уровень конфиденциальности.
И туда же к теме агентов - Writer (лингвисты, которые с 2020 c LLM работают, писал уже о них), теперь взялись за агентов и выпустили новую Palmyra X 004. Цель - уметь разбирать запрос на подзадачи и обращаться к корпоративным базам и софту, чтобы ее решать, то есть по сути заменить всех офисных сотрудников, хах )
Соответственно в новой модели прокачали вызов функций, RAG, цитирование и рассуждение, добавили генератор кода с деплоем, расширили контекст до 128к токенов и планируют выпустить точное соблюдение формата скоро (аналог structured output от OpenAI).
Вот чего пишут (продакты, берегитесь)
Допустим, менеджер по продукту определяет приоритетность запросов на новые функции в Zendesk на основе отзывов клиентов. Теперь Palmyra может автоматизировать этот процесс, интерпретируя запрос и решая, какие инструменты нужно использовать для ответа пользователю. Определив нужные инструменты, она может интерпретировать запрос и составить последовательность действий, которые необходимо предпринять. Затем она собирает отзывы из Zendesk, прогоняет их через инструмент определения приоритетов и создает тикет в Jira - все автоматически.
Скоро и посты за меня будет писать )
https://writer.com/blog/actions-with-palmyra-x-004/
Вау. Смотрите, чего можно с вектором делать! Поворачивать в 3d! И этих углов там нарисовано не было!
Это Project Turntable, прототип пока.
https://www.creativebloq.com/design/adobes-new-image-rotation-tool-is-one-of-the-most-impressive-ai-concepts-weve-seen
Nvidia затюнила Llama-3.1-70B с помощью 20000 тщательно подобранных ответов, чтобы сделать модель, как они пишут "более полезной, фактологически корректной, последовательной и настраиваемой по сложности и многословности" и обошла в сложных бенчмарках "старичков".
Попробовать можно тут - https://build.nvidia.com/nvidia/llama-3_1-nemotron-70b-instruct
Кстати, клубника там тоже есть :)
A sweet question!
Let’s count the “R”s in “strawberry”:
1. S
2. T
3. R
4. A
5. W
6. B
7. E
8. R
9. R
10. Y
There are 3 “R”s in the word “strawberry”.
И совсем не в тему AI, но блин, SpaceX запустила огроменную ракету в космос, а потом поймала и "обняла" ее еще одной гигантской конструкцией! Просто офигеть!😱
Запуски SpaceX уже снизили стоимость вывода на орбиту килограмма в 5 раз, хотя до этого прогресс шел оооочень медленно, а теперь вот вывести 1 кг будет стоить $200 вместо $7000, дешевле, чем экспресс-доставки некоторые.
Нобелевка "наша" (AI-ная)
Физика 2024: Лауреатами стали Джон Хопфилд и Джеффри Хинтон. Они были отмечены за их работу над нейронными сетями, которая легла в основу современных методов машинного обучения. Хопфилд разработал так называемые «сети Хопфилда» — это один из первых примеров рекуррентных нейронных сетей, которые могут запоминать и восстанавливать данные с помехами.
Работа Хинтона, в свою очередь, привела к созданию «машины Больцмана», метода, использующего идеи статистической физики для обучения моделей с большими массивами данных. Эти открытия оказали огромное влияние на развитие искусственного интеллекта и нейронных сетей, которые используются сегодня во множестве приложений, от распознавания образов до обработки данных.
В общем, придумал первые "скрытые" слои, что заложило основу глубого обучения и генеративных нейросетей.
Химия 2024: Лауреаты Дэвид Бейкер, Демис Хассабис и Джон Джампер получили премию за их работу, связанную с белковыми структурами. Бейкер разработал методы компьютерного дизайна белков, позволяющие создавать новые белки с заданными функциями, что открыло широкие возможности для биомедицины. Хассабис и Джампер из Google DeepMind внесли вклад в решение многолетней задачи предсказания трёхмерной структуры белков на основе их аминокислотной последовательности, разработав алгоритм AlphaFold2. Это достижение значительно улучшило понимание биологических процессов и уже используется для исследования антибиотикорезистентности и разработки ферментов для разложения пластика.
За них болел больше всего.
Для AI остались еще, получается, медицина, литература и мир...
Ну и наконец 🖼 Canvas - https://openai.com/index/introducing-canvas/
Включается переключателем моделей. Режим просто 🔥! Для контента и кода идеален: открывается в отдельном редакторе, где можно редактировать отдельные части с помощью 🤖. Можно уточнять, переписывать, исправлять ошибки, адаптировать тон текста. Например, обновить только заголовок или переписать вводную часть.
А для кода это просто находка: и ревью, и комментирование, и логи, и анализ, и исправление багов, и портирование на другой язык. Смотрите видео 🎥, там показаны основные возможности:
https://www.youtube.com/watch?v=IouuO0sdYO8
https://www.youtube.com/watch?v=3m8-CX79CtY
Да, вначале шутили: "ахаха, они просто украли у Claude их Artifact", но блогпост ясно показывает, что они уже интегрировали это в тюнинг GPT-4o. Возможности редактирования текста стали намного лучше 📈. По сравнению с базовой моделью точность правок отдельных частей выше на 10-15%. Качество комментариев тоже подтянули: точность выросла на 30%, а качество на 16% (оценка проводилась людьми, а не синтетическими тестами). Пользуйтесь! Постепенно раскатывают, но у платных пользователей уже должно быть доступно ✅.
Да, эмодзи я добавил с его помощью.
А вот например переделка для детей детского сада (есть там возможность выбрать reading level):
Вот и Canvas!
Этот режим очень крутой! Он помогает редактировать тексты и код с помощью умного помощника. Можно менять слова, исправлять ошибки, и даже переписывать заголовки. А для кода - проверять ошибки, добавлять комментарии и даже переводить код на другие языки. Смотрите видео, чтобы узнать больше
Теперь все работает еще лучше и пользователи могут уже попробовать этот классный инструмент!
Дальше Prompt caching
https://platform.openai.com/docs/guides/prompt-caching
Если ваш промпт больше 1024 токенов и вы вызываете этот промпт часто (например, просите переписать какие-то части текста в соответствии с постоянным шаблоном или в промпте указываете много примеров, или описание, чего делать надо, большое), то автоматически включается кэширование, которое позволяет в 2 раза сэкономить затраты на API. Грубо говоря первые вычисления по вашему промпту сохраняются, чтобы вариабельная часть уже дальше считалась не с нуля. Соответственно желательно в верхней части промпта описывать повторяемую часть, а уже в нижней части - допконтекст или какие-то нюансы о пользователе.
Кэш хранится 5-10 минут, поэтому лучше работает при равномерной нагрузке на это апи.
Чуть менее выгоднее, чем у конкурентов, но все равно полезно. Главное - посмотреть на промпты, чтобы удовлетворяло условия и работало хорошо.
Фух, я пережил довольно тяжелый период планирования и вернулся.
Все еще жду визу в Англию (прошел месяц, ау) на OpenAI Dev Day, но и на этом Dev Day навалили новостей.
Во-первых, запустили RealtimeAPI - https://openai.com/index/introducing-the-realtime-api/
Advanced Voice Mode, который показывали на демо 3 месяца назад.
Раньше для создания подобного голосового помощника разработчикам приходилось транскрибировать аудио с помощью модели автоматического распознавания речи, например Whisper, передавать текст в текстовую модель для умозаключений или рассуждений, а затем воспроизводить его с помощью модели преобразования текста в речь. Такой подход часто приводил к потере эмоций, акцентов и ударений, а также к заметным задержкам. С помощью API Chat Completions разработчики могут обрабатывать весь процесс с помощью одного вызова API, хотя это по-прежнему медленнее, чем человеческий разговор. API Realtime улучшает эту ситуацию за счет прямой потоковой передачи входных и выходных аудиоданных, обеспечивая более естественный разговор. Он также может автоматически обрабатывать прерывания, подобно расширенному голосовому режиму в ChatGPT.
Под капотом Realtime API позволяет создать постоянное WebSocket-соединение для обмена сообщениями с GPT-4o. API поддерживает вызов функций, что позволяет голосовым помощникам отвечать на запросы пользователей, вызывая действия или получая новый контекст. Например, голосовой помощник может разместить заказ от имени пользователя или получить соответствующую информацию о клиенте, чтобы персонализировать свои ответы.
Все очень круто!
Есть только 2 минуса: это дорого, в среднем 15 центов за минуту (обычный пайплайн, что выше описали они, стоит 5-9 центов, и индусский кол-центр будет стоить 3), и это не работает в Европе из-за самого лучшего в мире регулирования AI... 😢
Китайцы продолжают двигать опенсорс.
Новая Qwen-2.5 в 7 разных размерах и 2 специально заточенные под математику версии, на подходе модель для кодинга!
Производительность на 5-70% выше, чем у предыдущего поколения, обходит по тестам Meta Llama 3.1 70B и соответствует 405B! Qwen 2.5 32B превосходит OpenAI GPT-4o mini. 🤯
📈 Обучены на 18 триллионах токенов, вход до 128К токенов, выход до 8К.
🌎 Поддержка более 29 языков, включая английский, французский, испанский, китайский и другие.
⚒ Улучшенное следование инструкциям, понимание структурированных данных и вывод JSON.
🎭 Улучшена обработка системных подсказок для улучшения ролевых игр и работы чатботов.
🔓 Все размеры выпущены под Apache 2.0, кроме 72B и 3B
🥇 72B превосходит более крупные модели, такие как Llama3-405B
🥈 7B и 32B являются лучшими среди своих размеров
🧑🏻💻 Улучшенные модели кодирования на подходе (7B превосходит 22B CodeStral).
В общем, лучшие опенсорс модели по бенчмаркам в своем размере.
Подробнее: https://qwenlm.github.io/blog/qwen2.5-llm/
Модели: https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e
Вчера OpenAI сбросили у всех лимиты на O1, а сегодня их увеличили (видимо нагрузка не такая большая, как ожидали)
Для платников мини-версию теперь можно гонять аж 50 раз в день, а большую версию - 50 сообщениями в неделю мучить (вместо 30).
О, выложили видосы из митапа Wrike на Кипре про QA AI
1. Про AI для тестировщиков: от написания тестов до фикса багов
https://www.youtube.com/watch?v=ZIZCx_bDpIQ&ab_channel=Wrike%26WrikersCommunity
2. Про поисковую систему по вашему коду и базе знаний, которую можно сделать за 1 день
https://youtu.be/EFIH0wSYtms
3. Про 40000 тестов на Selenium, которые не мешают, а помогают жить
https://youtu.be/Gz9Tvrc-330
Новый Sonnet и Haiku от Anthropic!
https://www.anthropic.com/news/3-5-models-and-computer-use
Claude 3.5 Sonnet сильно прокачали по всем фронтам, особенно в кодинге (где дальше o1 обошли). А маленький Claude 3.5 Haiku теперь на уровне прошлой большой модели, в том числе в кодинге и размышлениях, при этом стоит копейки.
Плюс сделали фичу Computer Use - https://www.anthropic.com/news/developing-computer-use
Теперь можно попросить модель "использовать компьютер за вас": двигать мышкой, кликать, вводить. Пока только для разработчиков и работает нестабильно, но выглядит круто. RPA-провайдеры нервно закурили
Смотрите крутой видос - https://youtu.be/ODaHJzOyVCQ
Мне-таки дали визу в Великобританию (как обычно у UK, практически в последний момент), так что попадаю на OpenAI Dev Day 30 октября. Буду постить (если разрешат), все, что будет интересное.
Сейчас вот прислали список партнерских сессий (полная программа все еще недоступа):
Parloa: Maik Hummel, Principal AI Evangelist
Building agents with OpenAI o1 and GPT-4o for automation, quality assurance, and human-in-the-loop solutions.
VEED: Sabba Keynejad, CEO and Co-Founder
Increasing text-to-video capabilities to democratize video creation from any medium.
Sana AI: Gerald Parloiu, AI Lead and Viktor Qvarfordt, Head of Engineering
Architecting RAG for enterprise-scale data retrieval and processing while optimizing performance through rigorous evals.
Tortus: Nina Montaña Brown, Research Engineer and Sal Khalil, Founding Engineer
Evaluating LLMs by developing an in-house data labeling platform and production monitoring systems for real-time safety assurance.
Cosine: Alistair Pullen, CEO and Co-Founder
Fine-tuning a SOTA AI developer powered by GPT-4o with insights into the model training process, data quality, and evals.
Klarna: Echo Zhao, Lead AI Engineer
Scaling prompt engineering for enterprise use cases using leading LLM application development principles.
Stainless: Robert Craigie, Software Engineer
Building APIs and SDKs from OpenAI, Stripe, and Twilio, and exploring future possibilities with new interfaces and modalities.
Meta выпустила интересное исследование про "рассуждающие LLM" - Thinking LLMs: General Instruction Following with Thought Generation"
Исследуют новый метод тренировки, позволяющий генерировать "мысли" перед ответом - TPO (Thought Preference Optimization), что-то среднее между chain-of-though и мультиагентами. Мысли в итоге скрыты от пользователя.
Принцип работы:
- Модель генерирует идеи до того, как выдаст финальный ответ.
- Генерируются несколько мыслей и ответов, после чего модель-судья оценивает, какие ответы лучше.
- Модель обучается на основе предпочтений, выбирая наилучший и худший ответ, чтобы оптимизировать свои внутренние процессы.
Результаты:
Модели, обученные по TPO, показали улучшение не только в задачах, требующих рассуждений, но и в более креативных сферах, таких как маркетинг и написание текстов.
На тестах AlpacaEval и Arena-Hard такие модели демонстрировали лучшую производительность, достигая 52,5% успешных решений.
Статья тут - https://arxiv.org/abs/2410.10630
Sequoia выпустила интересный обзор новых возможностей для стартапов в связи с выходом o1, "рассуждающей модели", и LLM нового типа в целом
https://www.sequoiacap.com/article/generative-ais-act-o1/
Вот что для стартапов полезного пишут:
Большие игроки, такие как OpenAI, Google и Meta, заняли прочные позиции на уровне моделей и инфраструктуры. Конкурировать на этом уровне для стартапов сложно, но возможности есть на других уровнях.
Приложения — ключевая возможность для стартапов. Несмотря на мощь моделей и инфраструктуры крупных компаний, они не успевают внедрять ИИ на уровне конечных продуктов. Здесь появляются стартапы, которые могут создавать более специфичные и удобные решения для реальных задач. В прошлом приложения казались просто «обертками» для моделей, но теперь они развиваются в полноценные когнитивные архитектуры.
Фокус на агентные приложения. Новая волна стартапов нацелена на разработку приложений, которые не просто предоставляют интерфейс к ИИ, а выполняют конкретные задачи. Такие агентные приложения, как Harvey (ИИ-юрист) или XBOW (ИИ-пентестер), превращают трудозатратные процессы в автоматизированные решения.
Новая бизнес-модель — продажа результата (не software-as-a-service, а service-as-a-software, а это триллионный рынок!). Если раньше компании продавали ПО по подписке, то стартапы с агентными ИИ-приложениями могут продавать не ПО, а результат выполнения задач (например, оплата за решение запроса клиента, как у Sierra).
Таким образом, для стартапов сейчас открыты значительные возможности на уровне приложений и решений для реального мира, в отличие от работы на уровне базовых моделей или инфраструктуры, где доминируют большие компании.
И еще от Nvidia. Их оптимизированная Speech-to-Text модель Canary по качеству обошла и предыдущий parakeet, и whisper-large от OpenAI, при этом в 10 раз быстрее и в 4,5 раза дешевле.
Но русского все еще нет :(
Meta (запрещенная в России) не только модельки опенсорсные делает, но теперь и архитектуру железа для серверных стоек выводит в опенсорс
https://engineering.fb.com/2024/10/15/data-infrastructure/metas-open-ai-hardware-vision/
Говорит, что тренила Llama 3.1 405B на 16000 видюх H100, а теперь модельки тренируются на 48000 карточек
В общем, представила Catalina, архитектуру для сбора стоек с видюхами, чтобы все это было на общедоступных компонентах, с максимальной скоростью, масштабированием и охлаждением. И предлагает поучаствовать в улучшении дизайна.
А также для инференса теперь использует Grand Teton, который поддерживает карточки AMD.
Короче, показывают кукиш Nvidia и всем, кто хочет завязывать их на вендор-лок, и говорит, что вместе с MS и компьюнити хотят сделать самую открытую и стабильную архитектуру для кластеров с GPU.
Это, конечно, очень правильно. Отваливать каждый раз кучу денег монополистам с дефицитом всего, - не путь к быстрому масштабированию AI. А то там уже скорее всего продаются аналоги колесиков для десктопа за 1000 баксов.
Adobe вчера показала обновленный AI во всех своих продуктах. Самое популярное - в Photoshop
https://blog.adobe.com/en/publish/2024/10/14/photoshop-delivers-powerful-innovation-for-image-editing-ideation-3d-design-more
- Позволяет удалять 1 кнопкой провода и ужасных мешающих людишек на фото
- Обновили Generative Fill и подобное на новую "более лучшую" и фотореалистичную 3 модель. Это до сих пор самый быстрый и качественный способ инпейтинга (например, одежду поменять или котика добавить) в ваши фотки
- Expand теперь дорисовывает картинки более фотореалистично и на больший размер.
- Generate Similar теперь больше вариантов дает и более похожих на оригинальную картинку
- Generate background стал "более лучший" тоже. Учитывая, что там удаление фона тоже одной кнопкой - можно вообще творчески использовать.
- В Photoshop Web теперь можно одной кнопкой объекты выделять, а не страдать с лассо
- В Бету добавили Workspace-режим - генерацию сразу множества картинок, которые можно менять и комбинировать.
- Выложили бету Substance 3D Viewer - можно 3д-объектами манипулировать без сумасшедшего знания 3д и потом легко вставлять в фотошоп.
В общем, для любителей поковыряться с новинками Text-to-Image и Computer Vision, нового мало что, но то, как удобно это встроено в продукты, поражает. Вот так вы и должны встраивать GenAI в ваши.
И еще одна новость от OpenAI - релиз затюнненой Speech-to-Text модели Whisper Turbo
https://github.com/openai/whisper/discussions/2363
На самом деле оптимизаторы из опенсорса уже пытались библиотеку ускорсить, и WhisperX или FastWhisper действительно работали в 8-10 раз быстрее при практически том же уровне качества, но от OpenAI все-таки получить улучшенную версию еще приятнее.
Пишут, что скорость стала на уровне base-tiny моделей, то есть в 6-8 раз быстрее, но качество упало примерно на 10%, для некоторых языков больше (см картинку) что как бы не лучший вариант. Плюс модель не заточена на перевод, только на транскрибацию. Так что если надо что-то прям быстро получить и на источниках с хорошим качеством - подойдет, но для качественного транскрибирования и перевода - нет.
И последнее - API для дистилляции моделей
https://platform.openai.com/docs/guides/distillation
Самая частая задача файнтюнинга, которую я видел, и которая описывается в продакшн-сценариях у множества крутых компаний, - обучение маленькой модели по результатам большой модели, чтобы получить х10 в скорости и x0.1 в цене, потому что вызывается маленькая моделька, а не большая. Раньше все это требовали довольно большого количества ручных шагов, а теперь вот у OpenAI появился прям интерфейс для этого дела.
- Записываем результаты работы большой модели (флажок store) и сохраняем датасет
- Оцениваем (наконец-то появился eval), как на этих входных данных работает маленькая и большая моделька, чтобы отслеживать разницу в качестве до и после
- Закидываем выбранные результаты в дообучение (200 сэмплов норм) и OpenAI всю работу по файнтюну сделает сама
- Теперь можно посмотреть, что получилось после и использовать дообученную модельку.
В итоге вместо например GPT-4o, которая стоит 2.5/10 будет использовать адаптированная GPT-4o-mini, которая стоит 0.3/1.2 - в 8 раз дешевле при том же качестве.
И до конца месяца тренинг бесплатный, но и после это все равно копейки какие-то и окупается за месяц работы.
Далее разрешили файнтюнить GPT-4o с помощью картинок
https://openai.com/index/introducing-vision-to-the-fine-tuning-api/
Это конечно открывает прям огромный пласт возможностей использования, если вам надо какие-то computer vision задачи решать. Например, знаки или разметку на дороге (как сделал Grab всего по 100 картинок) или распознавание UI элементов, как Automat, или с помощью 200 картинок инвойсов подняли качество на 7% они же, или генерация кода сайта по картинке с помощью сайтов, собранных на вашем фреймворке (что сделал Coframe). И файнтюнить можно на ваших данных до конца месяца бесплатно, а дальше примерно $10 за 100 картиночек 1000x1000 пикселей и API будет стоить в 1.5 раза дороже, но это все равно копейки по сравнению с обучением такой модели самостоятельно и размещением у себя.
Смотрю тут развернутую LLM Arena (вкладка NEW: Overview) и какая-то новая необъявленная chatgpt-4o-latest-20240903 оказывается на прям новой высоте. В API она тоже есть под именем chatgpt-4o-latest и даже был соблазн переключиться, но работает медленно... От 2 до 7 раз на тестах. Видимо скоро будут анонсы о какой-то более крутой, но дорогой GPT-4o от OpenAI.
Ну и из прикольного, Илон Маск с Гроком обошел и Antropic, и GPT-4o, и на равных с самой сильной моделью от Google.
https://lmarena.ai/
Скачал тут от разработчиков RAG-систем руководство по их созданию. Напоминаю, что это по сути ответ на вопрос LLM-кой с получением доп.информации из внешней базы, например, вашей базы знаний или документации. Практически все AI-стартапы, где пишут, что они "тренируются на ваших данных", банально используют RAG. Это наверное самый частый юзкейс и с самым высоким ROI сейчас.
Понятно, что они свое решение пиарят, но быстро посмотрел и интересного много, от выбора векторной базы и эмбеддингов, до разрезания больших документов на кусочки хитрыми способами и промпт-инжиниринга.
А вот кстати подробности, как OpenAI тренировался на улучшение размышлений в GPT O1.
Новый подход показывает, что правильные шаги в цепочке рассуждений повышают производительность больше, чем концентрация на конечном результате/ответе! 👀 OpenAI улучшил результаты GPT-4 с 42,5 до 78 % на бенчмарке MATH , используя Process-supervised reward models (PRM, то есть которые за каждый шаг награду дают). PRM обучены оценивать промежуточные этапы рассуждений в цепочке рассуждений, а не только конечный результат, что приводит к более надежным и точным результатам при решении сложных задач на рассуждение.
Реализация:
1️⃣ Зафайнтюнили GPT-4 (даже не О, поэтому так долго все было), чтобы настроить специальную пошаговую выдачу рассуждений.
2️⃣ Сгенерировали задачу, похожую на MATH, используя доработанную GPT-4, и представили ее разметчикам, чтобы те пометили каждый шаг как положительный, отрицательный или нейтральный. Получили датасет RPM800k (тоже выложили).
3️⃣ Обучили PRM с использованием набора данных PRM800K для оценки каждого промежуточного шага рассуждения, чтобы обратная связь была по каждому шагу.
4️⃣ Использовали методы активного обучения для улучшения RPM и отбора наиболее информативных образцов данных для аннотирования человеком.
5️⃣ Обучили GPT-4 с помощью RLHF и использовали PRM для улучшения промежуточных шагов рассуждений.
Интересное:
🔧 Файнтюн LLM помог выдавать пошаговый формат, с чем не справляются текущие модели.
📊 PRM800K содержит 800 тыс. шагов для 75 тыс. решений 12 тыс. задач.
🎯 78% правильных решений на бенчмарке MATH по сравнению с 72,4% для моделей вознаграждения за результат (а не за шаги).
💼 Активное обучение снижает стоимость и повышает эффективность обратной связи с человеком.
💰 Обратная связь от человека использовалась только для маркировки шагов рассуждения, все остальное синтетика.
Подробнее тут: https://arxiv.org/abs/2305.20050
И самое прикольное, что теперь O1 поможет генерировать еще более качественные и валидные данные для обучения моделей следующего поколения. Так что данных будет завались, потолок еще очень далеко. Ну и даже сейчас если GPT-4o я считал скорее выпусником ВУЗа для сложных задач, то O1 - это уже опытный сотрудник!
Microsoft конечно двигает технологии к людям.
Сделали типа AI-генерацию кода вычислений на Python в Excel. Просто пишешь или выбираешь из списка, чего тебе сделать с данными надо
https://youtu.be/zkyzrLwRwlo