Кстатит, кто на Кипре - обязательно приходите завтра и/или послезавтра на крутую AI конференцию в Пафосе. Буду рассказывать снова про опенсорсные ЛЛМ-ки. Что там нового случилось за это время (тяжело идет, разбаловали нас сильными LLM за копейки, но прогресс есть)
Читать полностью…Теперь GPT-4o более натурально и креативно пишет, а также внимательнее читает ваши загруженные файлы.
Полез сразу на арену, да, снова OpenAI в топе
И Microsoft туда же. Клонирование голоса и автоперевод речи на 9 языков в 2025 году прям в Тимс
https://www.youtube.com/watch?v=J1I-nReRTyc
Ну и из мира голосовых интерфейсов ElevenLabs надоело быть просто Text-to-Speech, они расширяются и теперь дают возможность весь пайплайн агента голосового у себя собрать.
Можно выбрать основной язык агента, первое сообщение и системный промпт, выбрать LLM (Gemini, GPT или Claude или свою собственную), температуру ответов и лимит использования токенов. Загрузить базу знаний, например файл, URL или текст. SDK ElevenLabs совместим с Python, JavaScript, React и Swift. Компания также предлагает WebSocket API.
Из фирменных штук можно также выбирать голос, задержку, стабильность голоса, критерии аутентификации и максимальную продолжительность разговора с ИИ-агентом. Компании также могут задавать критерии для сбора определенных данных - например, имя и электронную почту клиентов, разговаривающих с агентом, – а также критерии оценки на естественном языке для определения успеха или неудачи звонка.
Вот как работает (видос)
https://youtu.be/TFIudjLTrQM
Подробнее в Техкранч, потому что ребята у себя не постарались описать это все нормально - https://techcrunch.com/2024/11/18/elevenlabs-now-offers-ability-to-build-conversational-ai-agents/
Mistral тоже обучение закончил своих следующих моделек - Mistral Large и Pixtral Large - 123B параметров
Мистраль
- 128К токенов контекст
- Мультиязычные (но русского нет: английский, французский, немецкий, испанский, итальянский, китайский, японский, корейский, португальский, голландский и польский)
- Выдача валидного JSON
- Поддержка 80+ языков программирования
- Поддержка функций
- Открытые веса
Пикстраль
- Лучший в классе на MathVista, DocVQA, VQAv2
- 128K контекстное окно: помещается минимум 30 изображений высокого разрешения
- Неплохой мультиязчный OCR
- Понимание графиков
С 24 ноября будет доступно в АПИ, пока можно потестить в Le Chat - https://chat.mistral.ai/
Подробнее тут: https://mistral.ai/news/pixtral-large/
И снова про конкуренцию. OpenAI пора новую модель выпускать, конкуренты догоняют.
NexusFlow зафайнтюнили Qwen-2.5 и поднялись практически по всем метрикам в модели на 72B параметров. Выложили 2 модельки:
Athene-V2-Chat-72B: уровня GPT-4o. Она превосходит GPT-4o в полезности чата (Arena-Hard), в кодировании (заняв второе место в bigcode-bench-hard), математике (MATH) и обрабатывает длинные логи с более высокой точностью (наш внутренний бенчмарк).
Athene-V2-Agent-72B: балансируя между возможностями чата и агента, эта модель предлагает лаконичные, директивные ответы в чате, превосходя GPT-4o в наших последних бенчмарках Nexus-V2 по вызову функций, ориентированных на сложные случаи использования функций на уровне предприятия.
https://nexusflow.ai/blogs/athene-v2
Скоро и деньги за нас получать будет.
Но в целом это конечно очень полезное направление. RPA так проблемы интеграций с зоопарком софта не решил
https://vc.ru/ai/1653005-openai-zaplanirovala-v-yanvare-2025-goda-predstavit-ii-agenta-kotoryi-smozhet-upravlyat-kompyuterom-ot-imeni-polzovatelya-bloomberg
Очень здоровский проект - расчет местоположения в метро без GPS. Берут данные акселерометра, размечают, определяют разные состояния типа идешь, едешь, ждёшь поезда, и тренирует модельку. В итоге по данным о твоём маршруте, расписании транспорта, редких проблесках сигнала и вот этой мобильной МЛ-модели могут прям вести тебя по карте и говорить, когда выходить.
https://blog.transitapp.com/go-underground/
Китайцы выпустили семейство открытых моделей Qwen-Coder-2.5, самая интересная из которых, на 32B параметров, лучшая из всего опенсорса, работает на уровне GPT-4o и Claude Sonnet (хотя на картинке куча цифр выделено желтым неправильно).
Можете запускать на каком-нибудь вашем облаке или сервере (или даже локально, если видюха мощная или какой-нибудь Mac с 64 Гб памяти) и всех разработчиков снабжать хорошей локальной генерацией кода.
- Значительно улучшены генерация кода, осмысление кода и его исправление.
- Не только расширяет возможности генерации кода, но и сохраняет свои сильные стороны в математике и общих знаниях.
- Поддержка длинного контекста до 128K токенов.
Скачивать с HuggingFace.
https://huggingface.co/collections/Qwen/qwen25-coder-66eaa22e6f99801bf65b0c2f
Первая полностью открытая модель для генерации разговорного аудио - Hertz-dev (8.5B параметров). Слушайте образцы ниже, там очень клево. Это все либо сгенерировано AI, либо в диалоге с AI.
Направлена на создание естественных и плавных аудиосообщений. Состоит из трех основных компонентов: hertz-codec, hertz-lm и hertz-vae.
Hertz-codec — это аудиокодек, который преобразует аудио в необходимое представление, что позволяет экономить ресурсы без потери качества. Hertz-lm — языковая модель, обученная на 20 миллионах часов аудиоданных, может генерировать текстовые репрезентации звука и обладает контекстом до 4,5 минут. Модель доступна в двух версиях: с предобучением на текстовых данных и исключительно на аудиоданных.
Hertz-vae — мощная модель, которая отвечает за восстановление семантики речи с высокой точностью.
Модель полностью открытая и она никак еще не настроена на инструкции, не файнтюнена, поэтому ее можно поднастроить под ЛЮБУЮ аудиозадачу, от классификации эмоций до перевода в реальном времени.
Обещают, что задержка в 2 раза ниже всего имеющегося на рынке, на RTX 4090 - 120 мс.
Подробнее: https://si.inc/hertz-dev/
Код: https://github.com/Standard-Intelligence/hertz-dev/tree/main
Свежий выпускник YCombinator - платформа для распознавания документов и выдергивания нужных данных в твой шаблон - Midship.
Скорее всего использует какой-нибудь базовый OCR и парсер доков и потом LLM-ками добивает до нужного формата. Подробностей на сайте ОЧЕНЬ мало, но то, что на "красном" рынке распознавания с кучей конкурентов появляются новые игроки звучит интересно.
Попробовать можно тут - https://app.midship.ai/demo/
На конференции Lenny, ведущего известной рассылки и подкаста, поговорили про работу продактов в AI
https://youtu.be/IxkvVZua28k?si=9Q8o64_7qRWljfDp
Основные тезисы:
1. Адаптивность разработки под корпоративные задачи
Продукты ИИ для корпораций требуют учёта корпоративных ожиданий, таких как сроки внедрения и интеграции в существующие процессы.
2. Быстрое развитие технологий ИИ
В ИИ каждое несколько месяцев появляются новые возможности, требующие мгновенной адаптации продукта, что отличает работу с ИИ от классических продуктовых ролей.
3. Нестабильность и ошибки в работе ИИ
Поскольку точность ИИ-моделей может варьироваться, важно предусмотреть механизмы, позволяющие пользователям корректировать результаты модели.
4. Значимость оценки (evals) для ИИ
Процесс создания качественных оценок стал важной задачей для продакт-менеджеров, поскольку без правильного тестирования сложно оценить успешность модели.
5. Человеко-ориентированное взаимодействие ИИ
Продукты, где предполагается участие человека в процессе, например GitHub Copilot, полезны даже при средней точности модели, так как экономят время пользователей.
6. Комбинирование моделей для сложных задач
В OpenAI и Anthropic разрабатываются системы, в которых несколько моделей работают совместно, усиливая точность и надёжность в таких областях, как кибербезопасность.
7. Агентные задачи для долгосрочного выполнения
Модели ИИ будут способны выполнять задачи, требующие длительного времени, что позволит пользователям сосредоточиться на креативных аспектах своей работы.
8. Быстрая адаптация пользователей к ИИ
Пользователи быстро привыкают к новым возможностям, таким как голосовой перевод, который позволяет общаться, не зная языка собеседника.
9. Проактивность ИИ в будущем
В будущем ИИ будет способен предлагать идеи и задачи, анализируя, например, электронную почту, чтобы предоставлять рекомендации и обновления.
10. Развитие моделей с уникальными функциями
Для сложных задач ИИ будет способен к пошаговому анализу, при этом работая с несколькими входными данными, как это делает человек при решении головоломок.
Короче, делайте тестовые датасеты, ориентируйтесь на то, что модели будут лучше, включайте пользователя в принятие решений и уточнение работы моделей и адаптируйте продукт под новые возможности.
OpenAI продолжает упрощать жизнь разработчикам. Втихаря (по сути только в Твиттер и через партнера выложили) зарелизили predicted output.
Подробнее тут: https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputs
Если в вашем тексте или коде меняется только небольшой кусок, то должно работать в Х раз быстрее.
Пошел посмотреть, как этого добиться и добавили параметр в API - prediction. Туда можно добавить предыдущий ответ (текст или код) и в итоге генерация должна быть и дешевле, и быстрее, все токены, которые не менялись, выйдут вам практически бесплатно.
prediction: {
type: "content",
content: ХХХ
}
UPD: Проверил на своем ассистенте. В 2 раза быстрее и в 4 раза дешевле стало!
Круто, конечно!
Доклад от Klarna, как они пишут промпты и создают агентов прям массово (Klarna реально поувольнял тонну народа и заменил AI), но доклад был довольно слабый.
Основное - заручаются помощью команды разработки, отвечающей за функциональность в продукте (а то это частая история, дата-сайнтисты чего-то там разработали, а оно лежит на полке, потому что команда продуктовая, куда это внедряется, пилит свои фичи), смотрят в логи и на реальных видеозаписях, как сейчас происходит, потом пишут тесты, как работает и как в идеале должно и оптимизируют промпты, чтобы поднимать метрики. Цикл примерно 3 месяца занимает
Маленькие партнерские доклады.
Text-to-SQL для данных из разных источников.
Это когда вам надо собрать например табличку из эксельки, потом данные из имейлов и все это связать и позволить "спрашивать" на естественном языке.
Очень пригодится в текущей BI компании.
Они по сути данные из ВСЕХ источников приводят в табличный вид с понятными AI названиями колонок и схемой данных и хранят это в памяти во временной SQL-базе. Далее просят пошагово описать LLM-ку, как сделать нужный запрос в ответ на запрос клиента, и собственно выдать сам SQL-запрос. Вызывают его и возвращают результат. Это позволяет работать с разными данными одинаковым способом. Так как LLM-ки медленные, все операции по переводу данных во временную базу успевают пройти и они могут расширять этот подход на все последующие интеграции.
В общем, полезно, если вам надо данные анализировать и они все в разном виде к вам приходят.
И новые лидер в распознавании текста (в основном английский) - тюненый Whisper - CrisperWhisper
Вот что пишут:
🎯 Точные временные метки на уровне слов: Обеспечивает точные временные метки, даже при наличии неточностей и пауз, благодаря использованию скорректированного токенизатора и индивидуальной потери внимания во время обучения.
📝 Дословная транскрипция: Транскрибирует каждое произнесенное слово в точности так, как оно есть, включая и различая такие наполнители, как «эм» и «ух».
🔍 Обнаружение филлеров: Обнаруживает и точно транскрибирует заполнители.
🛡 Уменьшение галлюцинаций: Минимизирует галлюцинации при транскрипции для повышения точности.
Лежит тут
https://github.com/nyrahealth/CrisperWhisper
Ресерч тут: https://arxiv.org/abs/2408.16589
И последняя на сегодня - голосовой перевод от DeepL
https://www.deepl.com/en/products/voice
Помимо хорошего переводчика текста теперь предоставляют еще и перевод речи (на онлайн-встречах) и в офлайне в режиме диалога на 1 телефоне. Все секурно и наверное довольно хорошо, но цен нет, демок нет и все просьбы показать оканчиваются на продажниках. Видимо надо было что-то прям очень срочно показать (у них там конфа собственная была).
Ну и обновили Le Chat тоже (скопировали все, что хорошее есть у конкурентов):
- Поиск в интернете
- Холст для совместной работы, редактирования отдельных строк/абзацев
- Поддержка понимания PDF-ок, в том числе больших и с комплексной графикой
- Генерация картиночек через FLUX
- Сохранение и автоматизация повторяющихся действий (типа сканирования чеков или саммаризации встреч)
Все пока бесплатно, Подробнее тут:
https://mistral.ai/news/mistral-chat/
И Google с последней Gemini-1.5 Pro обошел 4o и даже на некоторых задачах o1, плюс занял первое место в бенчмарке задач на vision.
Gemini 1.5 Pro (0801) отлично справляется с мультиязычными задачами и демонстрирует высокую производительность в таких технических областях, как математика, сложные подсказки и написание кода.
https://lmarena.ai/
Промпт-инженеры не нужны. Пока вы спали Anthropic зарелизил prompt improver, который исправляет ваши кривые потуги написать нормальный промпт.
Теперь сами перепишут, чтобы шаг за шагом рассуждал, сконвертируют в стандартный xml, в примеры тоже рассуждения добавят, а ещё и накидают их побоьше сами. Ну и перепишут, чтобы машине ваш кривой английский был понятнее и формат выдачи предзаполнят.
На их тестах качество на 30% выросло в классификации и 100% попадание теперь в соблюдение требований по количеству слов.
Плюс можно ещё и обратную связь дать текстом, что улучшить надо.
Ну и добавили удобный интерфейс для работы с примерами и тестирования обновленных промптов.
https://www.anthropic.com/news/prompt-improver
"Ахах, AI всего лишь статистический анализатор, он не может ничего придумать".
А вот ребята из MIT думают по-другому.
В этой статье изучается влияние искусственного интеллекта на инновации, используя
рандомизированное внедрение новой технологии открытия материалов для 1018 ученых в
лаборатории НИОКР крупной американской компании. Исследователи с помощью ИИ открывают на 44% больше материалов,
что приводит к 39% увеличению числа патентных заявок и 17% росту инноваций в области последующих продуктов. Эти соединения обладают более новыми химическими структурами и приводят к более
радикальным изобретениям. Однако технология оказывает поразительно разнородное влияние на
распределение производительности: в то время как нижняя треть ученых видит мало выгоды,
результаты работы ведущих исследователей почти удваиваются. Исследуя механизмы,
лежащие в основе этих результатов, мы показываем, что ИИ автоматизирует 57% задач генерации идей, перераспределяя время
исследователей на новую задачу оценки материалов-кандидатов, созданных с помощью модели. Ведущие
ученые используют свои знания в предметной области для определения приоритетов перспективных предложений ИИ, в то время как другие тратят значительные ресурсы на тестирование ложных направлений.
https://aidantr.github.io/files/AI_innovation.pdf
И снова опенсорсный OCR (распознавание доков нужно всем :) )
https://llamaocr.com/
Пока выглядит как пет-проект, просто обертка над llama 3.2, но интерес все равно вызывает большой (даже не смотря на какой-нибудь tesseract, который тоже обновился недавно)
Видос: https://x.com/nutlope/status/1856402928086725020/mediaViewer?currentTweet=1856402928086725020&currentTweetUser=nutlope
https://habr.com/ru/articles/856436/
Llm-ки для русского. Качество растет, это радует. Но сравнения с OpenAI или Anthropic конечно они не выдержат.
На основе двух вариантов оценки мы делаем вывод, что лучшие решения для работы с русскоязычными документами - облачные платформы YandexGPT и GigaChat.
Но в ситуациях, когда необходимо использовать локальную языковую модель, стоит рассмотреть Saiga-Mistral-7b-Lora.
Модели YandexGPT и Saiga-Mistral-7b-Lora показали наилучшие результаты в большинстве задач, связанных с генерацией текста, диалогами и исправлением ошибок.
Saiga-Llama3-8b стала лучшим выбором для задач извлечения данных и анализа документов, что делает её отличным инструментом для автоматизации обработки документов.
В будущем, с развитием технологий NLP, можно ожидать появления ещё более точных и производительных языковых моделей, которые смогут решать задачи на ещё более высоком уровне.
Кроме того, возможность дообучения моделей на специализированных датасетах (как это было сделано с Saiga-Mistral-7b-Lora и Saiga-Llama3-8b) позволит адаптировать их под конкретные нужды компаний, работающих с русским языком.
Хотели заработать, - не прокатило.
Теперь ai copilot включен в подписку office, пока в нескольких странах
https://3dnews.ru/1113665/microsoft-sdelala-iifunktsii-office-chastyu-podpiski-microsoft-365
На следующей неделе будет краш-курс от Google бесплатный по GenAI: промпт-инжиниринг, эмбеддинги и векторные базы, агенты, вертикальные решения, MLOps. Понятно, что будут свои решения рекламировать, но в целом должно быть интересно и крайне полезно
https://rsvp.withgoogle.com/events/google-generative-ai-intensive
Вчера вечером рассказал про инсайты с OpenAI Dev Day сообществу фаундеров на Кипре. Презентация туть.
В принципе все это есть в канале, еще и с комментариями, а не просто фоточки, но зато можно быстро посмотреть в одном месте, чего рассказывали.
И еще со мной поделился заметками один из участников, там про дистилляцию, мультимодальность и стоимость/качество - https://docs.google.com/document/d/1diTYMr7WvqlbP-7ZZYB5maG3TTqVQMJIFdTORbhpKkQ/edit?usp=sharing
Был еще медицинский стартап, который рассказывал, как они минимизируют передачу персональных и чувствительных данных пациента. По сути они каждый набор данных очищают, анонимизируют и хэшируют, и получается работать с разными "классами" клиентов, а не данными отдельных людей, а индивидуальные особенности уже передаются через хэш. Так можно и с LLM работать безопасно, и консистентно сохранять данные о человеке при каждом запросе.
Звучит сложновато для обычного применения, но для медицинских данных такие вещи весьма востребованы.
Из забавного, они галлюцинации и ошибки моделей назвали халлуми :) HALLUcinations and MIsalignments
И соответственно стремятся на каждом эксперименте по обработке данных это число уменьшать.
Далее Cosine про улучшение AI-ассистента разработчика. Понравился подход тоже.
Данных о том, как разработчики решают задачи, очень мало. В основном просто код. Ну и понятно, что они и собирает трейсы с пользователей, но пока все равно мало. В итоге подход основан на синтетике: мы берем мощную o1 и даем ей задачу генерировать "советы" для решений, сгенерированных более слабой моделью, не ответы, а советы, типа "обрати внимание, что ты такие классы не поменял", в итоге получаем последовательность улучшений, которые в итоге и используют для файнтюнинга. То есть оптимизации идут не финального решения, а каждого шага рассуждения. Уверяют, что добились state-of-the-art в нескольких разработческих бенчмарках при приемлемой скорости ответа.
Итак, продолжаю про OpenAI Dev Day:
Довольно важная сессия про улучшение точности и уменьшение задержки и стоимости.
Активно настаивают на eval-driven development. Создаёте датасет для тестирования и далее улучшаете промпты, добавляете RAG, занимаетесь файнтюнингом, чтобы получать лучшие оценки качества на вашем датасете. Все механизмы уже есть в OpenAI, можно сохранять ответы, можно собирать в батч, можно тестировать разные модели и промпты, можно использовать ответы большой модели для файнтюна маленькой и так далее.
Самое важное - установить параметры точности, что считать хорошей работой. Кажется, что 90-95-99%, но все фигня. Они как-то для клиента тестировали, сколько должно быть с учетом окупаемости правильного решения и ухода в минус, если например клиент вообще решил перестать быть клиентом компании и оказалось, что достаточно 81%, а люди в кол-центре там имели “точность” 75%.
Промпт-инжиниринг: скидывайте весь контекст задачи, добавляйте пару примеров (всегда хорошо работает), используйте инструменты для автоматизации улучшения промпта
RAG: не всегда нужен, иногда можно просто поиском найти (например, когда слов в запросе меньше 3), ну и поиск в RAG добавляет возможность фейла, так что его тоже надо тестировать
Файн-тюн: начать с небольшого, 100-200 хороших примеров, добавить постоянный сбор обратной связи и улучшенного датасета, использовать дистилляцию ответов большой модели
В итоге потихоньку пробуя разное дойдете-таки до хороших показателей
По задержке работают сейчас над несколькими датацентрами ближе к вашим клиентам, так что 200мс задержки сигнала до США и обратно точно снизится (это кстати один из немногих анонсов конференции)
Чтобы оптимизировать время до первого токена лучше использовать более короткие промпты, маленькие модели и кэширование (а значит вариативную часть промпта перенести в конце). Ну и лучше запросы делать вечером и в выходные :)
Чтоы оптимизировать время между токенами - просить коротко отвечать, использовать короткие промпты и маленькие модели. В среднем OpenAI o1 и 4o отдают 22 токена за секунду, 4o mini - 33, 01 mini - 66.
Ну и пользуйтесь BatchAPI, позволяет в 2 раза снизить стоимость, если не нужно в риалтайм (например, на бесплатном тарифе результат через сутки выдавать)