Codium сделал обзор коммерческих LLM для кода. У всех свое место в качестве инструмента помощи разработчикам.
Claude лучшая в ежедневном кодинге
Gpt-4o - в простых задачах, но с большой вариативностью
01 - в сложных ситуациях, но медленная
Gemini - для кода с огромным контекстом
https://www.qodo.ai/blog/comparison-of-claude-sonnet-3-5-gpt-4o-o1-and-gemini-1-5-pro-for-coding/
Агаа!!! Симуляции действительно напоминают реальных людей! Новое исследование от Стенфорда и Гугла. Взяли интервью у людей, записали в память модели и потом задавали человеку и агенту дополнительные вопросы. Корреляция 85%.
Мы представляем новую архитектуру агента, который моделирует отношение и поведение 1052 реальных людей, применяя большие языковые модели к качественным интервью об их жизни.
Затем мы измеряем, насколько хорошо эти агенты воспроизводят отношение и поведение людей, которых они представляют. Генеративные агенты воспроизводят ответы участников по
Общему социальному опроснику на 85% так же точно, как и ответы самих участников две недели спустя. А также сопоставимо предсказывают черты личности и результаты экспериментальных исследований. Наша архитектура снижает погрешности в точности ответов по расовым и идеологическим группам
по сравнению с агентами, которым даны демографические описания. Эта работа закладывает основу для новых
инструментов, которые помогут исследовать индивидуальное и коллективное поведение.
Так что берете для продуктовых гипотез реальное интервью (а часто подойдут и хорошие результаты опросов), закидываете промпт и спрашиваете потом эту персону на любые темы, получая релевантные ответы. В том числе, нравится ли им новая фиолетовая кнопочка и как они выбирают носки в подарок на 23 февраля.
https://arxiv.org/abs/2411.10109
Кстатит, кто на Кипре - обязательно приходите завтра и/или послезавтра на крутую AI конференцию в Пафосе. Буду рассказывать снова про опенсорсные ЛЛМ-ки. Что там нового случилось за это время (тяжело идет, разбаловали нас сильными LLM за копейки, но прогресс есть)
Читать полностью…Теперь GPT-4o более натурально и креативно пишет, а также внимательнее читает ваши загруженные файлы.
Полез сразу на арену, да, снова OpenAI в топе
И Microsoft туда же. Клонирование голоса и автоперевод речи на 9 языков в 2025 году прям в Тимс
https://www.youtube.com/watch?v=J1I-nReRTyc
Ну и из мира голосовых интерфейсов ElevenLabs надоело быть просто Text-to-Speech, они расширяются и теперь дают возможность весь пайплайн агента голосового у себя собрать.
Можно выбрать основной язык агента, первое сообщение и системный промпт, выбрать LLM (Gemini, GPT или Claude или свою собственную), температуру ответов и лимит использования токенов. Загрузить базу знаний, например файл, URL или текст. SDK ElevenLabs совместим с Python, JavaScript, React и Swift. Компания также предлагает WebSocket API.
Из фирменных штук можно также выбирать голос, задержку, стабильность голоса, критерии аутентификации и максимальную продолжительность разговора с ИИ-агентом. Компании также могут задавать критерии для сбора определенных данных - например, имя и электронную почту клиентов, разговаривающих с агентом, – а также критерии оценки на естественном языке для определения успеха или неудачи звонка.
Вот как работает (видос)
https://youtu.be/TFIudjLTrQM
Подробнее в Техкранч, потому что ребята у себя не постарались описать это все нормально - https://techcrunch.com/2024/11/18/elevenlabs-now-offers-ability-to-build-conversational-ai-agents/
Mistral тоже обучение закончил своих следующих моделек - Mistral Large и Pixtral Large - 123B параметров
Мистраль
- 128К токенов контекст
- Мультиязычные (но русского нет: английский, французский, немецкий, испанский, итальянский, китайский, японский, корейский, португальский, голландский и польский)
- Выдача валидного JSON
- Поддержка 80+ языков программирования
- Поддержка функций
- Открытые веса
Пикстраль
- Лучший в классе на MathVista, DocVQA, VQAv2
- 128K контекстное окно: помещается минимум 30 изображений высокого разрешения
- Неплохой мультиязчный OCR
- Понимание графиков
С 24 ноября будет доступно в АПИ, пока можно потестить в Le Chat - https://chat.mistral.ai/
Подробнее тут: https://mistral.ai/news/pixtral-large/
И снова про конкуренцию. OpenAI пора новую модель выпускать, конкуренты догоняют.
NexusFlow зафайнтюнили Qwen-2.5 и поднялись практически по всем метрикам в модели на 72B параметров. Выложили 2 модельки:
Athene-V2-Chat-72B: уровня GPT-4o. Она превосходит GPT-4o в полезности чата (Arena-Hard), в кодировании (заняв второе место в bigcode-bench-hard), математике (MATH) и обрабатывает длинные логи с более высокой точностью (наш внутренний бенчмарк).
Athene-V2-Agent-72B: балансируя между возможностями чата и агента, эта модель предлагает лаконичные, директивные ответы в чате, превосходя GPT-4o в наших последних бенчмарках Nexus-V2 по вызову функций, ориентированных на сложные случаи использования функций на уровне предприятия.
https://nexusflow.ai/blogs/athene-v2
Скоро и деньги за нас получать будет.
Но в целом это конечно очень полезное направление. RPA так проблемы интеграций с зоопарком софта не решил
https://vc.ru/ai/1653005-openai-zaplanirovala-v-yanvare-2025-goda-predstavit-ii-agenta-kotoryi-smozhet-upravlyat-kompyuterom-ot-imeni-polzovatelya-bloomberg
Очень здоровский проект - расчет местоположения в метро без GPS. Берут данные акселерометра, размечают, определяют разные состояния типа идешь, едешь, ждёшь поезда, и тренирует модельку. В итоге по данным о твоём маршруте, расписании транспорта, редких проблесках сигнала и вот этой мобильной МЛ-модели могут прям вести тебя по карте и говорить, когда выходить.
https://blog.transitapp.com/go-underground/
Китайцы выпустили семейство открытых моделей Qwen-Coder-2.5, самая интересная из которых, на 32B параметров, лучшая из всего опенсорса, работает на уровне GPT-4o и Claude Sonnet (хотя на картинке куча цифр выделено желтым неправильно).
Можете запускать на каком-нибудь вашем облаке или сервере (или даже локально, если видюха мощная или какой-нибудь Mac с 64 Гб памяти) и всех разработчиков снабжать хорошей локальной генерацией кода.
- Значительно улучшены генерация кода, осмысление кода и его исправление.
- Не только расширяет возможности генерации кода, но и сохраняет свои сильные стороны в математике и общих знаниях.
- Поддержка длинного контекста до 128K токенов.
Скачивать с HuggingFace.
https://huggingface.co/collections/Qwen/qwen25-coder-66eaa22e6f99801bf65b0c2f
Первая полностью открытая модель для генерации разговорного аудио - Hertz-dev (8.5B параметров). Слушайте образцы ниже, там очень клево. Это все либо сгенерировано AI, либо в диалоге с AI.
Направлена на создание естественных и плавных аудиосообщений. Состоит из трех основных компонентов: hertz-codec, hertz-lm и hertz-vae.
Hertz-codec — это аудиокодек, который преобразует аудио в необходимое представление, что позволяет экономить ресурсы без потери качества. Hertz-lm — языковая модель, обученная на 20 миллионах часов аудиоданных, может генерировать текстовые репрезентации звука и обладает контекстом до 4,5 минут. Модель доступна в двух версиях: с предобучением на текстовых данных и исключительно на аудиоданных.
Hertz-vae — мощная модель, которая отвечает за восстановление семантики речи с высокой точностью.
Модель полностью открытая и она никак еще не настроена на инструкции, не файнтюнена, поэтому ее можно поднастроить под ЛЮБУЮ аудиозадачу, от классификации эмоций до перевода в реальном времени.
Обещают, что задержка в 2 раза ниже всего имеющегося на рынке, на RTX 4090 - 120 мс.
Подробнее: https://si.inc/hertz-dev/
Код: https://github.com/Standard-Intelligence/hertz-dev/tree/main
Свежий выпускник YCombinator - платформа для распознавания документов и выдергивания нужных данных в твой шаблон - Midship.
Скорее всего использует какой-нибудь базовый OCR и парсер доков и потом LLM-ками добивает до нужного формата. Подробностей на сайте ОЧЕНЬ мало, но то, что на "красном" рынке распознавания с кучей конкурентов появляются новые игроки звучит интересно.
Попробовать можно тут - https://app.midship.ai/demo/
На конференции Lenny, ведущего известной рассылки и подкаста, поговорили про работу продактов в AI
https://youtu.be/IxkvVZua28k?si=9Q8o64_7qRWljfDp
Основные тезисы:
1. Адаптивность разработки под корпоративные задачи
Продукты ИИ для корпораций требуют учёта корпоративных ожиданий, таких как сроки внедрения и интеграции в существующие процессы.
2. Быстрое развитие технологий ИИ
В ИИ каждое несколько месяцев появляются новые возможности, требующие мгновенной адаптации продукта, что отличает работу с ИИ от классических продуктовых ролей.
3. Нестабильность и ошибки в работе ИИ
Поскольку точность ИИ-моделей может варьироваться, важно предусмотреть механизмы, позволяющие пользователям корректировать результаты модели.
4. Значимость оценки (evals) для ИИ
Процесс создания качественных оценок стал важной задачей для продакт-менеджеров, поскольку без правильного тестирования сложно оценить успешность модели.
5. Человеко-ориентированное взаимодействие ИИ
Продукты, где предполагается участие человека в процессе, например GitHub Copilot, полезны даже при средней точности модели, так как экономят время пользователей.
6. Комбинирование моделей для сложных задач
В OpenAI и Anthropic разрабатываются системы, в которых несколько моделей работают совместно, усиливая точность и надёжность в таких областях, как кибербезопасность.
7. Агентные задачи для долгосрочного выполнения
Модели ИИ будут способны выполнять задачи, требующие длительного времени, что позволит пользователям сосредоточиться на креативных аспектах своей работы.
8. Быстрая адаптация пользователей к ИИ
Пользователи быстро привыкают к новым возможностям, таким как голосовой перевод, который позволяет общаться, не зная языка собеседника.
9. Проактивность ИИ в будущем
В будущем ИИ будет способен предлагать идеи и задачи, анализируя, например, электронную почту, чтобы предоставлять рекомендации и обновления.
10. Развитие моделей с уникальными функциями
Для сложных задач ИИ будет способен к пошаговому анализу, при этом работая с несколькими входными данными, как это делает человек при решении головоломок.
Короче, делайте тестовые датасеты, ориентируйтесь на то, что модели будут лучше, включайте пользователя в принятие решений и уточнение работы моделей и адаптируйте продукт под новые возможности.
OpenAI продолжает упрощать жизнь разработчикам. Втихаря (по сути только в Твиттер и через партнера выложили) зарелизили predicted output.
Подробнее тут: https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputs
Если в вашем тексте или коде меняется только небольшой кусок, то должно работать в Х раз быстрее.
Пошел посмотреть, как этого добиться и добавили параметр в API - prediction. Туда можно добавить предыдущий ответ (текст или код) и в итоге генерация должна быть и дешевле, и быстрее, все токены, которые не менялись, выйдут вам практически бесплатно.
prediction: {
type: "content",
content: ХХХ
}
UPD: Проверил на своем ассистенте. В 2 раза быстрее и в 4 раза дешевле стало!
Круто, конечно!
Интересные новые эмбеддинги от Voyage AI, одновременно в себе хранят тексты, картинки и скриншоты, что позволяет добиться улучшения качество ответов на вопросы по ним.
Модель обрабатывает текст и изображения одновременно, включая скриншоты таблиц, графиков, слайдов и сложных PDF-документов. И учитывает визуальные элементы (размер шрифта, расположение текста, пробелы и т.д.), что устраняет необходимость ручного анализа структуры документа.
Превосходит OpenAI CLIP large и Cohere multimodal v3 на:
- 41,44% при поиске таблиц/графиков.
- 26,54% при поиске по скриншотам документов.
- 6,55% в задачах поиска текста по изображениям.
Эффективность в текстовых задачах выше OpenAI v3 large на 5,13%.
Единственный трансформер кодирует и текст, и визуальные данные, сохраняя их контекст.
Устойчивость к мультимодальным данным: Минимальная потеря точности при увеличении доли изображений в данных.
С помощью voyage-multimodal-3 можно:
Искать по PDF, слайдам и скриншотам без предварительной обработки.
Работать с мультимодальными базами знаний (например, документы, таблицы, фигуры и т.д.).
https://blog.voyageai.com/2024/11/12/voyage-multimodal-3/
AI Paphos Summit: Unconference - 22–23 ноября
Опубликован драфт программы - начало 22 ноября в 15:00.
Можно ознакомиться с расписанием здесь
Это первая анти-конференция (unconference) про искусственный интеллект на Кипре, на которой мы собираем более 120 практикующих специалистов ИИ, основателей стартапов, исследователей и лидеров индустрии!
Наша цель – создать на Кипре сообщество практиков в области ИИ, где профессионалы делятся реальными решениями, решают отраслевые вызовы и обмениваются знаниями о передовых технологиях, соединяющих науку и бизнес. Это отличная возможность для нетворкинга, совместных проектов и развития новых инициатив.
👥 Среди участников – эксперты из Amazon, JetBrains, Simple, Palta, Exness, Zing Coach, OpenCV.ai, Replika.ai, Intento и других ведущих компаний и стартапов в сфере ИИ.
🎤 Основные форматы Unconference:
доклады в формате Talk & Exchange с модерируемым обсуждением после выступления, круглые столы, Demo Sessions про возможности LLM и автономных агентов, Science SLAM, ревью кейсов, открытый микрофон.
👥 Партнеры и спонсоры мероприятия:
Palta, Exness, Zing Coach, Simple, INEX.
💫 Организатор: AI Future Hub – сообщество, объединяющее университеты, студентов, инвесторов и партнеров в сфере ИИ.
Мы проводим тщательный отбор участников по заявкам. Осталось 15 мест.
🔗 Ссылка для регистрации и подачи заявок.
После аппрува, вам будет выслана ссылка на оплату за участие, будет отбор заявок. Заявки на доклады закончились, регистрируйтесь как посетитель. Все подробности, цены и контакты - в указанной форме.
🗓 Даты unconference:
Пятница, 22 ноября – с 15:00 до 22:00
Суббота, 23 ноября – с 10:00 до 19:00
📍 Место проведения: Пафос, Кипр – Beon active office by INEX
Конференция является завершающим этапом AI Paphos Summit. Станьте частью первой AI Unconference на Кипре – создавайте будущее ИИ и узнайте, как использовать прорывные технологии уже сегодня! 🚀
И новые лидер в распознавании текста (в основном английский) - тюненый Whisper - CrisperWhisper
Вот что пишут:
🎯 Точные временные метки на уровне слов: Обеспечивает точные временные метки, даже при наличии неточностей и пауз, благодаря использованию скорректированного токенизатора и индивидуальной потери внимания во время обучения.
📝 Дословная транскрипция: Транскрибирует каждое произнесенное слово в точности так, как оно есть, включая и различая такие наполнители, как «эм» и «ух».
🔍 Обнаружение филлеров: Обнаруживает и точно транскрибирует заполнители.
🛡 Уменьшение галлюцинаций: Минимизирует галлюцинации при транскрипции для повышения точности.
Лежит тут
https://github.com/nyrahealth/CrisperWhisper
Ресерч тут: https://arxiv.org/abs/2408.16589
И последняя на сегодня - голосовой перевод от DeepL
https://www.deepl.com/en/products/voice
Помимо хорошего переводчика текста теперь предоставляют еще и перевод речи (на онлайн-встречах) и в офлайне в режиме диалога на 1 телефоне. Все секурно и наверное довольно хорошо, но цен нет, демок нет и все просьбы показать оканчиваются на продажниках. Видимо надо было что-то прям очень срочно показать (у них там конфа собственная была).
Ну и обновили Le Chat тоже (скопировали все, что хорошее есть у конкурентов):
- Поиск в интернете
- Холст для совместной работы, редактирования отдельных строк/абзацев
- Поддержка понимания PDF-ок, в том числе больших и с комплексной графикой
- Генерация картиночек через FLUX
- Сохранение и автоматизация повторяющихся действий (типа сканирования чеков или саммаризации встреч)
Все пока бесплатно, Подробнее тут:
https://mistral.ai/news/mistral-chat/
И Google с последней Gemini-1.5 Pro обошел 4o и даже на некоторых задачах o1, плюс занял первое место в бенчмарке задач на vision.
Gemini 1.5 Pro (0801) отлично справляется с мультиязычными задачами и демонстрирует высокую производительность в таких технических областях, как математика, сложные подсказки и написание кода.
https://lmarena.ai/
Промпт-инженеры не нужны. Пока вы спали Anthropic зарелизил prompt improver, который исправляет ваши кривые потуги написать нормальный промпт.
Теперь сами перепишут, чтобы шаг за шагом рассуждал, сконвертируют в стандартный xml, в примеры тоже рассуждения добавят, а ещё и накидают их побоьше сами. Ну и перепишут, чтобы машине ваш кривой английский был понятнее и формат выдачи предзаполнят.
На их тестах качество на 30% выросло в классификации и 100% попадание теперь в соблюдение требований по количеству слов.
Плюс можно ещё и обратную связь дать текстом, что улучшить надо.
Ну и добавили удобный интерфейс для работы с примерами и тестирования обновленных промптов.
https://www.anthropic.com/news/prompt-improver
"Ахах, AI всего лишь статистический анализатор, он не может ничего придумать".
А вот ребята из MIT думают по-другому.
В этой статье изучается влияние искусственного интеллекта на инновации, используя
рандомизированное внедрение новой технологии открытия материалов для 1018 ученых в
лаборатории НИОКР крупной американской компании. Исследователи с помощью ИИ открывают на 44% больше материалов,
что приводит к 39% увеличению числа патентных заявок и 17% росту инноваций в области последующих продуктов. Эти соединения обладают более новыми химическими структурами и приводят к более
радикальным изобретениям. Однако технология оказывает поразительно разнородное влияние на
распределение производительности: в то время как нижняя треть ученых видит мало выгоды,
результаты работы ведущих исследователей почти удваиваются. Исследуя механизмы,
лежащие в основе этих результатов, мы показываем, что ИИ автоматизирует 57% задач генерации идей, перераспределяя время
исследователей на новую задачу оценки материалов-кандидатов, созданных с помощью модели. Ведущие
ученые используют свои знания в предметной области для определения приоритетов перспективных предложений ИИ, в то время как другие тратят значительные ресурсы на тестирование ложных направлений.
https://aidantr.github.io/files/AI_innovation.pdf
И снова опенсорсный OCR (распознавание доков нужно всем :) )
https://llamaocr.com/
Пока выглядит как пет-проект, просто обертка над llama 3.2, но интерес все равно вызывает большой (даже не смотря на какой-нибудь tesseract, который тоже обновился недавно)
Видос: https://x.com/nutlope/status/1856402928086725020/mediaViewer?currentTweet=1856402928086725020&currentTweetUser=nutlope
https://habr.com/ru/articles/856436/
Llm-ки для русского. Качество растет, это радует. Но сравнения с OpenAI или Anthropic конечно они не выдержат.
На основе двух вариантов оценки мы делаем вывод, что лучшие решения для работы с русскоязычными документами - облачные платформы YandexGPT и GigaChat.
Но в ситуациях, когда необходимо использовать локальную языковую модель, стоит рассмотреть Saiga-Mistral-7b-Lora.
Модели YandexGPT и Saiga-Mistral-7b-Lora показали наилучшие результаты в большинстве задач, связанных с генерацией текста, диалогами и исправлением ошибок.
Saiga-Llama3-8b стала лучшим выбором для задач извлечения данных и анализа документов, что делает её отличным инструментом для автоматизации обработки документов.
В будущем, с развитием технологий NLP, можно ожидать появления ещё более точных и производительных языковых моделей, которые смогут решать задачи на ещё более высоком уровне.
Кроме того, возможность дообучения моделей на специализированных датасетах (как это было сделано с Saiga-Mistral-7b-Lora и Saiga-Llama3-8b) позволит адаптировать их под конкретные нужды компаний, работающих с русским языком.
Хотели заработать, - не прокатило.
Теперь ai copilot включен в подписку office, пока в нескольких странах
https://3dnews.ru/1113665/microsoft-sdelala-iifunktsii-office-chastyu-podpiski-microsoft-365
На следующей неделе будет краш-курс от Google бесплатный по GenAI: промпт-инжиниринг, эмбеддинги и векторные базы, агенты, вертикальные решения, MLOps. Понятно, что будут свои решения рекламировать, но в целом должно быть интересно и крайне полезно
https://rsvp.withgoogle.com/events/google-generative-ai-intensive
Вчера вечером рассказал про инсайты с OpenAI Dev Day сообществу фаундеров на Кипре. Презентация туть.
В принципе все это есть в канале, еще и с комментариями, а не просто фоточки, но зато можно быстро посмотреть в одном месте, чего рассказывали.
И еще со мной поделился заметками один из участников, там про дистилляцию, мультимодальность и стоимость/качество - https://docs.google.com/document/d/1diTYMr7WvqlbP-7ZZYB5maG3TTqVQMJIFdTORbhpKkQ/edit?usp=sharing
Был еще медицинский стартап, который рассказывал, как они минимизируют передачу персональных и чувствительных данных пациента. По сути они каждый набор данных очищают, анонимизируют и хэшируют, и получается работать с разными "классами" клиентов, а не данными отдельных людей, а индивидуальные особенности уже передаются через хэш. Так можно и с LLM работать безопасно, и консистентно сохранять данные о человеке при каждом запросе.
Звучит сложновато для обычного применения, но для медицинских данных такие вещи весьма востребованы.
Из забавного, они галлюцинации и ошибки моделей назвали халлуми :) HALLUcinations and MIsalignments
И соответственно стремятся на каждом эксперименте по обработке данных это число уменьшать.