А вот теперь очень крутая новость от OpenAI.
Они дали возможность жестко контролировать ответ модели, что критически важно для всяких мультиагентов и функций.
Раньше даже при галочке "выдавать JSON" ответы могли не соответствовать схеме, которую вы просили, что потом выражалось в доп-проверках, перезапросах, бекендных переделках и так далее. Теперь же можно включить strict: true в function calling на любой модели и она будет выдавать ответ только в нужном вам формате.
А если используете последнюю модельку gpt-4o-2024-08-06 или mini-версию, можно скинуть в нее json_schema, включить strict:true и ответ будет 100% (по крайней мере по их тестам) соответствовать вашей схеме данных, то есть все нужные поля будут заполнены в правильном порядке и с правильными типами. Это конечно прям Очень упрощает разработку.
Ну и прикольно, что появилось новое свойство refusal, которое передается, если модель отказывается ответить (опять же раньше приходилось детектить на бекенде). Ну и соответственно они обновили свои SDK на Python и Node, чтобы все это поддерживать.
Из прикольных юзкейсов:
- создание UI динамически, в соответствии с шаблонами вашими
- выделение размышлений и собственно ответа (привели пример со сравнением 9.9 и 9.11, хах)
- извлечение структурированных данных из неструктурированных
Добились хорошей работы 2 способами: LLM перетренировали, а потом добили всякими проверками внутри, довольно интересными, они по каждой схеме пишут набор языковых правил - context-free grammar (CFG), типа в начале JSON должны быть "{", потом перенос строки и слово "type", потом один из типов, перенос строки, значение из таких-то пределов и так далее. В итоге после каждого токена модель показывают, какие могут быть следующие, чтобы она не пыталась фантазировать.
Звучит прям очень технологично и круто. В итоге добились по их тестам 100% валидного ответа.
Единственное, первый запрос с новой схемой может занимать от 10 секунд и даже ближе к минуте, но потом они кэшируют схему и последующие с этой же схемой идут быстро.
Подробнее здесь: https://platform.openai.com/docs/guides/structured-outputs
Ну и на закуску, новая модель gpt-4o-2024-08-06 стоит в 2 раза меньше на вход и на треть меньше на выход.
Вместо $5/$15 - $2.5/$10.
Еще и на выход стало 16К токенов вместо 4К
Вау!
Google подсчитал, как и для каких вредных целей используют GenAI всякие ужасные люди.
Сделали прям руководство для хакеров. Узнал много новых английских слов (sockpuppeting, вау). Вот, что определили из всех обзоров и статей, что были в интернете на момент начала лета:
Scam & Fraud (Мошенничество и обман)
1. Celebrity scam ads (Рекламные мошенничества с участием знаменитостей)
- Имитация знаменитостей для продвижения мошеннических инвестиционных схем
2. Forgery (Подделка)
- Подделка документов для обхода проверки личности
3. Phishing scam (Фишинг-мошенничество)
- Создание контента для массовых фишинг-атак (например, компрометация деловой переписки (BEC))
- Имитация товарных знаков организаций для повышения легитимности фишинга
4. Sockpuppeting (Создание фальшивых персон)
- Создание фальшивых личностей для проведения романтических мошенничеств в массовом порядке
- Имитация доверенных лиц (например, любимых в беде или старших коллег) для кражи средств
5. Sextortion (Шантаж с использованием интимных материалов)
- Генерация NCII (неконсенсуального интимного изображения) из фотографий в соцсетях для шантажа
- Имитация властей для вымогательства
6. Information theft (Кража информации)
- Имитация публичных фигур для получения привилегированной информации
7. Malware (Вредоносное ПО)
- Создание копий веб-сайтов для обмана пользователей и загрузки вредоносного ПО
- Создание фальшивых обучающих видео для побуждения людей загрузить вредоносное ПО
Opinion Manipulation (Манипуляция мнением)
1. Astroturfing (Создание иллюзии массовой поддержки)
- Создание впечатления массовой поддержки или противодействия какому-либо делу
- Создание впечатления популярности продукта в массовом порядке
2. Defamation (Клевета)
- Изменение внешности политиков, чтобы они выглядели старше
- Имитация политиков или диссидентов, делающих оскорбительные заявления
- Генерация медиа с политиками в компрометирующих ситуациях
3. Digital resurrection (Цифровое воскрешение)
- Имитация погибших жертв для поддержки какого-либо дела (например, реформы оружия)
4. Disinformation (Дезинформация)
- Имитация политиков, ложно поддерживающих определенные политические позиции или заявляющих о победе на выборах
- Генерация ложных изображений эмоционально заряженных и политически разделяющих вопросов
- Изменение внешности диссидентов или протестующих
- Генерация изображений или историй о фальшивых кризисных событиях
5. Political outreach (Политическая агитация)
- Создание персонализированных голосовых сообщений от имени кандидатов
- Генерация голосовых сообщений для агитации избирателей на их родном языке
6. Image cultivation (Создание имиджа)
- Генерация медиа, создающих положительное впечатление о публичной личности
7. Voter suppression (Подавление избирателей)
- Имитация политиков, дающих ложную информацию о выборах
8. News hijacking (Угон новостей)
- Прерывание новостных передач для показа медиа, сгенерированных ИИ
Monetization & Profit (Монетизация и прибыль)
1. Botnet (Ботнет)
- Управление ботнетами для выполнения действий по генерации дохода
2. Content farming (Ферма контента)
- Генерация большого объема фальшивых статей для оптимизации доходов от рекламы
- Массовое имитирование или переработка существующего оригинального контента путем добавления текста и озвучки
3. Deepfake commodification (Коммодификация дипфейков)
- Генерация сексуально откровенных дипфейков знаменитостей для продажи
- Создание и продажа чат-ботов, имитирующих политиков для ответов на вопросы, связанные с выборами
4. Plagiarism (Плагиат)
- Плагиат оригинального контента для монетизации
5. Shirking (Уклонение)
- Создание фальшивых документов (например, юридических заявлений) для автоматизации своей работы
- Создание фальшивых персон для написания отзывов о продуктах
6. Undressing services (Услуги по раздеванию)
- Генерация NCII (неконсенсуального интимного изображения) людей как платная услуга
Cyberattacks (Кибератаки)
<= Продолжение в комменте =>
Разработческая конференция DevDay от OpenAI:
1 октября в Сан-Франциско
30 октября в Лондоне
21 ноября а Сингапуре
Пишут, что про gpt-5 не будет ничего, но новинки и интересное покажут.
Ну и будет куча воркшопов, сессий, демок, разработческих проектов и нетворкинга.
Будет "лотерея", как обычно, за билеты в 450 евро. Подал заявку на Лондон, он ближе, посмотрим...
На Google I/O и Apple WWDC в свое время удавалось попасть.
https://openai.com/devday/
Воу, какая-то незнакомая новая моделька от Гугла обошла всех в LLM Arena даже с учетом доверительного интервала.
OpenAI щимят со всех сторон
https://arena.lmsys.org/
О, офигенный тест пригодности LLM к RAG. Результаты весьма удивительные, я как-то привык по умолчанию GPT-4o использовать.
На первом месте для короткого контекста (до 5000 токенов, несколько кусочков из базы знаний) - Claude Sonnet 3.5, из опенсорса Meta LLama-3-70b Instruct.
Для среднего контекста (5000-25000 токенов, 20 кусочков, например, или весь документ) - Gemini-1.5 Flash (вау), из опенсорса - qwen2-72b-instruct
Для контекста больше 40000 токенов (несколько документов полностью) - Claude 3.5 Sonnet. Опенсорса с таким контекстом хорошего нет.
В аттаче выводы и сравнение Sonnet VS GPT-4o.
В общем, надо переключаться на Claude или Gemini Flash для всяких саппорт-ботов.
https://www.rungalileo.io/hallucinationindex
А вот классный новый апскейлер, поднимает разрешение в 8 раз (я помню из полезного - увеличивал разрешение портрета спикера для презентации, а чаще всего ребенку картинки для распечатки нужны)
https://huggingface.co/spaces/gokaygokay/AuraSR-v2
Видосы с AIDEA meetup
Дизайн ретроспектив с ИИ и как ИИ помогает развитию людей и команд - https://youtu.be/ZaMbPtNGvsw
Транскрипция встреч, плюсы-минусы-подводные камни - https://youtu.be/bbb7xJG3HRU
Анализ транскриптов ради улучшения эффективности команд и “чтобы держать руку на пульсе” - https://youtu.be/ee8LXIhIlIs
В каких местах ИИ может помочь повысить эффективность процессов - https://www.youtube.com/watch?v=u-Tw103j93I
Вау. Meta (запрещенная в России) выложили Segment Anything Model 2
Это из Computer Vision, выделение объектов на фото, а теперь и в видео.
Выделил объект на картинке и он находит его в последующих изображениях/кадрах.
Может практически любой объект отследить, даже который в обучающей выборке не был. А раньше надо было тысячи картиночек модели показать, например, паспорта, чтобы нормально границы определял.
В итоге:
- Превосходит все, что было на текущий момент, на 17 бенчмарках
- Быстрее в 6 раз, чем прыдыдущая версия, на норм видюхе в режиме реального времени работает
- Под лицензией Apache 2.0, так что можно использовать где угодно.
Еще и огромный датасет размеченных картинок SA-V выложили.
Скачать модель можно отсюда - https://github.com/facebookresearch/segment-anything-2
Статью почитать здесь - https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/
Потыкать демо тут - https://sam2.metademolab.com/
А вот "лендинг" этой модельки - https://ai.meta.com/SAM2/
Интересный проект от гугла для опенсорс проектов - Oscar
Автоматизирует рутинные задачи по поддержке проектов, особенно больших:
- Анализ и сортировка отчетов: Oscar использует большие языковые модели (LLM) для анализа текста отчетов об ошибках и предложений. Это позволяет автоматически определять дублирующиеся или схожие проблемы и направлять их к соответствующей документации или предыдущим обсуждениям.
- Предоставление контекста: Агенты Oscar индексируют всю доступную информацию о проекте, включая документацию, вопросы и ответы, отчеты об ошибках. Это помогает мейнтейнерам и пользователям быстро находить необходимую информацию.
- Интерактивное взаимодействие: Oscar может взаимодействовать с пользователями в реальном времени, помогая уточнять детали отчетов и предложений, что особенно полезно, когда необходимо быстрое решение проблемы.
- Управление инструментами: Агенты могут использовать естественный язык для управления инструментами, такими как добавление меток или комментариев к вопросам на GitHub.
https://go.googlesource.com/oscar/+/refs/heads/master/README.md
Скоро в Chrome будет встроена локальная LLM Gemini Nano.
На 127 Dev версии уже можно протестировать с несколькими включенными бета-флагами.
Любой вебсайт сможет ее вызывать для локальной генерации. Это круто, конечно. Для множества задач не нужно гонять запросы к серверу.
https://huggingface.co/spaces/Xenova/experimental-built-in-ai-chat
Подробнее тут можно почитать https://developer.chrome.com/docs/ai/built-in
Nvidia запустила свои облака для корпоративных файнтюнинговых моделей. Можно с их эспертизой и оптимизацией под железо обучить кастомные штуки в разы быстрее и с большей скоростью ответа. В принципе, охотно верю.
Вот такие плюшки еще дает
- NeMo Curator - это библиотека для обработки данных с GPU-ускорением, которая повышает производительность генеративных моделей ИИ за счет подготовки больших высококачественных наборов данных для предварительного обучения и тонкой настройки.
NeMo Customizer - высокопроизводительный, масштабируемый микросервис, упрощающий тонкую настройку и алайнмент LLM для специфических случаев использования.
NeMo Evaluator обеспечивает автоматическую оценку генеративных моделей ИИ на академических и пользовательских эталонах в любом ускоренном облаке или центре обработки данных.
NeMo Guardrails организует управление диалогами, поддерживая точность, уместность и безопасность в интеллектуальных приложениях с большими языковыми моделями, чтобы обеспечить защиту приложений генеративного ИИ.
https://blogs.nvidia.com/blog/ai-foundry-enterprise-generative-ai/
Ухтышка, Google добавил поддержку Markdown в Google Docs.
Надо активировать в Tools -> Preferences -> Enable Markdown
Тогда сможете вставить с конвертацией из Markdown и экспортировать в markdown. Что существенно упрощает работу с LLM-ками.
Преобразовал вот это вот в нормальное форматирование (см аттач)
# Заголовок 1
## Заголовок 2
### Заголовок 3
#### Заголовок 4
##### Заголовок 5
###### Заголовок 6
---
Жирный текст
*Курсивный текст*
*Жирный и курсивный текст*Зачёркнутый текст
> Цитата: "Markdown — это легкий язык разметки, с помощью которого можно писать текст, который легко читается и преобразуется в HTML."
- Список
- Вложенный элемент списка
- Ещё один вложенный элемент
1. Нумерованный список
2. Ещё один пункт
1. Вложенный нумерованный список
2. Вложенный пункт
[Ссылка на Google](https://www.google.com)
![Альтернативный текст изображения](https://www.example.com/image.jpg)Код в строке
Вот тут подробнее: https://workspaceupdates.googleblog.com/2024/07/import-and-export-markdown-in-google-docs.html?m=1
Эх, в Телеграме бы еще
Вышла наконец гигантская llama3 и улучшенные модели на 70 и 8B параметров
https://ai.meta.com/blog/meta-llama-3-1/
128к токенов контекст
Мультиязычные
Сильные, на уровне около gpt4o и Claude Sonnet.
Доступны от 25 партнёров
Вместе с дополнительными инструментами защиты.
Ну, круто конечно. Facebook продолжает делать гигантскую работу и двигать опенсорс. Обучение такой модели - это сотня миллионов долларов, а возможности файнтюна практически безграничные.
Очень интересный отчет от Andreessen Horrowitz про голосовой AI с точки зрения инвестора.
В последнее время люди стали ненавидеть голосовые звонки (как компании, так и пользователи), но часто это единственный "интерфейс" для взаимодействия для разных бизнесов или специалистов. А тут AI подкрался незаметно.
В итоге для компания голосовой AI - это: экономия времени и денег, возможность перераспределить ресурсы на более ценные участки, возможность более стабильно и качественно обслуживать.
Для потребителей - доступ к услугам "человеческого уровня" без необходимости платить или "встречаться" с реальным человеком. В первую очередь терапевтов, коучей и помощников.
Технология включает много компонентов, от понимания речи до анализа эмоций, так что приходится либо самому собирать из готовых технологий и допиливать, либо фулстек решения использовать, типа Retell, Vapi, Bland.
В B2B видят возможности в вертикальных решениях, построить что-то для всех очень тяжело, а с нужной экспертизой можно хоть сотню разных решений для разных отраслей и юзкейсов сделать и всем хватит места.
В итоге для B2B хорошо бы:
1) Вести LLM-кой диалог, но чтобы человек мог подключиться и помочь в сложной ситуации
2) Файнтюн делать для отрасли или даже отдельной компании, потому что специфики много
3) Понимать в предметной области, а не иметь степень в AI
4) Ориентироваться на нужные интеграции с первого дня
5) Ориентироваться на энтерпрайз или быстрое расширение от маленьких команд к большим, а не на SMB.
В B2C надеятся, что AI заменит психологов, ассистентов и коучей, но в целом что впереди "что-то волшебное", типа настоящей человечности (?).
С B2C сложнее, потому что все уже задолбались общаться с плохими агентами, ну и компании тоже вложились нехило в предыдущего поколения технологии, что-то новое должно быть совсем вау. Что важно:
1. Голос должен быть основным каналом взаимодействия с продуктом
2. Продукт должен доказать, что голос в реальном времени прям так необходим и лучше, чем текст (например, тренировки, помощь в реальном времени)
3. Не копируют человеческое общение, а делают иначе, с учетом специфики AI
4. Соревноваться с общими моделями тяжело, поэтому важен файнтюн или какие-то специализированные голосовые улучшения внутри вашего продукта
На слайдах очень много примеров, кто что делает. Ну и если вы что-то подобное делаете - пишите omoore@a16z.com или anish@a16z.com
Подробнее: https://a16z.com/ai-voice-agents/
1. Target identification (Идентификация целей)
- Автоматизация исследования и идентификации ценных целей и их уязвимостей
2. Resource development (Разработка ресурсов)
- Помощь в кодировании для выполнения и автоматизации задач, связанных с кибератаками (например, разработка целевого вредоносного ПО)
Harassment (Домогательства)
1. Bullying (Травля)
- Генерация NCII частных лиц или публичных фигур (например, журналистов) для травли или замалчивания
2. Defamation (Клевета)
- Генерация аудио и видеоклипов с знаменитостями и частными лицами, делающими оскорбительные или расистские заявления
3. Doxxing (Докксинг)
- Генерация аудиоклипов с контентмейкерами, читающими свои адреса вслух
Reach (Охват)
1. Plagiarism (Плагиат)
- Плагиат контента веб-сайтов конкурентов для максимизации охвата
2. Digital resurrection (Цифровое воскрешение)
- Создание фальшивых видео с умершими людьми, рассказывающими о событиях своей смерти
3. Content farming (Ферма контента)
- Генерация ложных новостных статей в массовом порядке для повышения рейтинга веб-сайта в результатах поиска
Subversion (Подрыв)
1. Anti-scraping (Противодействие сбору данных)
- Отравление учебных данных для предотвращения сбора защищенных авторским правом данных
Подробнее: https://arxiv.org/pdf/2406.13843
Да уж, что-то там явно неладно в OpenAI.
Грег Брокман, президент и кофаундер OpenAI, уходит в отпуск до конца года,
Джон Шульман, кофаундер, что много работал с доведением моделей до ума (безопасность и следование инструкциям), ушел в Anthropic, пишет, что хочет больше "руками поработать".
Ну и Питер Денг, что работал на ключевых продуктовых ролях в Facebook, Oculus, Uber, Airtable, тоже ушел недавно.
Но все довольно хорошо о компании отзываются, типа "ну вот хочется другим заняться".
https://techcrunch.com/2024/08/05/openai-co-founder-leaves-for-anthropic/
Google, кстати, за прошлую неделю еще представил ShieldGemma - LLM для определения, есть ли в промпте или в ответе запрещенный контент.
Обещают топовое качество.
Если у вас в приложении есть свободный ввод промпта и вы не хотите, чтобы кто-то там похабные анекдоты с помощью взлома OpenAI писал или гадости озвучивал, то по-хорошему надо проверять и входные и выходные значения. Самый простой вариант - Moderation API от OpenAI, но и он пропускает всякое. Так что можно посмотреть на ShieldGemma или LLamaGuard.
Анонс: https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/
Модели: https://huggingface.co/collections/google/shieldgemma-release-66a20efe3c10ef2bd5808c79
Техрепорт: https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf
Специфические LLM рулят. Ребята из Writer (команда лингвистов, которые в 2020 на LLM переключилась и уже много чего выпустила) взяла, да и выпустила топовую медицинскую LLM и финансовую LLM.
🔬 Palmyra-Med понимает клинические данные, анатомию, генетику и биомедицинские исследования
📊 Palmyra-Fin решает задачи анализа финансовых тенденций, оценки инвестиций и рисков.
🚀 Обе модели превосходят GPT-4, Claude 3.5 Sonnet и другие топ модели уровня в своих областях
🧠 Обе модели имеют 70 миллиардов параметров и контекстные окна: 8 192 для Palmyra-Med, 32 768 для Palmyra-Fin
🎯 Использовалось предварительное обучение на наборах данных по конкретным доменам, а затем SFT и RLHF (DPO)
🏥 Palmyra-Med достигла среднего значения 85,9% по медицинским эталонам > GPT-4, Med-PaLM 2
💰 Пальмира-Фин сдала экзамен CFA Level III с результатом 73%, что является первым результатом для любой модели искусственного интеллекта
🤗 Обе модели доступны на Hugging Face и непосредственно в API Writers
🔓 Разрешено частное использование, для коммерческого использования запрашивайте лицензию у Writer
Подробнее тут: https://writer.com/blog/palmyra-med-fin-models/
Модельки доступны на HuggingFace: https://huggingface.co/Writer
⚡В августе будет 2 события AIDEA, первое — митап для руководителей.
Когда: ср 14 августа, с 19:00 до ~20:30 мск, в Zoom
Для кого: для всех руководителей, но наиболее полезно будет для топов, для PM, для тех, кто отвечает за аналитику или за автоматизацию в своей компании.
Доклады и спикеры:
1️⃣ Поиск «узких горлышек» и оптимизация процессов в проектных командах с помощью ИИ.
Как мы улучшили бизнес-метрики, внедрив общение проектных менеджеров с GPT, применив post mortem и дерево текущей реальности.
Юлия Дуюнова, Head of PM @ Цех.дизайн
2️⃣ Smart BI: сокращаем время формирования аналитики для менеджмента от недель до минут с помощью ИИ.
Кейс про ИИ-инструмент для поддержки принятия решений для руководителей.
Владимир Подошвин, СТО @ Samokat.tech
💬После выступлений спикеры попробуют ответить на ваши вопросы на смежные темы (о применении ИИ в компаниях).
Ведущий: Василий Савунов из ScrumTrek, спец по GPT-анализу данных.
Приходите пообщаться онлайн, чтобы получить ответы именно на ваши вопросы!
Регистрируйтесь, чтобы получить Zoom-ссылку и напоминалки о митапе. Ссылка для регистрации ⬅
О, свежая маленькая Gemma 2
> Результаты выше, чем у GPT 3.5, Mixtral 8x7B на арене LYMSYS
> MMLU: 56.1 и MBPP: 36.6
> Превосходит предыдущую (Gemma 1 2B) более чем на 10% в тестах
> 2.6B параметров, многоязычная
> 2 триллиона токенов (обучающая выборка)
> Дистиллировано из Gemma 2 27B
> Обучено на 512 TPU v5e
Маленькие модели становятся весьма крутыми.
Видимо ее встроят в Chrome.
Понравилась фраза )
Употребление алкоголя для людей - то же самое, что повышение температуры для LLM.
А OpenAI дала модельку GPT-4o с выходом в 64К токенов вместо 4К. То есть теперь можно прям всю книжку сгенерировать за 1 проход или там полный анализ компании сделать, когда вы скинули все, что есть. Или кода на несколько классов.
Стоит на 20% дороже обычной. Работает только через API.
https://openai.com/gpt-4o-long-output/
Смотрите, какая крутяшка - AI самоуправляемый Дрифт в Тандеме!
Одна машина ведущая с живым человеком, вторая ведомая самоуправляемая. Есть GPS и обмениваются инфой по Wi-Fi, больше никаких датчиков, все на ML-модели движения машины. Выглядит очень красиво! И лишний раз доказывает, что AI точно сможет обезопасить движение, раз уже даже в скоростном спорте может двигаться синхронно.
https://www.youtube.com/watch?v=000wRshE9-U
Дали доступ к LlamaCloud, платформе для анализа документов и извлечению информации из них.
Их парсер PDF-ок раньше был весьма ничего так.
Видос с подробностями
https://youtu.be/Cwxtj2sC65A
Вау, OpenAI покушается-таки на рыночек Гугла и Перплексити - SearchGPT
Предлагают отвечать на поисковые запросы с контентом из интернета, давать ссылки на источники, позволят дальнейшие уточняющие вопросы задавать. В сотрудничестве с издателями и владельцами сайтов.
Пока прототип, но потом все лучшее войдет в chatgpt.
https://openai.com/index/searchgpt-prototype/
Пока доступно только избранным, но можно в лист ожидания встать.
Ну... Я думаю сегодня жаркий будет денек у всех поисковиков.
Mistral наносит ответный удар и выпускает Mistral Large 2, напирает на "более-менее подходящий" размер и мультиязычность (русский тоже есть)
- 123B параметров, можно на 1 связке видюх запускать и есть уже на всех основных облаках (правда быстро цены не нашел)
- 128К токенов контекст
- Поддерживает 10 мировых языков и 80 языков программирования, на уровне топовых моделей
- Хорошо следует инструкциям и поддерживает мульти-шаговость лучше, чем Llama-3 большая
- Function calling работает лучше всего, что есть
Но лицензия на веса пока только исследовательская, так что для коммерческих задач только через API.
Подробнее:
https://mistral.ai/news/mistral-large-2407/
Потыкал немножко Лламу-3 большую. Ну что ж, и правда весьма неплохая, хотя на английском однозначно отвечает лучше, чем на русском.
На Арене результатов пока нет, но скорее всего будет в топ-5.
Но прикол, что Azure и AWS выставили ценник даже немного дороже, чем GPT-4o (а IBM вообще негуманный). В итоге или идти к каким-нибудь стартапам за "подешевле", либо разворачивать самим, а это тысячи долларов в месяц.
И из того, что еще произошло за неделю, но следить за чем подробно уже не хватает никакого терпения:
1. Apple выпустила маленькую DCLM 7B - действительно открытую LLM, обученную на большом датасете, и лучше, чем Mistral 7B.
2. HuggingFace выпустила SmolLM - 135M, 360M и 1.7B, способные работать прямо в браузере; они превосходят Qwen 1.5B, Phi 1.5B и другие. Обучались всего на 650B токенах.
3. Salesforce выпустила xLAM 1.35B и 7B LLM для вызова функций вместе с набором данных для тонкой настройки в 60 тыс. инструкций. Модель 7B набрала 88,24% в BFCL и 2B - 78,94%, тоже лучшее из всего, что есть.
4. Deepseek выпустила v2 chat 0628 - лучшую открытую LLM на арене LYMSYS на данный момент - 236B модель с 21B активными параметрами (локально не запустишь). Она также неплоха в кодировании (ранг #3) и в решении сложных задач на арене (ранг #3).
А на этой неделе выйдет большая LLama 3...