Берег эту новость еще со времен отпуска.
LM Studio, моя любимая система для запуска локальных LLM, обновилась до версии 0.3!
https://lmstudio.ai/blog/lmstudio-v0.3.0
Вот какие обновления:
- Локальный чат с вашими документами! Теперь можно свои секретные рабочие документы (до 30 Мб), скрипты интервью, имейлы локально и безопасно "опрашивать", переписывать, саммаризовывать без слива всего в интернет
- Можно каждую локальную модель просить выдать валидный JSON
- Тем для UI добавили
- Автоконфигурацию в соответствии с вашим оборудованием (не надо будет руками все подбирать)
- Можно запускать как сервер, чтобы другие устройства по сети обращались. Например, завели комп с норм видюхой и дали доступ к нему коллегам.
- Папочки для чатов (как же не хватает этого в ChatGPT).
- Ну и мелочи всякие
Как обычно самый большой минус, что на Mac работает только с процессорами M1/M2/M3, с Intel лучше использовать jan.ai
Пользуйтесь!
Хорошая статья, как практически в автоматическом режиме перевести веб-сайт на 7 языков
https://inten.to/blog/how-we-used-machine-translation-to-make-our-website-speak-7-languages-and-you-can-too/
Хах, LLM Arena для русского языка
https://llmarena.ru/
GPT-4o и Claude в лидерах, но на удивление модель от Тинькова довольно высоко.
Но голосов мало, так что голосуйте интенсивнее, поможете всему русскоязычному сообществу
И вот еще понравился стартап из Ycombinator - автотест ваших голосовых агентов
https://hamming.ai/
Могут создать сотню голосовых юзкейсов для вашего теста и автоматически проанализировать поведение вашего голосового AI. Типа а если про погоду спросить? А если отвлечься? А если долго не отвечать? А если грубить? А если спрашивать по 10 раз одно и то же? Соответственно потом сможете отчет увидеть и после модификации снова проверить.
Новая LLM-ная парсилка сайтов - https://parsera.org/
Код здесь: https://github.com/raznem/parsera?tab=readme-ov-file
Можно словами описать, какие поля вам нужны, и пойдет колбасить сайт.
Со сложными скриптами не сработало, но всякие каталоги сделал хорошо и быстро.
А коллекция-то "рецептов" для кастомных gpts пополняется.
Можно взять промпт, схему API и например за 5 минут научить работать с Gmail, Notion, Salesforce, Google Drive или Jira для ваших целей.
Классно, что open-source и LLM взаимно усиливают друг друга и упрощают разработку.
https://cookbook.openai.com/topic/chatgpt
Даже vc уже пишет про обновление нейросеток :)
Кажется, у нас-таки будет олигополия на пятерых: OpenAI, Anthropic, Google, Meta и X
https://vc.ru/ai/1374842-startap-ilona-maska-xai-vypustil-beta-versii-modelei-grok-2-i-grok-2-mini
Черт... Дипфейки уже какого-то нереального качества.
https://github.com/hacksider/Deep-Live-Cam/tree/main
Хах, Agile проник и в сердца ИИ-агентов )
Команда исследователей из FPT Software AI Center представила AgileCoder — многоагентную систему на базе Scrum для генерации сложного программного обеспечения, которая превосходит такие решения, как MetaGPT и ChatDev
Используют 4 роли: менеджера проекта, скрам-мастера (вау), разработчика, старшего разработчика и тестировщика. Работают по спринтам. Результаты и проблемы предыдущих спринтов наследуются и дорабатываются в последующих спринтах, что повышает вероятность успеха конечных продуктов.
Одной из ключевых инноваций системы является Dynamic Code Graph Generator, создающий граф зависимостей кода, что помогает в планировании тестов и эффективном извлечении кода.
Обошли всякие гптишки и других агентов в HumanEVal и MBPP, а также в более комплексном тесте на создание продуктов.
Интересно, агентов тоже заставляют фичи оценивать в сторипойнтах? :)
Код: https://github.com/FSoft-AI4Code/AgileCoder?tab=readme-ov-file
Исследование: https://arxiv.org/abs/2406.11912
Байрам Аннаков, фаундер App in the Air, поделился интересной ссылкой на результаты эмуляций социологических исследований с помощью LLM.
/channel/ProductsAndStartups/915
Собрали архив из 70 опросов, проведённых в США с участием более 105 тысяч человек и 476 различных переменных. Потом использовали GPT-4, чтобы синтезировать ответы (типа, ты мужчина 40 лет, такой расы, живешь в таком городе, голосуешь за такую партию, вот тебе вводные данные по опросу, как ты ответишь на вопрос Х по шкале 1-5).
Оказалось, что предсказания модели весьма точно коррелируют с реальными результатами (коэффициент корреляции r = 0,85), а точность предсказаний была на уровне или даже выше, чем у экспертов-людей.
Более того, точность модели оставалась высокой даже для тех исследований, которые ещё не были опубликованы и не могли попасть в данные, на которых модель обучалась (коэффициент корреляции r = 0,90). Исследователи также проверили точность предсказаний модели для разных демографических групп, научных дисциплин и в рамках девяти недавних крупных исследований с дополнительными 346 экспериментальными условиями.
Хочется снова сказать "я же говорил". LLM-ки уже агрегируют по сути картины мира миллионов людей. Можно уточнить персону и "общаться" с ней как с "реальным" человеком. В том числе по вашему продукту. Естественно, данные эти должны уже быть где-то представлены, размазаны по интернету, но в любом случае первоначальный тест или избавление от совсем уж неадекватных мнений они очень даже позволят сделать.
Статья в аттаче, а поиграться с демкой можно тут - https://www.treatmenteffect.app/
Кто любит взламывать ML модели - можно на этом заработать.
Anhtropic запускает big bounty программу с наградами до $15000. Подать заявку надо до 16 августа.
https://www.anthropic.com/news/model-safety-bug-bounty
Ладно, к делам земным.
Google тоже не спит, а фигачить инновации.
Выпустили открытые DataGemma, натюненные на минимизацию галлюцинаций и которые сверяются с Google Data Commons, хранилищем проверенных данных о мире, чтобы выдавать точный ответ.
Основная идея в том, что теперь модели, прежде чем дать ответ, будут сверяться с этой базой данных. Например, если вы задаете вопрос о том, насколько увеличилось использование возобновляемых источников энергии в мире, DataGemma проверит статистику в Data Commons и даст точный ответ. Это поможет сократить количество ошибок, сделав AI более надежным инструментом для исследований, принятия решений и других задач, требующих точных данных.
Сделали 2 подхода: RIG и RAG. В первом случае сначала получаем ответ от LLM, потом валидируем его в базе, во-втором в промпт запихиваем нужный контекст из этой базы. На картинке подробнее.
В итоге стало лучше по фактической точности (но конечно не идеально все равно) и ответы больше нравятся людям, особенно из RAG.
Веса - https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643
Статья - https://docs.datacommons.org/papers/DataGemma-FullPaper.pdf
Блог - https://blog.google/technology/ai/google-datagemma-ai-llm/
Даже Андрей Карпатый, ex-Tesla AI-директор, ex-OpenAI, фигачит на чиле с AI-ассистентом.
Программирование меняется так быстро... Я пробую VS Code Cursor + Sonnet 3.5 вместо GitHub Copilot и думаю, что теперь это выигрышная комбинация. Эмпирически, за последние несколько дней большая часть моего «программирования», - это
написание текста на английском (промпт, а затем просмотр и редактирование созданного
diffs) и немного «полукодирования», когда вы пишете первый фрагмент кода, который вам нужен, возможно, немного комментируете его, чтобы LLM знал, какой план, а затем tab - tab - tab - готово. Иногда вы получаете 100 строк нового кода, который идеально подходит, что могло бы занять 10+ минут раньше.
Я до сих пор не думаю, что достаточно освоился со всеми функциями. Это немного похоже на обучение кодированию заново, но я в принципе не могу себе представить, что на данный момент вернусь к «самостоятельному» кодированию, что было единственной возможностью всего около 3 лет назад.
О, мой любимый Ideogram обновился - https://about.ideogram.ai/2.0
Генератор картиночек от экс-гугловцев, что специализируется на правдоподобном тексте. Что изменилось.
- Добавили жанры, типа Realistic, Design, 3D and Anime
- Добавили больше гибкости в размерах
- Может учитывать палитру
- Сделали iOS приложеньку
- Добавили API (8 центов за картинку)
- Добавили поиск в картиночки сообщества
- Улучшили описание картинки и "магическое" улучшение промпта
- Обещают, что лучше Flux.Pro по фотореализму, следованию промпту и генерации текста на картинке
Бесплатно можно 20 картинок сделать, подписка стоит $8 в месяц.
https://ideogram.ai/t/explore
Только я сегодня закрыл вкладку с обзором 100 самых популярных GenAI продуктов от a16z, как они прям ровнехонько сегодня зарелизили обновленную версию - https://a16z.com/100-gen-ai-apps-3/
Их выводы
1. Музыко-видео-генераторы как категория растут быстрее всего и в вебе, и в мобилке.
2. В вебе Perplexity растет как не в себе, а потом Claude, ChatGPT как всегда топчик. Из мобилы интересен рост Luiza, испаноговорящего ассистента, с 45 миллионами MAU - https://apps.apple.com/us/app/luzia-your-ai-assistant/id6472703434
3. ByteDance выпуливает AI-продукты с бешеной скоростью: образовательная платформа Gauth (#44), бот-конструктор Coze (#45) и общий помощник Doubao (#47). Doubao также впервые попал в список мобильных приложений, заняв 26-е место. Фото- и видеоредактор Hypic (#19) и ассистент Cici (#34) также являются продуктами Bytedance.
4. Растут приложения по анализу внешности (LooksMax, Umax) и советник по дейтингу Rizz
5. Discord - хорошая платформа для запуска и продвижения AI-продуктов. 10 из топ-100 - оттуда.
Microsoft снова рулит в маленьких моделях - выпустила 3 модели: Phi 3.5 mini, Mixture of Expert и модель с поддержкой зрения и контекстом в 128K токенов, все многоязычные и с MIT лицензией! MoE выигрывает у Gemini flash, Vision конкурирует с GPT4o🔥
> Mini с параметрами 3.8B, выигрывает у Llama3.1 8B и Mistral 7B и конкурирует с Mistral NeMo 12B
> Многоязычная модель и токенизатор с большим 32K словарем
> Обучен на 3,4 Т лексем
> Для обучения использовалось 512 видюх H100 в течение 10 дней
> MoE - 16x3.8B (6.6B активных - 2 эксперта) - побеждает Gemini flash
> 128K контекста, многоязычный и одинаковый токенизатор (32K слов)
> Обучался на 4,9 Т лексем
> Использовано 512 H100 в течение 23 дней
> Ph3.5 Vision - 4.2B params - побеждает GPT4o в усредненных бенчмарках
> Обучался на 500B токенах
> Использовал 256 A100 для обучения в течение 6 дней
> Специализация на TextVQA + ScienceVQA
Для локального применения вообще топ. И видимо будет встроена в Винду.
Крупняки продолжают атаковать разработку продуктов
Вот Salesforce взял, да и объединил всех доступных агентов, чтобы они свои идеи решения задачи предлагали (Aider, Moatless, Agentless, OpenDevin на разных задачах специализируются), а потом их "мета-модуль" выбирал самые лучшие решения и их уже отправлял в прод. В итоге удалось обойти по качеству решений всех индивидуальных агентов.
В общем-то ничего не ново, типичные ансамбли, а точнее стекинг, но с LLM у метода открывается второе дыхание.
Так что берите на вооружение.
Вот статья:
https://salesforce-research-dei-agents.github.io/
Понравился подход к UI для анализа данных (WaitGPT). Правда, кода нет, только статья.
WaitGPT разбивает код на отдельные операции с данными, которые представлены в виде узлов в диаграмме. Каждый узел соответствует конкретной операции, такой как фильтрация, сортировка или объединение данных. Визуальное отображение обновляется по мере выполнения кода, что позволяет пользователям в реальном времени следить за процессом и вносить изменения.
Эффективность WaitGPT была проверена в ходе исследования с участием 12 человек. Результаты показали, что инструмент значительно улучшает способность пользователей выявлять ошибки в анализе данных. 83% участников смогли успешно обнаружить и исправить ошибки с помощью WaitGPT, тогда как традиционные методы дали такой результат лишь у 50% участников. Время на выявление ошибок сократилось до 50%, что подчеркивает высокую эффективность и удобство использования инструмента.
Статья: https://arxiv.org/abs/2408.01703
В журнале Nature (что хорошо, потому что реферируемый, и плохо, потому что за доступ к статьям надо платить) вышел обзор применения LLM в получении креативных идей. И даже с GPT-3.5 (видимо пока провели, пока написали, пока попали в публикацию, прошел год) результаты значительно лучше, чем без какого-либо ИТ средства или просто с гуглением.
В пяти экспериментах мы попросили участников использовать ChatGPT (GPT-3.5) для генерирования творческих идей для решения различных повседневных и инновационных задач, включая выбор креативного подарка для подростка, изготовление игрушки, перепрофилирование неиспользуемых предметов и проектирование инновационного обеденного стола. Мы обнаружили, что использование ChatGPT повышает креативность генерируемых идей по сравнению с неиспользованием каких-либо технологий или использованием обычного веб-поиска (Google). Этот эффект сохранялся независимо от того, требовала ли проблема учета многих (или немногих) ограничений и считалась ли она требующей сопереживания.
https://www.nature.com/articles/s41562-024-01953-1
⚡Приглашаем на онлайн-митап про AI для руководителей.
Когда: ср 14 августа, с 19:00 до ~20:30 мск, в Zoom
Для кого: для всех руководителей, но наиболее полезно будет для топов и для тех, кто отвечает за аналитику или за автоматизацию в своей компании.
Доклады и спикеры:
1️⃣ Автоматизация менеджмента с AI.
Ловим проблемы в море созвонов. Как чайка-менеджерам экономить время и меньше отвлекать команды.
Асхат Уразбаев, основатель ScrumTrek
2️⃣ Smart BI: сокращаем время формирования аналитики для менеджмента от недель до минут с помощью ИИ.
Владимир Подошвин, СТО ecom.tech (ex. Samokat.tech)
💬После выступлений спикеры попробуют ответить на ваши вопросы на смежные темы (о применении ИИ в компаниях).
Ведущий: Василий Савунов из ScrumTrek, спец по GPT-анализу данных.
Записывайтесь, чтобы получить Zoom-ссылку и напоминалки о митапе. Ссылка для записи ⬅
Итак, Made by Google.
Мне презентация понравилась: и по железу, и по софту. Очень хорошая работа над ошибками и максимальное использование собственной платформы AI штуками. При этом не было этих вот традиционных анонсных "будет доступно позже в этом году, этой осенью, в 2025-м, в следующем тысячелетии..."
Вот хороший обзор собственно девайсов - https://vc.ru/tech/1388270-google-pixel
Ну а мы внимательно посмотрим на AI-возможности:
1. Gemini вместо Google Assistant. Давно пора было. Теперь может общаться мультимодально (текст, голос, картинки), спрашивать про приложение или видео на экране, интегрирован с кучей гугловых приложений, может вести постоянный диалог а-ля GPT-4 Omni, а также много чего делать локально или на собственном облачном железе и на 45 языках (подтрунили тут над Apple, что они "каким-то там 3rd party" все отсылают и только на английском работают). Демка: https://youtu.be/ixZAvDCysNw
2. Фотовозможности:
- Добавь себя на фото (сфоткай других, а потом попроси сфоткать тебя рядом и вы все будете на одном кадре, такая мультиэкспозиция с AI)
- Super Res Zoom (комбинация съемки с нескольких камер и нейросеток для увеличения разрешения), в том числе работает и после съемки, и должно и на Pixel 8 Pro доехать.
- Ночные панорамы со всякими AI улучшалками (опять проехались по айфонам, где ночные панорамы так себе)
- Pixel Studio (генератор и обработчик фоточек с GenAI на устройстве и с серверной моделью)
- Magic Editor (раньше только можно было подвигать людей и подкрасить, а теперь можно выделить часть картинки типа неба (семантическая сегментация нейросетями) и попросить сделать закат, или там травку переделать в поле одуванчиков, а еще перекадрировать (пустоты будут закрашены AI), а также добавить на картинку объекты всякие, для постинга в соцсети прям красота)
3. Персонализированный гиперлокальный прогноз погоды (скорее всего будут учитывать календарь, чтобы сказать, что зонтик надо взять)
4. Генеративное создание списков дел (ну это в каждом утюге уже)
5. Pixel Screenshots - автосоздание коллекций скриншотов и поиск по контенту с них (полезно, но редкий кейс)
6. Запись звонков и создание автозаметок с саммари и с важными делами, типа куда и во сколько сходить (делают на девайсе, на часах и телефоне, в целом крайне полезная штука). Плюс прокачали качество голоса во время звонков нейросетями.
7. Автовключение режима сна на часах (давно пора, Apple Watch до сих пор только вручную это делает)
8. Какой-то супер-точный режим трекинга пульса во время бега, которые тебе еще и рекомендаций навешает (все равно кажется отдельные трекеры получше)
9. Определяют надежно потерю пульса часами и звонят в скорую (для родителей возрастных может быть критично)
10. Активное ИИ-шумоподавление в наушниках, в 2 раза лучше предыдущего поколения (надо смотреть тесты)
11. Несколько AI фичей для слабовидящих и слабослышащих: подскажет, когда лицо в кадре; покажет и расскажет, что вокруг, можно найти текст какой-то (например, расписание нужного рейса "прочитать"), добавили 7 языков в Live Caption (субтитры) и Live Transcribe (автоперевод), в том числе русский.
Вот коллекция со всеми статьями про анонсы: https://blog.google/products/platforms-devices/made-by-google-2024-collection/
А вот эта наверное самая полезная - https://blog.google/products/pixel/google-pixel-9-pro-xl/
Гугл напомнил в рассылке, что они опустили в 3 раза цены на Gemini 1.5 Flash. Еще и Context Caching добавили (сохраняют запрос и выдачу в кэше, не надо по похожим запросам гонять LLM-ку и заново гигантские промпты закидывать), что и скорость повышает, и цену роняет еще в 4 раза.
Теперь стоит в 2 раза дешевле GPT-4o mini, а с кэшем может быть и в 3-5 раз дешевле. Единственное, что модель средняя, на 15 месте в Арене (а Pro, напомню, сейчас на 1!)
Еще сделали поддержку 100 языков. Понимание PDF-ок мультимодальной сеткой. Возможность тюнить модели. И дали доступ к AI Studio всем владельцам платных аккаунтов.
Вот здесь детальнее: https://developers.googleblog.com/en/gemini-15-flash-updates-google-ai-studio-gemini-api/
AI-помощник в супермаркете в Лондоне.
Выглядит криповато слегка, но в целом полезная штука, особенно в строительном каком-нибудь гипермаркете
Китайцы не дремлют.
Qwen выпустил Qwen2-Math - модели на 1.5B, 7B и 72B параметров, побеждают GPT4o, Claude 3.5 на математических тестах 🔥
- 84 балла (72B), 75 (7B), 69.4 (1.5B) на MATH датасетах
- 72B лучшая в мире в олимпиадных задачах, математических тестах колледжей, MMLU STEM
- Выпущены базовая и учебная модели
- Лицензия Apache 2.0 для 1.5B и 7B, 72B выпущен под лицензией Qianwen
Веса тут: https://huggingface.co/collections/Qwen/qwen2-math-66b4c9e072eda65b5ec7534d
Подробнее: https://qwenlm.github.io/blog/qwen2-math/
Mistral упростил файн-тюнинг и донастройку моделей на своем сайте
https://www.youtube.com/watch?v=ctZbvA9tcOA
Подробнее: https://docs.mistral.ai/capabilities/finetuning/
И выложил в альфу агентов - мини-версию GPTS, пока без доступа к источникам дополнительным или функциям, просто промптом и примерами улучшаешь работу и потом можешь им делиться.
https://youtu.be/CKsBqy3yTDw
Подробнее: https://docs.mistral.ai/capabilities/agents/
Свежее исследование разработчиков от StackOverflow. Интересна, конечно же, секция AI
https://survey.stackoverflow.co/2024/ai/
- 62% разработчиков используют AI тулы и еще 13% планируют
- 72% положительно относятся (раньше было 77%)
- 81% согласны, что AI увеличивает продуктивность, 63%, что ускоряет обучение, 59% что эффективность работы повышает (что бы это ни значило)
- 43% доверяют работе AI тулов, 31% - не доверяют
- Большинство думает, что со сложными задачами пока так себе справляется
- Большинство использует для написания кода и поиска ответов на вопросы, а также дебаггинга (аттач 1)
- Большинство считает, что AI еще глубже будет интегрирован в инструменты разработки, особенно для написания документации, написания и тестирования кода
- 70% профессионалов не считают AI угрозой для себя (!)
- Неправильная информация и неправильные ссылки на источники - проблема для большинства (аттач 2)
- Пока основные проблемы: недостаток доверия ответам и недостаток информации о проекте/кодовой базе