Доклад от Klarna, как они пишут промпты и создают агентов прям массово (Klarna реально поувольнял тонну народа и заменил AI), но доклад был довольно слабый.
Основное - заручаются помощью команды разработки, отвечающей за функциональность в продукте (а то это частая история, дата-сайнтисты чего-то там разработали, а оно лежит на полке, потому что команда продуктовая, куда это внедряется, пилит свои фичи), смотрят в логи и на реальных видеозаписях, как сейчас происходит, потом пишут тесты, как работает и как в идеале должно и оптимизируют промпты, чтобы поднимать метрики. Цикл примерно 3 месяца занимает
Маленькие партнерские доклады.
Text-to-SQL для данных из разных источников.
Это когда вам надо собрать например табличку из эксельки, потом данные из имейлов и все это связать и позволить "спрашивать" на естественном языке.
Очень пригодится в текущей BI компании.
Они по сути данные из ВСЕХ источников приводят в табличный вид с понятными AI названиями колонок и схемой данных и хранят это в памяти во временной SQL-базе. Далее просят пошагово описать LLM-ку, как сделать нужный запрос в ответ на запрос клиента, и собственно выдать сам SQL-запрос. Вызывают его и возвращают результат. Это позволяет работать с разными данными одинаковым способом. Так как LLM-ки медленные, все операции по переводу данных во временную базу успевают пройти и они могут расширять этот подход на все последующие интеграции.
В общем, полезно, если вам надо данные анализировать и они все в разном виде к вам приходят.
Всё, улетаю домой. Ещё несколько мелких партнерских докладов не рассказал, уже с Кипра тогда. Зато вот вам фоточка с Биг Беном :)
Читать полностью…Сессия про мультимодальность с Real-time API. Что работает сумасшедше быстро, очень лёгкое в реализации апи, но дорого, да. Новые оптимизации и кэширование, что сегодня анонсировали, примерно на 30% снизят цены, но это все равно примерно $7 за час работы. Понятно, что будет дешевле и дешевле. В целом объединять голос и текст в одном продукте станет прям мейнстримом скоро, чем раньше попробуете и настроите UI - тем лучше.
Читать полностью…Доклад про дистилляцию моделей. Когда результаты большой используются для файнтюна маленькой. Что делает процесс в 50 раз дешевле и быстрее.
Автоматизировали множество процессов, так что можно сохранять результаты в вебе, а потом использовать для оценки и оптимизации практически в автоматическом режиме (тюнинг занимает 15 минут-4 часа). Достаточно 1000 хороших примеров, чтобы работало хорошо. Главное, задачи чтоб были узконаправленные и без большой вариативности.
Считают, что наступает время оптимизированные моделей, которых у каждой компании будет десяток.
Возможность задать вопрос Сэму Альтману. Спросил про образование детей (чему учиться-то, если все будет делать AI). Если хотите что-то спросить - пишите в комментах (на английском)
Читать полностью…Сессия про structured output.
Рассказывали, как добились 100% соблюдения json схемы, в том числе для сложных, вложенных структур. И для построения UI, который может быть ещё более развесистый. Довольно сложная задача, подразумевающую и маскирование токенов, чтобы модель точно выбирали токены, соответствующие формату, и множество оптимизаций, чтобы это работало сумасшедше быстро. Показали на примере вытаскивания нужных полей из резюме и копайлота, который с ними работает текстом, типа "покажи только живущих в Англии" или "отсортируй по опыту и отправь приглашение персональное первым трем". Если строите агентов - structured output - маст-хев
Взял у мобильщиков.
SensorTower выпустили отчет о росте AI-приложений:
1. Выручка AI-приложений выросла на 51% в 2024 г. по сравнению с 2023 г.
2. Среднее время использования AI-чатов с персонажами – 1,5 часа в день.
3. Основные категории роста:
• Фото/видео редакторы (Remini $5M/мес, Photoroom $4M)
• Чаты на базе ChatGPT (ChatOn $5M, Chat&Ask $2M)
• Распознавание объектов (Picturethis $12M/мес, Plantin $2M)
• AI для учебы (Brainly $1M, Question AI $0.7M)
• AI-персонажи (Poly AI $0.7M, Replika $0.6M)
• AI-музыка (Donna AI $1M, AI Song Creator $0.4M)
• Text-to-audio (Speechify $3M, Otter $0.9M)
Вот и более детальная программа. Будет AMA with Sama :)
Main Stage Sessions
10:00–Opening Session: Dive into the latest AI advancements including reasoning and Realtime API
10:45–Structured Outputs: Learn how to increase reliability with precise JSON schema adherence
11:45–Distillation: Optimize scalability by transferring intelligence from large models to smaller, cost-effective ones
13:45–Realtime API: Create natural voice interactions in applications by integrating speech and text processing
15:00–Cost & Latency: Scale AI applications by balancing accuracy, latency, and cost
16:00–Virtual AMA with Sam Altman: Hear from Sam as he answers questions live, moderated by Harry Stebbings, 20VC
Vault Stage Sessions
12:30–Parloa: Transforming Contact Centers with GPT-4o Multi-Agent Crews and Human-in-the-Loop
12:45–Dust: Unified Text-to-SQL for Datalakes, Spreadsheets, and CSVs
13:00–Cosine: Fine-Tuning a SOTA AI Developer
13:15–Klarna: Lessons Learned from Deploying & Scaling Assistants
14:45–Tortus: Clinical Safety Evaluation of LLMs
15:00–Sana AI: Architecting Multi-Talented General Agents
15:15–VEED: Insights on Scaling a Custom Text-to-Video GPT
15:30–Stainless: Designing delightful APIs and SDKs
О, выложили видосы из митапа Wrike на Кипре про QA AI
1. Про AI для тестировщиков: от написания тестов до фикса багов
https://www.youtube.com/watch?v=ZIZCx_bDpIQ&ab_channel=Wrike%26WrikersCommunity
2. Про поисковую систему по вашему коду и базе знаний, которую можно сделать за 1 день
https://youtu.be/EFIH0wSYtms
3. Про 40000 тестов на Selenium, которые не мешают, а помогают жить
https://youtu.be/Gz9Tvrc-330
Новый Sonnet и Haiku от Anthropic!
https://www.anthropic.com/news/3-5-models-and-computer-use
Claude 3.5 Sonnet сильно прокачали по всем фронтам, особенно в кодинге (где дальше o1 обошли). А маленький Claude 3.5 Haiku теперь на уровне прошлой большой модели, в том числе в кодинге и размышлениях, при этом стоит копейки.
Плюс сделали фичу Computer Use - https://www.anthropic.com/news/developing-computer-use
Теперь можно попросить модель "использовать компьютер за вас": двигать мышкой, кликать, вводить. Пока только для разработчиков и работает нестабильно, но выглядит круто. RPA-провайдеры нервно закурили
Смотрите крутой видос - https://youtu.be/ODaHJzOyVCQ
Мне-таки дали визу в Великобританию (как обычно у UK, практически в последний момент), так что попадаю на OpenAI Dev Day 30 октября. Буду постить (если разрешат), все, что будет интересное.
Сейчас вот прислали список партнерских сессий (полная программа все еще недоступа):
Parloa: Maik Hummel, Principal AI Evangelist
Building agents with OpenAI o1 and GPT-4o for automation, quality assurance, and human-in-the-loop solutions.
VEED: Sabba Keynejad, CEO and Co-Founder
Increasing text-to-video capabilities to democratize video creation from any medium.
Sana AI: Gerald Parloiu, AI Lead and Viktor Qvarfordt, Head of Engineering
Architecting RAG for enterprise-scale data retrieval and processing while optimizing performance through rigorous evals.
Tortus: Nina Montaña Brown, Research Engineer and Sal Khalil, Founding Engineer
Evaluating LLMs by developing an in-house data labeling platform and production monitoring systems for real-time safety assurance.
Cosine: Alistair Pullen, CEO and Co-Founder
Fine-tuning a SOTA AI developer powered by GPT-4o with insights into the model training process, data quality, and evals.
Klarna: Echo Zhao, Lead AI Engineer
Scaling prompt engineering for enterprise use cases using leading LLM application development principles.
Stainless: Robert Craigie, Software Engineer
Building APIs and SDKs from OpenAI, Stripe, and Twilio, and exploring future possibilities with new interfaces and modalities.
Meta выпустила интересное исследование про "рассуждающие LLM" - Thinking LLMs: General Instruction Following with Thought Generation"
Исследуют новый метод тренировки, позволяющий генерировать "мысли" перед ответом - TPO (Thought Preference Optimization), что-то среднее между chain-of-though и мультиагентами. Мысли в итоге скрыты от пользователя.
Принцип работы:
- Модель генерирует идеи до того, как выдаст финальный ответ.
- Генерируются несколько мыслей и ответов, после чего модель-судья оценивает, какие ответы лучше.
- Модель обучается на основе предпочтений, выбирая наилучший и худший ответ, чтобы оптимизировать свои внутренние процессы.
Результаты:
Модели, обученные по TPO, показали улучшение не только в задачах, требующих рассуждений, но и в более креативных сферах, таких как маркетинг и написание текстов.
На тестах AlpacaEval и Arena-Hard такие модели демонстрировали лучшую производительность, достигая 52,5% успешных решений.
Статья тут - https://arxiv.org/abs/2410.10630
Sequoia выпустила интересный обзор новых возможностей для стартапов в связи с выходом o1, "рассуждающей модели", и LLM нового типа в целом
https://www.sequoiacap.com/article/generative-ais-act-o1/
Вот что для стартапов полезного пишут:
Большие игроки, такие как OpenAI, Google и Meta, заняли прочные позиции на уровне моделей и инфраструктуры. Конкурировать на этом уровне для стартапов сложно, но возможности есть на других уровнях.
Приложения — ключевая возможность для стартапов. Несмотря на мощь моделей и инфраструктуры крупных компаний, они не успевают внедрять ИИ на уровне конечных продуктов. Здесь появляются стартапы, которые могут создавать более специфичные и удобные решения для реальных задач. В прошлом приложения казались просто «обертками» для моделей, но теперь они развиваются в полноценные когнитивные архитектуры.
Фокус на агентные приложения. Новая волна стартапов нацелена на разработку приложений, которые не просто предоставляют интерфейс к ИИ, а выполняют конкретные задачи. Такие агентные приложения, как Harvey (ИИ-юрист) или XBOW (ИИ-пентестер), превращают трудозатратные процессы в автоматизированные решения.
Новая бизнес-модель — продажа результата (не software-as-a-service, а service-as-a-software, а это триллионный рынок!). Если раньше компании продавали ПО по подписке, то стартапы с агентными ИИ-приложениями могут продавать не ПО, а результат выполнения задач (например, оплата за решение запроса клиента, как у Sierra).
Таким образом, для стартапов сейчас открыты значительные возможности на уровне приложений и решений для реального мира, в отличие от работы на уровне базовых моделей или инфраструктуры, где доминируют большие компании.
Далее Cosine про улучшение AI-ассистента разработчика. Понравился подход тоже.
Данных о том, как разработчики решают задачи, очень мало. В основном просто код. Ну и понятно, что они и собирает трейсы с пользователей, но пока все равно мало. В итоге подход основан на синтетике: мы берем мощную o1 и даем ей задачу генерировать "советы" для решений, сгенерированных более слабой моделью, не ответы, а советы, типа "обрати внимание, что ты такие классы не поменял", в итоге получаем последовательность улучшений, которые в итоге и используют для файнтюнинга. То есть оптимизации идут не финального решения, а каждого шага рассуждения. Уверяют, что добились state-of-the-art в нескольких разработческих бенчмарках при приемлемой скорости ответа.
Итак, продолжаю про OpenAI Dev Day:
Довольно важная сессия про улучшение точности и уменьшение задержки и стоимости.
Активно настаивают на eval-driven development. Создаёте датасет для тестирования и далее улучшаете промпты, добавляете RAG, занимаетесь файнтюнингом, чтобы получать лучшие оценки качества на вашем датасете. Все механизмы уже есть в OpenAI, можно сохранять ответы, можно собирать в батч, можно тестировать разные модели и промпты, можно использовать ответы большой модели для файнтюна маленькой и так далее.
Самое важное - установить параметры точности, что считать хорошей работой. Кажется, что 90-95-99%, но все фигня. Они как-то для клиента тестировали, сколько должно быть с учетом окупаемости правильного решения и ухода в минус, если например клиент вообще решил перестать быть клиентом компании и оказалось, что достаточно 81%, а люди в кол-центре там имели “точность” 75%.
Промпт-инжиниринг: скидывайте весь контекст задачи, добавляйте пару примеров (всегда хорошо работает), используйте инструменты для автоматизации улучшения промпта
RAG: не всегда нужен, иногда можно просто поиском найти (например, когда слов в запросе меньше 3), ну и поиск в RAG добавляет возможность фейла, так что его тоже надо тестировать
Файн-тюн: начать с небольшого, 100-200 хороших примеров, добавить постоянный сбор обратной связи и улучшенного датасета, использовать дистилляцию ответов большой модели
В итоге потихоньку пробуя разное дойдете-таки до хороших показателей
По задержке работают сейчас над несколькими датацентрами ближе к вашим клиентам, так что 200мс задержки сигнала до США и обратно точно снизится (это кстати один из немногих анонсов конференции)
Чтобы оптимизировать время до первого токена лучше использовать более короткие промпты, маленькие модели и кэширование (а значит вариативную часть промпта перенести в конце). Ну и лучше запросы делать вечером и в выходные :)
Чтоы оптимизировать время между токенами - просить коротко отвечать, использовать короткие промпты и маленькие модели. В среднем OpenAI o1 и 4o отдают 22 токена за секунду, 4o mini - 33, 01 mini - 66.
Ну и пользуйтесь BatchAPI, позволяет в 2 раза снизить стоимость, если не нужно в риалтайм (например, на бесплатном тарифе результат через сутки выдавать)
Итого:
На чем сейчас фокусируются? Reasoning модели, будут расширять фичи.
Инструменты для не технических спецов, которые помогут прям все сделать и выложить, появятся, но займет время
Новые модели исправят все проблемы текущих. AI открывает новые возможности, и нужно просто иметь это в виду, а не сражаться с ними. Просто учитывать, что каждые полгода модели будут лучше.
Разработчики агентов создадут новую экономику и привнесут огромную ценность во множестве отраслей. Образование и здравоохранение точно изменят, а это триллионы долларов
Опенсорс полезен, но комментировать не будет.
Агент - кому можно дать большую задачу. Это не просто агент, звонящий в 1 ресторан, а который перелопатит 300 ресторанов и позвонит в десятки. Типа Smart senior co-worker.
Цена на действия AI агентов, как устанавливать? Вполне может быть почасовая ставка
Спец модели для агентов нужны? O1 норм
Новые модели нужны? Да, но если слишком много этим занимаются и делают похожие вещи.
Поддержка мультиязычности - в целом и сейчас норм, но посмотрят, что там не так, если проблемы заметны.
Какие новые технологии возникнут? Секрет openAI - как делают новые ещи, копировать уже легче. Таких компаний очень мало из-за отсутствия культуры, а значит миллионы классных спецов страдают и не реализуются. Цель - дать каждому максимальный потенциал.
Что не знал? Как расти 10х, много изменений каждый день.
Нужны талантливые люди любых возрастов
Gpt-4 была сложная в разработке, но справились
Антропик лучше? Будет много моделей, выбирайте по задаче.
Мораль в команде, как повысить? Большая цель - AGI, многих это мотивирует.
Каждый день много решений, где нет правильного ответа или 1 вариант лишь капельку лучше, в итоге приходиться доверять чутью.
Поставщики? Да, с ними сложно, но это не топ проблема.
Топ-1 - общая сложность области, баланс кучи параметров.
AI - новый интернет пузырь? Нет, это другое, просто примеры для людей лучше заходят. Электричество - тоже не очень пример. Лучше - транзистор. Огромная ценность и возможности, которые открыла технология.
Что строить стартапам? Вертикальное решение, типа тьютор по предмету или юрист.
Что невозможно пока у AI? AI, понимающий жизнь
Что удивило? Последние исследования.
OpenAI API самое классное - real-time API
Что воодушевляет? Как из технологий рождаются понятные и полезные продукты
Что улучшить в компании? Непонятна стратегия, слишком много вариантов.
Какой вопрос хотел бы чтоб задали? Да все уже задавали
Волшебная палочка и горизонт 5 лет-10 лет. Огромный прогресс в инновациях и технологиях. И уже должны подтянуться изменения в обществе.
Доклад про дистилляцию моделей. Когда результаты большой используются для файнтюна маленькой. Что делает процесс в 50 раз дешевле и быстрее.
Автоматизировали множество процессов, так что можно сохранять результаты в вебе, а потом использовать для оценки и оптимизации практически в автоматическом режиме (тюнинг занимает 15 минут-4 часа). Достаточно 1000 хороших примеров, чтобы работало хорошо. Главное, задачи чтоб были узконаправленные и без большой необходимости высокой точности.
Считают, что наступает время оптимизированные моделей, которых у каждой компании будет десяток.
И я буду рад, если будете делится инфой о "текстовом стриме" с OpenAI Dev Day с другими AI каналами.
Читать полностью…На первой сессии в основном рассказали, какая классная o1 и что она может: написать код мобильного приложения с данными о метро Лондона в реальном времени.
Так же управление дроном (использовали Cursor) и заказ голосом пирогов через real-time API.
Из анонсов внедрили кэширование голосовых запросов, что уменьшает цену для долгих разговоров. Ну и работают над тем, чтобы все остальные возможности подтянулись в o1.
Anthropic тоже запустил возможность при ответе писать и запускать код и выпустил инструмент анализа данных - https://www.anthropic.com/news/analysis-tool
Читать полностью…Кстати Voice Advanced Mode запустили-таки в ЕС. Попробовал греческий переводить в режиме реального времени, но пока такое себе... Видимо риалтаймовые библиотеки очень урезанные.
Читать полностью…Shanghai AI Lab парсила книжки и статьи для обучения своей LLM-ки и попутно сделала библиотеку распознавания PDF, включая модуль сложной разметки - DocLayout-YOLO.
Демо тут https://huggingface.co/spaces/opendatalab/DocLayout-YOLO
Код - https://github.com/opendatalab/DocLayout-YOLO
Ресерч - https://arxiv.org/abs/2410.12628
Все это в итоге завернули в полную обработку PDF - https://github.com/opendatalab/PDF-Extract-Kit
А также в отдельный парсер PDF в Markdown - https://github.com/opendatalab/MinerU
Круто, что сообщество, причем скорее всего небольшими силами, так как университет, улучшает работу распознавалок документов, которыми занимаются десятки тысяч человек.
О, JetBrains выпустила свою LLM для разработчиков, специально для code completion, - Mellum
Работает с Java, Kotlin, Python, Go, and PHP
По результатам тестов скорость на треть выше, подтверждение пользователем саджеста в 40% случаев, отказов от саджеста в 3-4 раза меньше и в 2 раза больше предложений по автодополнению, чем было раньше,
Ну и естественно это своя LLM, а значит никакой паранойи у бизнеса. Хотя никаких данных о том, что за модель, на чем тренили и тем более весов, - нет.
https://blog.jetbrains.com/blog/2024/10/22/introducing-mellum-jetbrains-new-llm-built-for-developers/
И Apple тоже показала интересный прогресс в их исследовании агентных LLM на мобилке - CAMPHOR, тюненая версия Phi-3.5
https://machinelearning.apple.com/research/collaborative-agents
В CAMPHOR используется иерархическая архитектура, в которой агент рассуждений высокого порядка декомпозирует сложные задачи и координирует работу экспертных агентов, отвечающих за поиск персонального контекста, взаимодействие с инструментами и динамическую генерацию планов. Реализовав совместное использование параметров агентами и используя сжатие оперативной информации, мы значительно сократили размер модели, время ожидания и объем используемой памяти. Эксперименты показывают, что агенты SLM, прошедшие тонкую настройку, не только превосходят закрытые LLM по скорости выполнения задачи F1 на 35 %, но и устраняют необходимость в связи с серверным устройством, повышая при этом уровень конфиденциальности.
И туда же к теме агентов - Writer (лингвисты, которые с 2020 c LLM работают, писал уже о них), теперь взялись за агентов и выпустили новую Palmyra X 004. Цель - уметь разбирать запрос на подзадачи и обращаться к корпоративным базам и софту, чтобы ее решать, то есть по сути заменить всех офисных сотрудников, хах )
Соответственно в новой модели прокачали вызов функций, RAG, цитирование и рассуждение, добавили генератор кода с деплоем, расширили контекст до 128к токенов и планируют выпустить точное соблюдение формата скоро (аналог structured output от OpenAI).
Вот чего пишут (продакты, берегитесь)
Допустим, менеджер по продукту определяет приоритетность запросов на новые функции в Zendesk на основе отзывов клиентов. Теперь Palmyra может автоматизировать этот процесс, интерпретируя запрос и решая, какие инструменты нужно использовать для ответа пользователю. Определив нужные инструменты, она может интерпретировать запрос и составить последовательность действий, которые необходимо предпринять. Затем она собирает отзывы из Zendesk, прогоняет их через инструмент определения приоритетов и создает тикет в Jira - все автоматически.
Скоро и посты за меня будет писать )
https://writer.com/blog/actions-with-palmyra-x-004/
Вау. Смотрите, чего можно с вектором делать! Поворачивать в 3d! И этих углов там нарисовано не было!
Это Project Turntable, прототип пока.
https://www.creativebloq.com/design/adobes-new-image-rotation-tool-is-one-of-the-most-impressive-ai-concepts-weve-seen