ai_product | Unsorted

Telegram-канал ai_product - AI Product | Igor Akimov

2737

Subscribe to a channel

AI Product | Igor Akimov

Доклад от Klarna, как они пишут промпты и создают агентов прям массово (Klarna реально поувольнял тонну народа и заменил AI), но доклад был довольно слабый.

Основное - заручаются помощью команды разработки, отвечающей за функциональность в продукте (а то это частая история, дата-сайнтисты чего-то там разработали, а оно лежит на полке, потому что команда продуктовая, куда это внедряется, пилит свои фичи), смотрят в логи и на реальных видеозаписях, как сейчас происходит, потом пишут тесты, как работает и как в идеале должно и оптимизируют промпты, чтобы поднимать метрики. Цикл примерно 3 месяца занимает

Читать полностью…

AI Product | Igor Akimov

Маленькие партнерские доклады.
Text-to-SQL для данных из разных источников.
Это когда вам надо собрать например табличку из эксельки, потом данные из имейлов и все это связать и позволить "спрашивать" на естественном языке.

Очень пригодится в текущей BI компании.
Они по сути данные из ВСЕХ источников приводят в табличный вид с понятными AI названиями колонок и схемой данных и хранят это в памяти во временной SQL-базе. Далее просят пошагово описать LLM-ку, как сделать нужный запрос в ответ на запрос клиента, и собственно выдать сам SQL-запрос. Вызывают его и возвращают результат. Это позволяет работать с разными данными одинаковым способом. Так как LLM-ки медленные, все операции по переводу данных во временную базу успевают пройти и они могут расширять этот подход на все последующие интеграции.
В общем, полезно, если вам надо данные анализировать и они все в разном виде к вам приходят.

Читать полностью…

AI Product | Igor Akimov

Всё, улетаю домой. Ещё несколько мелких партнерских докладов не рассказал, уже с Кипра тогда. Зато вот вам фоточка с Биг Беном :)

Читать полностью…

AI Product | Igor Akimov

Сессия про мультимодальность с Real-time API. Что работает сумасшедше быстро, очень лёгкое в реализации апи, но дорого, да. Новые оптимизации и кэширование, что сегодня анонсировали, примерно на 30% снизят цены, но это все равно примерно $7 за час работы. Понятно, что будет дешевле и дешевле. В целом объединять голос и текст в одном продукте станет прям мейнстримом скоро, чем раньше попробуете и настроите UI - тем лучше.

Читать полностью…

AI Product | Igor Akimov

Доклад про дистилляцию моделей. Когда результаты большой используются для файнтюна маленькой. Что делает процесс в 50 раз дешевле и быстрее.
Автоматизировали множество процессов, так что можно сохранять результаты в вебе, а потом использовать для оценки и оптимизации практически в автоматическом режиме (тюнинг занимает 15 минут-4 часа). Достаточно 1000 хороших примеров, чтобы работало хорошо. Главное, задачи чтоб были узконаправленные и без большой вариативности.
Считают, что наступает время оптимизированные моделей, которых у каждой компании будет десяток.

Читать полностью…

AI Product | Igor Akimov

Возможность задать вопрос Сэму Альтману. Спросил про образование детей (чему учиться-то, если все будет делать AI). Если хотите что-то спросить - пишите в комментах (на английском)

Читать полностью…

AI Product | Igor Akimov

Сессия про structured output.
Рассказывали, как добились 100% соблюдения json схемы, в том числе для сложных, вложенных структур. И для построения UI, который может быть ещё более развесистый. Довольно сложная задача, подразумевающую и маскирование токенов, чтобы модель точно выбирали токены, соответствующие формату, и множество оптимизаций, чтобы это работало сумасшедше быстро. Показали на примере вытаскивания нужных полей из резюме и копайлота, который с ними работает текстом, типа "покажи только живущих в Англии" или "отсортируй по опыту и отправь приглашение персональное первым трем". Если строите агентов - structured output - маст-хев

Читать полностью…

AI Product | Igor Akimov

Расписание здесь
https://openai.com/devday/directory/

Читать полностью…

AI Product | Igor Akimov

Взял у мобильщиков.

SensorTower выпустили отчет о росте AI-приложений:
1. Выручка AI-приложений выросла на 51% в 2024 г. по сравнению с 2023 г.
2. Среднее время использования AI-чатов с персонажами – 1,5 часа в день.
3. Основные категории роста:
• Фото/видео редакторы (Remini $5M/мес, Photoroom $4M)
• Чаты на базе ChatGPT (ChatOn $5M, Chat&Ask $2M)
• Распознавание объектов (Picturethis $12M/мес, Plantin $2M)
• AI для учебы (Brainly $1M, Question AI $0.7M)
• AI-персонажи (Poly AI $0.7M, Replika $0.6M)
• AI-музыка (Donna AI $1M, AI Song Creator $0.4M)
• Text-to-audio (Speechify $3M, Otter $0.9M)

Читать полностью…

AI Product | Igor Akimov

Вот и более детальная программа. Будет AMA with Sama :)

Main Stage Sessions
10:00–Opening Session: Dive into the latest AI advancements including reasoning and Realtime API
10:45–Structured Outputs: Learn how to increase reliability with precise JSON schema adherence
11:45–Distillation: Optimize scalability by transferring intelligence from large models to smaller, cost-effective ones
13:45–Realtime API: Create natural voice interactions in applications by integrating speech and text processing
15:00–Cost & Latency: Scale AI applications by balancing accuracy, latency, and cost
16:00–Virtual AMA with Sam Altman: Hear from Sam as he answers questions live, moderated by Harry Stebbings, 20VC

Vault Stage Sessions
12:30–Parloa: Transforming Contact Centers with GPT-4o Multi-Agent Crews and Human-in-the-Loop
12:45–Dust: Unified Text-to-SQL for Datalakes, Spreadsheets, and CSVs
13:00–Cosine: Fine-Tuning a SOTA AI Developer
13:15–Klarna: Lessons Learned from Deploying & Scaling Assistants
14:45–Tortus: Clinical Safety Evaluation of LLMs
15:00–Sana AI: Architecting Multi-Talented General Agents
15:15–VEED: Insights on Scaling a Custom Text-to-Video GPT
15:30–Stainless: Designing delightful APIs and SDKs

Читать полностью…

AI Product | Igor Akimov

О, выложили видосы из митапа Wrike на Кипре про QA AI
1. Про AI для тестировщиков: от написания тестов до фикса багов
https://www.youtube.com/watch?v=ZIZCx_bDpIQ&ab_channel=Wrike%26WrikersCommunity
2. Про поисковую систему по вашему коду и базе знаний, которую можно сделать за 1 день
https://youtu.be/EFIH0wSYtms
3. Про 40000 тестов на Selenium, которые не мешают, а помогают жить
https://youtu.be/Gz9Tvrc-330

Читать полностью…

AI Product | Igor Akimov

Новый Sonnet и Haiku от Anthropic!
https://www.anthropic.com/news/3-5-models-and-computer-use
Claude 3.5 Sonnet сильно прокачали по всем фронтам, особенно в кодинге (где дальше o1 обошли). А маленький Claude 3.5 Haiku теперь на уровне прошлой большой модели, в том числе в кодинге и размышлениях, при этом стоит копейки.

Плюс сделали фичу Computer Use - https://www.anthropic.com/news/developing-computer-use
Теперь можно попросить модель "использовать компьютер за вас": двигать мышкой, кликать, вводить. Пока только для разработчиков и работает нестабильно, но выглядит круто. RPA-провайдеры нервно закурили

Смотрите крутой видос - https://youtu.be/ODaHJzOyVCQ

Читать полностью…

AI Product | Igor Akimov

Мне-таки дали визу в Великобританию (как обычно у UK, практически в последний момент), так что попадаю на OpenAI Dev Day 30 октября. Буду постить (если разрешат), все, что будет интересное.

Сейчас вот прислали список партнерских сессий (полная программа все еще недоступа):

Parloa: Maik Hummel, Principal AI Evangelist
Building agents with OpenAI o1 and GPT-4o for automation, quality assurance, and human-in-the-loop solutions.

VEED: Sabba Keynejad, CEO and Co-Founder
Increasing text-to-video capabilities to democratize video creation from any medium.

Sana AI: Gerald Parloiu, AI Lead and Viktor Qvarfordt, Head of Engineering
Architecting RAG for enterprise-scale data retrieval and processing while optimizing performance through rigorous evals.

Tortus: Nina Montaña Brown, Research Engineer and Sal Khalil, Founding Engineer
Evaluating LLMs by developing an in-house data labeling platform and production monitoring systems for real-time safety assurance.

Cosine: Alistair Pullen, CEO and Co-Founder
Fine-tuning a SOTA AI developer powered by GPT-4o with insights into the model training process, data quality, and evals.

Klarna: Echo Zhao, Lead AI Engineer
Scaling prompt engineering for enterprise use cases using leading LLM application development principles.

Stainless: Robert Craigie, Software Engineer
Building APIs and SDKs from OpenAI, Stripe, and Twilio, and exploring future possibilities with new interfaces and modalities.

Читать полностью…

AI Product | Igor Akimov

Meta выпустила интересное исследование про "рассуждающие LLM" - Thinking LLMs: General Instruction Following with Thought Generation"
Исследуют новый метод тренировки, позволяющий генерировать "мысли" перед ответом - TPO (Thought Preference Optimization), что-то среднее между chain-of-though и мультиагентами. Мысли в итоге скрыты от пользователя.

Принцип работы:
- Модель генерирует идеи до того, как выдаст финальный ответ.
- Генерируются несколько мыслей и ответов, после чего модель-судья оценивает, какие ответы лучше.
- Модель обучается на основе предпочтений, выбирая наилучший и худший ответ, чтобы оптимизировать свои внутренние процессы.

Результаты:
Модели, обученные по TPO, показали улучшение не только в задачах, требующих рассуждений, но и в более креативных сферах, таких как маркетинг и написание текстов.
На тестах AlpacaEval и Arena-Hard такие модели демонстрировали лучшую производительность, достигая 52,5% успешных решений.

Статья тут - https://arxiv.org/abs/2410.10630

Читать полностью…

AI Product | Igor Akimov

Sequoia выпустила интересный обзор новых возможностей для стартапов в связи с выходом o1, "рассуждающей модели", и LLM нового типа в целом
https://www.sequoiacap.com/article/generative-ais-act-o1/

Вот что для стартапов полезного пишут:
Большие игроки, такие как OpenAI, Google и Meta, заняли прочные позиции на уровне моделей и инфраструктуры. Конкурировать на этом уровне для стартапов сложно, но возможности есть на других уровнях.

Приложения — ключевая возможность для стартапов. Несмотря на мощь моделей и инфраструктуры крупных компаний, они не успевают внедрять ИИ на уровне конечных продуктов. Здесь появляются стартапы, которые могут создавать более специфичные и удобные решения для реальных задач. В прошлом приложения казались просто «обертками» для моделей, но теперь они развиваются в полноценные когнитивные архитектуры.

Фокус на агентные приложения. Новая волна стартапов нацелена на разработку приложений, которые не просто предоставляют интерфейс к ИИ, а выполняют конкретные задачи. Такие агентные приложения, как Harvey (ИИ-юрист) или XBOW (ИИ-пентестер), превращают трудозатратные процессы в автоматизированные решения.

Новая бизнес-модель — продажа результата (не software-as-a-service, а service-as-a-software, а это триллионный рынок!). Если раньше компании продавали ПО по подписке, то стартапы с агентными ИИ-приложениями могут продавать не ПО, а результат выполнения задач (например, оплата за решение запроса клиента, как у Sierra).

Таким образом, для стартапов сейчас открыты значительные возможности на уровне приложений и решений для реального мира, в отличие от работы на уровне базовых моделей или инфраструктуры, где доминируют большие компании.

Читать полностью…

AI Product | Igor Akimov

Далее Cosine про улучшение AI-ассистента разработчика. Понравился подход тоже.

Данных о том, как разработчики решают задачи, очень мало. В основном просто код. Ну и понятно, что они и собирает трейсы с пользователей, но пока все равно мало. В итоге подход основан на синтетике: мы берем мощную o1 и даем ей задачу генерировать "советы" для решений, сгенерированных более слабой моделью, не ответы, а советы, типа "обрати внимание, что ты такие классы не поменял", в итоге получаем последовательность улучшений, которые в итоге и используют для файнтюнинга. То есть оптимизации идут не финального решения, а каждого шага рассуждения. Уверяют, что добились state-of-the-art в нескольких разработческих бенчмарках при приемлемой скорости ответа.

Читать полностью…

AI Product | Igor Akimov

Итак, продолжаю про OpenAI Dev Day:
Довольно важная сессия про улучшение точности и уменьшение задержки и стоимости.
Активно настаивают на eval-driven development. Создаёте датасет для тестирования и далее улучшаете промпты, добавляете RAG, занимаетесь файнтюнингом, чтобы получать лучшие оценки качества на вашем датасете. Все механизмы уже есть в OpenAI, можно сохранять ответы, можно собирать в батч, можно тестировать разные модели и промпты, можно использовать ответы большой модели для файнтюна маленькой и так далее.

Самое важное - установить параметры точности, что считать хорошей работой. Кажется, что 90-95-99%, но все фигня. Они как-то для клиента тестировали, сколько должно быть с учетом окупаемости правильного решения и ухода в минус, если например клиент вообще решил перестать быть клиентом компании и оказалось, что достаточно 81%, а люди в кол-центре там имели “точность” 75%.

Промпт-инжиниринг: скидывайте весь контекст задачи, добавляйте пару примеров (всегда хорошо работает), используйте инструменты для автоматизации улучшения промпта

RAG: не всегда нужен, иногда можно просто поиском найти (например, когда слов в запросе меньше 3), ну и поиск в RAG добавляет возможность фейла, так что его тоже надо тестировать

Файн-тюн: начать с небольшого, 100-200 хороших примеров, добавить постоянный сбор обратной связи и улучшенного датасета, использовать дистилляцию ответов большой модели

В итоге потихоньку пробуя разное дойдете-таки до хороших показателей

По задержке работают сейчас над несколькими датацентрами ближе к вашим клиентам, так что 200мс задержки сигнала до США и обратно точно снизится (это кстати один из немногих анонсов конференции)

Чтобы оптимизировать время до первого токена лучше использовать более короткие промпты, маленькие модели и кэширование (а значит вариативную часть промпта перенести в конце). Ну и лучше запросы делать вечером и в выходные :)

Чтоы оптимизировать время между токенами - просить коротко отвечать, использовать короткие промпты и маленькие модели. В среднем OpenAI o1 и 4o отдают 22 токена за секунду, 4o mini - 33, 01 mini - 66.

Ну и пользуйтесь BatchAPI, позволяет в 2 раза снизить стоимость, если не нужно в риалтайм (например, на бесплатном тарифе результат через сутки выдавать)

Читать полностью…

AI Product | Igor Akimov

Итого:

На чем сейчас фокусируются? Reasoning модели, будут расширять фичи.

Инструменты для не технических спецов, которые помогут прям все сделать и выложить, появятся, но займет время

Новые модели исправят все проблемы текущих. AI открывает новые возможности, и нужно просто иметь это в виду, а не сражаться с ними. Просто учитывать, что каждые полгода модели будут лучше.

Разработчики агентов создадут новую экономику и привнесут огромную ценность во множестве отраслей. Образование и здравоохранение точно изменят, а это триллионы долларов

Опенсорс полезен, но комментировать не будет.

Агент - кому можно дать большую задачу. Это не просто агент, звонящий в 1 ресторан, а который перелопатит 300 ресторанов и позвонит в десятки. Типа Smart senior co-worker.

Цена на действия AI агентов, как устанавливать? Вполне может быть почасовая ставка

Спец модели для агентов нужны? O1 норм

Новые модели нужны? Да, но если слишком много этим занимаются и делают похожие вещи.

Поддержка мультиязычности - в целом и сейчас норм, но посмотрят, что там не так, если проблемы заметны.

Какие новые технологии возникнут? Секрет openAI - как делают новые ещи, копировать уже легче. Таких компаний очень мало из-за отсутствия культуры, а значит миллионы классных спецов страдают и не реализуются. Цель - дать каждому максимальный потенциал.

Что не знал? Как расти 10х, много изменений каждый день.

Нужны талантливые люди любых возрастов

Gpt-4 была сложная в разработке, но справились

Антропик лучше? Будет много моделей, выбирайте по задаче.

Мораль в команде, как повысить? Большая цель - AGI, многих это мотивирует.

Каждый день много решений, где нет правильного ответа или 1 вариант лишь капельку лучше, в итоге приходиться доверять чутью.

Поставщики? Да, с ними сложно, но это не топ проблема.
Топ-1 - общая сложность области, баланс кучи параметров.

AI - новый интернет пузырь? Нет, это другое, просто примеры для людей лучше заходят. Электричество - тоже не очень пример. Лучше - транзистор. Огромная ценность и возможности, которые открыла технология.

Что строить стартапам? Вертикальное решение, типа тьютор по предмету или юрист.

Что невозможно пока у AI? AI, понимающий жизнь

Что удивило? Последние исследования.

OpenAI API самое классное - real-time API

Что воодушевляет? Как из технологий рождаются понятные и полезные продукты

Что улучшить в компании? Непонятна стратегия, слишком много вариантов.

Какой вопрос хотел бы чтоб задали? Да все уже задавали

Волшебная палочка и горизонт 5 лет-10 лет. Огромный прогресс в инновациях и технологиях. И уже должны подтянуться изменения в обществе.

Читать полностью…

AI Product | Igor Akimov

Доклад про дистилляцию моделей. Когда результаты большой используются для файнтюна маленькой. Что делает процесс в 50 раз дешевле и быстрее.
Автоматизировали множество процессов, так что можно сохранять результаты в вебе, а потом использовать для оценки и оптимизации практически в автоматическом режиме (тюнинг занимает 15 минут-4 часа). Достаточно 1000 хороших примеров, чтобы работало хорошо. Главное, задачи чтоб были узконаправленные и без большой необходимости высокой точности.
Считают, что наступает время оптимизированные моделей, которых у каждой компании будет десяток.

Читать полностью…

AI Product | Igor Akimov

И я буду рад, если будете делится инфой о "текстовом стриме" с OpenAI Dev Day с другими AI каналами.

Читать полностью…

AI Product | Igor Akimov

Те самые заказанные пироги.

Читать полностью…

AI Product | Igor Akimov

На первой сессии в основном рассказали, какая классная o1 и что она может: написать код мобильного приложения с данными о метро Лондона в реальном времени.
Так же управление дроном (использовали Cursor) и заказ голосом пирогов через real-time API.
Из анонсов внедрили кэширование голосовых запросов, что уменьшает цену для долгих разговоров. Ну и работают над тем, чтобы все остальные возможности подтянулись в o1.

Читать полностью…

AI Product | Igor Akimov

Начало через полчаса, пока все тупят и знакомятся в "кафе"

Читать полностью…

AI Product | Igor Akimov

Anthropic тоже запустил возможность при ответе писать и запускать код и выпустил инструмент анализа данных - https://www.anthropic.com/news/analysis-tool

Читать полностью…

AI Product | Igor Akimov

Кстати Voice Advanced Mode запустили-таки в ЕС. Попробовал греческий переводить в режиме реального времени, но пока такое себе... Видимо риалтаймовые библиотеки очень урезанные.

Читать полностью…

AI Product | Igor Akimov

Shanghai AI Lab парсила книжки и статьи для обучения своей LLM-ки и попутно сделала библиотеку распознавания PDF, включая модуль сложной разметки - DocLayout-YOLO.

Демо тут https://huggingface.co/spaces/opendatalab/DocLayout-YOLO
Код - https://github.com/opendatalab/DocLayout-YOLO
Ресерч - https://arxiv.org/abs/2410.12628

Все это в итоге завернули в полную обработку PDF - https://github.com/opendatalab/PDF-Extract-Kit

А также в отдельный парсер PDF в Markdown - https://github.com/opendatalab/MinerU

Круто, что сообщество, причем скорее всего небольшими силами, так как университет, улучшает работу распознавалок документов, которыми занимаются десятки тысяч человек.

Читать полностью…

AI Product | Igor Akimov

О, JetBrains выпустила свою LLM для разработчиков, специально для code completion, - Mellum
Работает с Java, Kotlin, Python, Go, and PHP

По результатам тестов скорость на треть выше, подтверждение пользователем саджеста в 40% случаев, отказов от саджеста в 3-4 раза меньше и в 2 раза больше предложений по автодополнению, чем было раньше,

Ну и естественно это своя LLM, а значит никакой паранойи у бизнеса. Хотя никаких данных о том, что за модель, на чем тренили и тем более весов, - нет.

https://blog.jetbrains.com/blog/2024/10/22/introducing-mellum-jetbrains-new-llm-built-for-developers/

Читать полностью…

AI Product | Igor Akimov

И Apple тоже показала интересный прогресс в их исследовании агентных LLM на мобилке - CAMPHOR, тюненая версия Phi-3.5

https://machinelearning.apple.com/research/collaborative-agents

В CAMPHOR используется иерархическая архитектура, в которой агент рассуждений высокого порядка декомпозирует сложные задачи и координирует работу экспертных агентов, отвечающих за поиск персонального контекста, взаимодействие с инструментами и динамическую генерацию планов. Реализовав совместное использование параметров агентами и используя сжатие оперативной информации, мы значительно сократили размер модели, время ожидания и объем используемой памяти. Эксперименты показывают, что агенты SLM, прошедшие тонкую настройку, не только превосходят закрытые LLM по скорости выполнения задачи F1 на 35 %, но и устраняют необходимость в связи с серверным устройством, повышая при этом уровень конфиденциальности.

Читать полностью…

AI Product | Igor Akimov

И туда же к теме агентов - Writer (лингвисты, которые с 2020 c LLM работают, писал уже о них), теперь взялись за агентов и выпустили новую Palmyra X 004. Цель - уметь разбирать запрос на подзадачи и обращаться к корпоративным базам и софту, чтобы ее решать, то есть по сути заменить всех офисных сотрудников, хах )

Соответственно в новой модели прокачали вызов функций, RAG, цитирование и рассуждение, добавили генератор кода с деплоем, расширили контекст до 128к токенов и планируют выпустить точное соблюдение формата скоро (аналог structured output от OpenAI).

Вот чего пишут (продакты, берегитесь)
Допустим, менеджер по продукту определяет приоритетность запросов на новые функции в Zendesk на основе отзывов клиентов. Теперь Palmyra может автоматизировать этот процесс, интерпретируя запрос и решая, какие инструменты нужно использовать для ответа пользователю. Определив нужные инструменты, она может интерпретировать запрос и составить последовательность действий, которые необходимо предпринять. Затем она собирает отзывы из Zendesk, прогоняет их через инструмент определения приоритетов и создает тикет в Jira - все автоматически.

Скоро и посты за меня будет писать )

https://writer.com/blog/actions-with-palmyra-x-004/

Читать полностью…

AI Product | Igor Akimov

Вау. Смотрите, чего можно с вектором делать! Поворачивать в 3d! И этих углов там нарисовано не было!
Это Project Turntable, прототип пока.
https://www.creativebloq.com/design/adobes-new-image-rotation-tool-is-one-of-the-most-impressive-ai-concepts-weve-seen

Читать полностью…
Subscribe to a channel