Telegram-канал ai_product - AI Product | Igor Akimov: Unsorted

AI Product | Igor Akimov

31 Oct 2024 17:55

Всё, улетаю домой. Ещё несколько мелких партнерских докладов не рассказал, уже с Кипра тогда. Зато вот вам фоточка с Биг Беном :)

Читать полностью…

AI Product | Igor Akimov

30 Oct 2024 15:48

Сессия про мультимодальность с Real-time API. Что работает сумасшедше быстро, очень лёгкое в реализации апи, но дорого, да. Новые оптимизации и кэширование, что сегодня анонсировали, примерно на 30% снизят цены, но это все равно примерно $7 за час работы. Понятно, что будет дешевле и дешевле. В целом объединять голос и текст в одном продукте станет прям мейнстримом скоро, чем раньше попробуете и настроите UI - тем лучше.

Читать полностью…

AI Product | Igor Akimov

30 Oct 2024 13:46

Доклад про дистилляцию моделей. Когда результаты большой используются для файнтюна маленькой. Что делает процесс в 50 раз дешевле и быстрее.
Автоматизировали множество процессов, так что можно сохранять результаты в вебе, а потом использовать для оценки и оптимизации практически в автоматическом режиме (тюнинг занимает 15 минут-4 часа). Достаточно 1000 хороших примеров, чтобы работало хорошо. Главное, задачи чтоб были узконаправленные и без большой вариативности.
Считают, что наступает время оптимизированные моделей, которых у каждой компании будет десяток.

Читать полностью…

AI Product | Igor Akimov

30 Oct 2024 12:58

Возможность задать вопрос Сэму Альтману. Спросил про образование детей (чему учиться-то, если все будет делать AI). Если хотите что-то спросить - пишите в комментах (на английском)

Читать полностью…

AI Product | Igor Akimov

30 Oct 2024 12:47

Сессия про structured output.
Рассказывали, как добились 100% соблюдения json схемы, в том числе для сложных, вложенных структур. И для построения UI, который может быть ещё более развесистый. Довольно сложная задача, подразумевающую и маскирование токенов, чтобы модель точно выбирали токены, соответствующие формату, и множество оптимизаций, чтобы это работало сумасшедше быстро. Показали на примере вытаскивания нужных полей из резюме и копайлота, который с ними работает текстом, типа "покажи только живущих в Англии" или "отсортируй по опыту и отправь приглашение персональное первым трем". Если строите агентов - structured output - маст-хев

Читать полностью…

AI Product | Igor Akimov

30 Oct 2024 10:32

Расписание здесь
https://openai.com/devday/directory/

Читать полностью…

AI Product | Igor Akimov

25 Oct 2024 17:03

Взял у мобильщиков.

SensorTower выпустили отчет о росте AI-приложений:
1. Выручка AI-приложений выросла на 51% в 2024 г. по сравнению с 2023 г.
2. Среднее время использования AI-чатов с персонажами – 1,5 часа в день.
3. Основные категории роста:
• Фото/видео редакторы (Remini $5M/мес, Photoroom $4M)
• Чаты на базе ChatGPT (ChatOn $5M, Chat&Ask $2M)
• Распознавание объектов (Picturethis $12M/мес, Plantin $2M)
• AI для учебы (Brainly $1M, Question AI $0.7M)
• AI-персонажи (Poly AI $0.7M, Replika $0.6M)
• AI-музыка (Donna AI $1M, AI Song Creator $0.4M)
• Text-to-audio (Speechify $3M, Otter $0.9M)

Читать полностью…

AI Product | Igor Akimov

24 Oct 2024 10:37

Вот и более детальная программа. Будет AMA with Sama :)

Main Stage Sessions
10:00–Opening Session: Dive into the latest AI advancements including reasoning and Realtime API
10:45–Structured Outputs: Learn how to increase reliability with precise JSON schema adherence
11:45–Distillation: Optimize scalability by transferring intelligence from large models to smaller, cost-effective ones
13:45–Realtime API: Create natural voice interactions in applications by integrating speech and text processing
15:00–Cost & Latency: Scale AI applications by balancing accuracy, latency, and cost
16:00–Virtual AMA with Sam Altman: Hear from Sam as he answers questions live, moderated by Harry Stebbings, 20VC

Vault Stage Sessions
12:30–Parloa: Transforming Contact Centers with GPT-4o Multi-Agent Crews and Human-in-the-Loop
12:45–Dust: Unified Text-to-SQL for Datalakes, Spreadsheets, and CSVs
13:00–Cosine: Fine-Tuning a SOTA AI Developer
13:15–Klarna: Lessons Learned from Deploying & Scaling Assistants
14:45–Tortus: Clinical Safety Evaluation of LLMs
15:00–Sana AI: Architecting Multi-Talented General Agents
15:15–VEED: Insights on Scaling a Custom Text-to-Video GPT
15:30–Stainless: Designing delightful APIs and SDKs

Читать полностью…

AI Product | Igor Akimov

23 Oct 2024 15:37

О, выложили видосы из митапа Wrike на Кипре про QA AI
1. Про AI для тестировщиков: от написания тестов до фикса багов
https://www.youtube.com/watch?v=ZIZCx_bDpIQ&ab_channel=Wrike%26WrikersCommunity
2. Про поисковую систему по вашему коду и базе знаний, которую можно сделать за 1 день
https://youtu.be/EFIH0wSYtms
3. Про 40000 тестов на Selenium, которые не мешают, а помогают жить
https://youtu.be/Gz9Tvrc-330

Читать полностью…

AI Product | Igor Akimov

22 Oct 2024 17:21

Новый Sonnet и Haiku от Anthropic!
https://www.anthropic.com/news/3-5-models-and-computer-use
Claude 3.5 Sonnet сильно прокачали по всем фронтам, особенно в кодинге (где дальше o1 обошли). А маленький Claude 3.5 Haiku теперь на уровне прошлой большой модели, в том числе в кодинге и размышлениях, при этом стоит копейки.

Плюс сделали фичу Computer Use - https://www.anthropic.com/news/developing-computer-use
Теперь можно попросить модель "использовать компьютер за вас": двигать мышкой, кликать, вводить. Пока только для разработчиков и работает нестабильно, но выглядит круто. RPA-провайдеры нервно закурили

Смотрите крутой видос - https://youtu.be/ODaHJzOyVCQ

Читать полностью…

AI Product | Igor Akimov

21 Oct 2024 11:19

Мне-таки дали визу в Великобританию (как обычно у UK, практически в последний момент), так что попадаю на OpenAI Dev Day 30 октября. Буду постить (если разрешат), все, что будет интересное.

Сейчас вот прислали список партнерских сессий (полная программа все еще недоступа):

Parloa: Maik Hummel, Principal AI Evangelist
Building agents with OpenAI o1 and GPT-4o for automation, quality assurance, and human-in-the-loop solutions.

VEED: Sabba Keynejad, CEO and Co-Founder
Increasing text-to-video capabilities to democratize video creation from any medium.

Sana AI: Gerald Parloiu, AI Lead and Viktor Qvarfordt, Head of Engineering
Architecting RAG for enterprise-scale data retrieval and processing while optimizing performance through rigorous evals.

Tortus: Nina Montaña Brown, Research Engineer and Sal Khalil, Founding Engineer
Evaluating LLMs by developing an in-house data labeling platform and production monitoring systems for real-time safety assurance.

Cosine: Alistair Pullen, CEO and Co-Founder
Fine-tuning a SOTA AI developer powered by GPT-4o with insights into the model training process, data quality, and evals.

Klarna: Echo Zhao, Lead AI Engineer
Scaling prompt engineering for enterprise use cases using leading LLM application development principles.

Stainless: Robert Craigie, Software Engineer
Building APIs and SDKs from OpenAI, Stripe, and Twilio, and exploring future possibilities with new interfaces and modalities.

Читать полностью…

AI Product | Igor Akimov

21 Oct 2024 09:20

Meta выпустила интересное исследование про "рассуждающие LLM" - Thinking LLMs: General Instruction Following with Thought Generation"
Исследуют новый метод тренировки, позволяющий генерировать "мысли" перед ответом - TPO (Thought Preference Optimization), что-то среднее между chain-of-though и мультиагентами. Мысли в итоге скрыты от пользователя.

Принцип работы:
- Модель генерирует идеи до того, как выдаст финальный ответ.
- Генерируются несколько мыслей и ответов, после чего модель-судья оценивает, какие ответы лучше.
- Модель обучается на основе предпочтений, выбирая наилучший и худший ответ, чтобы оптимизировать свои внутренние процессы.

Результаты:
Модели, обученные по TPO, показали улучшение не только в задачах, требующих рассуждений, но и в более креативных сферах, таких как маркетинг и написание текстов.
На тестах AlpacaEval и Arena-Hard такие модели демонстрировали лучшую производительность, достигая 52,5% успешных решений.

Статья тут - https://arxiv.org/abs/2410.10630

Читать полностью…

AI Product | Igor Akimov

18 Oct 2024 07:56

Sequoia выпустила интересный обзор новых возможностей для стартапов в связи с выходом o1, "рассуждающей модели", и LLM нового типа в целом
https://www.sequoiacap.com/article/generative-ais-act-o1/

Вот что для стартапов полезного пишут:
Большие игроки, такие как OpenAI, Google и Meta, заняли прочные позиции на уровне моделей и инфраструктуры. Конкурировать на этом уровне для стартапов сложно, но возможности есть на других уровнях.

Приложения — ключевая возможность для стартапов. Несмотря на мощь моделей и инфраструктуры крупных компаний, они не успевают внедрять ИИ на уровне конечных продуктов. Здесь появляются стартапы, которые могут создавать более специфичные и удобные решения для реальных задач. В прошлом приложения казались просто «обертками» для моделей, но теперь они развиваются в полноценные когнитивные архитектуры.

Фокус на агентные приложения. Новая волна стартапов нацелена на разработку приложений, которые не просто предоставляют интерфейс к ИИ, а выполняют конкретные задачи. Такие агентные приложения, как Harvey (ИИ-юрист) или XBOW (ИИ-пентестер), превращают трудозатратные процессы в автоматизированные решения.

Новая бизнес-модель — продажа результата (не software-as-a-service, а service-as-a-software, а это триллионный рынок!). Если раньше компании продавали ПО по подписке, то стартапы с агентными ИИ-приложениями могут продавать не ПО, а результат выполнения задач (например, оплата за решение запроса клиента, как у Sierra).

Таким образом, для стартапов сейчас открыты значительные возможности на уровне приложений и решений для реального мира, в отличие от работы на уровне базовых моделей или инфраструктуры, где доминируют большие компании.

Читать полностью…

AI Product | Igor Akimov

17 Oct 2024 12:52

И еще от Nvidia. Их оптимизированная Speech-to-Text модель Canary по качеству обошла и предыдущий parakeet, и whisper-large от OpenAI, при этом в 10 раз быстрее и в 4,5 раза дешевле.
Но русского все еще нет :(

Читать полностью…

AI Product | Igor Akimov

16 Oct 2024 08:30

Meta (запрещенная в России) не только модельки опенсорсные делает, но теперь и архитектуру железа для серверных стоек выводит в опенсорс
https://engineering.fb.com/2024/10/15/data-infrastructure/metas-open-ai-hardware-vision/
Говорит, что тренила Llama 3.1 405B на 16000 видюх H100, а теперь модельки тренируются на 48000 карточек
В общем, представила Catalina, архитектуру для сбора стоек с видюхами, чтобы все это было на общедоступных компонентах, с максимальной скоростью, масштабированием и охлаждением. И предлагает поучаствовать в улучшении дизайна.

А также для инференса теперь использует Grand Teton, который поддерживает карточки AMD.

Короче, показывают кукиш Nvidia и всем, кто хочет завязывать их на вендор-лок, и говорит, что вместе с MS и компьюнити хотят сделать самую открытую и стабильную архитектуру для кластеров с GPU.

Это, конечно, очень правильно. Отваливать каждый раз кучу денег монополистам с дефицитом всего, - не путь к быстрому масштабированию AI. А то там уже скорее всего продаются аналоги колесиков для десктопа за 1000 баксов.

Читать полностью…

AI Product | Igor Akimov

30 Oct 2024 18:57

Итого:

На чем сейчас фокусируются? Reasoning модели, будут расширять фичи.

Инструменты для не технических спецов, которые помогут прям все сделать и выложить, появятся, но займет время

Новые модели исправят все проблемы текущих. AI открывает новые возможности, и нужно просто иметь это в виду, а не сражаться с ними. Просто учитывать, что каждые полгода модели будут лучше.

Разработчики агентов создадут новую экономику и привнесут огромную ценность во множестве отраслей. Образование и здравоохранение точно изменят, а это триллионы долларов

Опенсорс полезен, но комментировать не будет.

Агент - кому можно дать большую задачу. Это не просто агент, звонящий в 1 ресторан, а который перелопатит 300 ресторанов и позвонит в десятки. Типа Smart senior co-worker.

Цена на действия AI агентов, как устанавливать? Вполне может быть почасовая ставка

Спец модели для агентов нужны? O1 норм

Новые модели нужны? Да, но если слишком много этим занимаются и делают похожие вещи.

Поддержка мультиязычности - в целом и сейчас норм, но посмотрят, что там не так, если проблемы заметны.

Какие новые технологии возникнут? Секрет openAI - как делают новые ещи, копировать уже легче. Таких компаний очень мало из-за отсутствия культуры, а значит миллионы классных спецов страдают и не реализуются. Цель - дать каждому максимальный потенциал.

Что не знал? Как расти 10х, много изменений каждый день.

Нужны талантливые люди любых возрастов

Gpt-4 была сложная в разработке, но справились

Антропик лучше? Будет много моделей, выбирайте по задаче.

Мораль в команде, как повысить? Большая цель - AGI, многих это мотивирует.

Каждый день много решений, где нет правильного ответа или 1 вариант лишь капельку лучше, в итоге приходиться доверять чутью.

Поставщики? Да, с ними сложно, но это не топ проблема.
Топ-1 - общая сложность области, баланс кучи параметров.

AI - новый интернет пузырь? Нет, это другое, просто примеры для людей лучше заходят. Электричество - тоже не очень пример. Лучше - транзистор. Огромная ценность и возможности, которые открыла технология.

Что строить стартапам? Вертикальное решение, типа тьютор по предмету или юрист.

Что невозможно пока у AI? AI, понимающий жизнь

Что удивило? Последние исследования.

OpenAI API самое классное - real-time API

Что воодушевляет? Как из технологий рождаются понятные и полезные продукты

Что улучшить в компании? Непонятна стратегия, слишком много вариантов.

Какой вопрос хотел бы чтоб задали? Да все уже задавали

Волшебная палочка и горизонт 5 лет-10 лет. Огромный прогресс в инновациях и технологиях. И уже должны подтянуться изменения в обществе.

Читать полностью…

AI Product | Igor Akimov

30 Oct 2024 13:46

Доклад про дистилляцию моделей. Когда результаты большой используются для файнтюна маленькой. Что делает процесс в 50 раз дешевле и быстрее.
Автоматизировали множество процессов, так что можно сохранять результаты в вебе, а потом использовать для оценки и оптимизации практически в автоматическом режиме (тюнинг занимает 15 минут-4 часа). Достаточно 1000 хороших примеров, чтобы работало хорошо. Главное, задачи чтоб были узконаправленные и без большой необходимости высокой точности.
Считают, что наступает время оптимизированные моделей, которых у каждой компании будет десяток.

Читать полностью…

AI Product | Igor Akimov

30 Oct 2024 12:59

И я буду рад, если будете делится инфой о "текстовом стриме" с OpenAI Dev Day с другими AI каналами.

Читать полностью…

AI Product | Igor Akimov

30 Oct 2024 12:56

Те самые заказанные пироги.

Читать полностью…

AI Product | Igor Akimov

30 Oct 2024 11:57

На первой сессии в основном рассказали, какая классная o1 и что она может: написать код мобильного приложения с данными о метро Лондона в реальном времени.
Так же управление дроном (использовали Cursor) и заказ голосом пирогов через real-time API.
Из анонсов внедрили кэширование голосовых запросов, что уменьшает цену для долгих разговоров. Ну и работают над тем, чтобы все остальные возможности подтянулись в o1.

Читать полностью…

AI Product | Igor Akimov

30 Oct 2024 10:31

Начало через полчаса, пока все тупят и знакомятся в "кафе"

Читать полностью…

AI Product | Igor Akimov

25 Oct 2024 08:00

Anthropic тоже запустил возможность при ответе писать и запускать код и выпустил инструмент анализа данных - https://www.anthropic.com/news/analysis-tool

Читать полностью…

AI Product | Igor Akimov

23 Oct 2024 17:08

Кстати Voice Advanced Mode запустили-таки в ЕС. Попробовал греческий переводить в режиме реального времени, но пока такое себе... Видимо риалтаймовые библиотеки очень урезанные.

Читать полностью…

AI Product | Igor Akimov

23 Oct 2024 08:19

Shanghai AI Lab парсила книжки и статьи для обучения своей LLM-ки и попутно сделала библиотеку распознавания PDF, включая модуль сложной разметки - DocLayout-YOLO.

Демо тут https://huggingface.co/spaces/opendatalab/DocLayout-YOLO
Код - https://github.com/opendatalab/DocLayout-YOLO
Ресерч - https://arxiv.org/abs/2410.12628

Все это в итоге завернули в полную обработку PDF - https://github.com/opendatalab/PDF-Extract-Kit

А также в отдельный парсер PDF в Markdown - https://github.com/opendatalab/MinerU

Круто, что сообщество, причем скорее всего небольшими силами, так как университет, улучшает работу распознавалок документов, которыми занимаются десятки тысяч человек.

Читать полностью…

AI Product | Igor Akimov

22 Oct 2024 16:39

О, JetBrains выпустила свою LLM для разработчиков, специально для code completion, - Mellum
Работает с Java, Kotlin, Python, Go, and PHP

По результатам тестов скорость на треть выше, подтверждение пользователем саджеста в 40% случаев, отказов от саджеста в 3-4 раза меньше и в 2 раза больше предложений по автодополнению, чем было раньше,

Ну и естественно это своя LLM, а значит никакой паранойи у бизнеса. Хотя никаких данных о том, что за модель, на чем тренили и тем более весов, - нет.

https://blog.jetbrains.com/blog/2024/10/22/introducing-mellum-jetbrains-new-llm-built-for-developers/

Читать полностью…

AI Product | Igor Akimov

21 Oct 2024 09:26

И Apple тоже показала интересный прогресс в их исследовании агентных LLM на мобилке - CAMPHOR, тюненая версия Phi-3.5

https://machinelearning.apple.com/research/collaborative-agents

В CAMPHOR используется иерархическая архитектура, в которой агент рассуждений высокого порядка декомпозирует сложные задачи и координирует работу экспертных агентов, отвечающих за поиск персонального контекста, взаимодействие с инструментами и динамическую генерацию планов. Реализовав совместное использование параметров агентами и используя сжатие оперативной информации, мы значительно сократили размер модели, время ожидания и объем используемой памяти. Эксперименты показывают, что агенты SLM, прошедшие тонкую настройку, не только превосходят закрытые LLM по скорости выполнения задачи F1 на 35 %, но и устраняют необходимость в связи с серверным устройством, повышая при этом уровень конфиденциальности.

Читать полностью…

AI Product | Igor Akimov

18 Oct 2024 08:26

И туда же к теме агентов - Writer (лингвисты, которые с 2020 c LLM работают, писал уже о них), теперь взялись за агентов и выпустили новую Palmyra X 004. Цель - уметь разбирать запрос на подзадачи и обращаться к корпоративным базам и софту, чтобы ее решать, то есть по сути заменить всех офисных сотрудников, хах )

Соответственно в новой модели прокачали вызов функций, RAG, цитирование и рассуждение, добавили генератор кода с деплоем, расширили контекст до 128к токенов и планируют выпустить точное соблюдение формата скоро (аналог structured output от OpenAI).

Вот чего пишут (продакты, берегитесь)
Допустим, менеджер по продукту определяет приоритетность запросов на новые функции в Zendesk на основе отзывов клиентов. Теперь Palmyra может автоматизировать этот процесс, интерпретируя запрос и решая, какие инструменты нужно использовать для ответа пользователю. Определив нужные инструменты, она может интерпретировать запрос и составить последовательность действий, которые необходимо предпринять. Затем она собирает отзывы из Zendesk, прогоняет их через инструмент определения приоритетов и создает тикет в Jira - все автоматически.

Скоро и посты за меня будет писать )

https://writer.com/blog/actions-with-palmyra-x-004/

Читать полностью…

AI Product | Igor Akimov

17 Oct 2024 18:37

Вау. Смотрите, чего можно с вектором делать! Поворачивать в 3d! И этих углов там нарисовано не было!
Это Project Turntable, прототип пока.
https://www.creativebloq.com/design/adobes-new-image-rotation-tool-is-one-of-the-most-impressive-ai-concepts-weve-seen

Читать полностью…

AI Product | Igor Akimov

16 Oct 2024 17:12

Nvidia затюнила Llama-3.1-70B с помощью 20000 тщательно подобранных ответов, чтобы сделать модель, как они пишут "более полезной, фактологически корректной, последовательной и настраиваемой по сложности и многословности" и обошла в сложных бенчмарках "старичков".

Попробовать можно тут - https://build.nvidia.com/nvidia/llama-3_1-nemotron-70b-instruct

Кстати, клубника там тоже есть :)
A sweet question!
Let’s count the “R”s in “strawberry”:
1. S
2. T
3. R
4. A
5. W
6. B
7. E
8. R
9. R
10. Y
There are 3 “R”s in the word “strawberry”.

Читать полностью…

AI Product | Igor Akimov

15 Oct 2024 08:40

И совсем не в тему AI, но блин, SpaceX запустила огроменную ракету в космос, а потом поймала и "обняла" ее еще одной гигантской конструкцией! Просто офигеть!😱

Запуски SpaceX уже снизили стоимость вывода на орбиту килограмма в 5 раз, хотя до этого прогресс шел оооочень медленно, а теперь вот вывести 1 кг будет стоить $200 вместо $7000, дешевле, чем экспресс-доставки некоторые.

Читать полностью…