Первая полностью открытая модель для генерации разговорного аудио - Hertz-dev (8.5B параметров). Слушайте образцы ниже, там очень клево. Это все либо сгенерировано AI, либо в диалоге с AI.
Направлена на создание естественных и плавных аудиосообщений. Состоит из трех основных компонентов: hertz-codec, hertz-lm и hertz-vae.
Hertz-codec — это аудиокодек, который преобразует аудио в необходимое представление, что позволяет экономить ресурсы без потери качества. Hertz-lm — языковая модель, обученная на 20 миллионах часов аудиоданных, может генерировать текстовые репрезентации звука и обладает контекстом до 4,5 минут. Модель доступна в двух версиях: с предобучением на текстовых данных и исключительно на аудиоданных.
Hertz-vae — мощная модель, которая отвечает за восстановление семантики речи с высокой точностью.
Модель полностью открытая и она никак еще не настроена на инструкции, не файнтюнена, поэтому ее можно поднастроить под ЛЮБУЮ аудиозадачу, от классификации эмоций до перевода в реальном времени.
Обещают, что задержка в 2 раза ниже всего имеющегося на рынке, на RTX 4090 - 120 мс.
Подробнее: https://si.inc/hertz-dev/
Код: https://github.com/Standard-Intelligence/hertz-dev/tree/main
Свежий выпускник YCombinator - платформа для распознавания документов и выдергивания нужных данных в твой шаблон - Midship.
Скорее всего использует какой-нибудь базовый OCR и парсер доков и потом LLM-ками добивает до нужного формата. Подробностей на сайте ОЧЕНЬ мало, но то, что на "красном" рынке распознавания с кучей конкурентов появляются новые игроки звучит интересно.
Попробовать можно тут - https://app.midship.ai/demo/
На конференции Lenny, ведущего известной рассылки и подкаста, поговорили про работу продактов в AI
https://youtu.be/IxkvVZua28k?si=9Q8o64_7qRWljfDp
Основные тезисы:
1. Адаптивность разработки под корпоративные задачи
Продукты ИИ для корпораций требуют учёта корпоративных ожиданий, таких как сроки внедрения и интеграции в существующие процессы.
2. Быстрое развитие технологий ИИ
В ИИ каждое несколько месяцев появляются новые возможности, требующие мгновенной адаптации продукта, что отличает работу с ИИ от классических продуктовых ролей.
3. Нестабильность и ошибки в работе ИИ
Поскольку точность ИИ-моделей может варьироваться, важно предусмотреть механизмы, позволяющие пользователям корректировать результаты модели.
4. Значимость оценки (evals) для ИИ
Процесс создания качественных оценок стал важной задачей для продакт-менеджеров, поскольку без правильного тестирования сложно оценить успешность модели.
5. Человеко-ориентированное взаимодействие ИИ
Продукты, где предполагается участие человека в процессе, например GitHub Copilot, полезны даже при средней точности модели, так как экономят время пользователей.
6. Комбинирование моделей для сложных задач
В OpenAI и Anthropic разрабатываются системы, в которых несколько моделей работают совместно, усиливая точность и надёжность в таких областях, как кибербезопасность.
7. Агентные задачи для долгосрочного выполнения
Модели ИИ будут способны выполнять задачи, требующие длительного времени, что позволит пользователям сосредоточиться на креативных аспектах своей работы.
8. Быстрая адаптация пользователей к ИИ
Пользователи быстро привыкают к новым возможностям, таким как голосовой перевод, который позволяет общаться, не зная языка собеседника.
9. Проактивность ИИ в будущем
В будущем ИИ будет способен предлагать идеи и задачи, анализируя, например, электронную почту, чтобы предоставлять рекомендации и обновления.
10. Развитие моделей с уникальными функциями
Для сложных задач ИИ будет способен к пошаговому анализу, при этом работая с несколькими входными данными, как это делает человек при решении головоломок.
Короче, делайте тестовые датасеты, ориентируйтесь на то, что модели будут лучше, включайте пользователя в принятие решений и уточнение работы моделей и адаптируйте продукт под новые возможности.
OpenAI продолжает упрощать жизнь разработчикам. Втихаря (по сути только в Твиттер и через партнера выложили) зарелизили predicted output.
Подробнее тут: https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputs
Если в вашем тексте или коде меняется только небольшой кусок, то должно работать в Х раз быстрее.
Пошел посмотреть, как этого добиться и добавили параметр в API - prediction. Туда можно добавить предыдущий ответ (текст или код) и в итоге генерация должна быть и дешевле, и быстрее, все токены, которые не менялись, выйдут вам практически бесплатно.
prediction: {
type: "content",
content: ХХХ
}
UPD: Проверил на своем ассистенте. В 2 раза быстрее и в 4 раза дешевле стало!
Круто, конечно!
Доклад от Klarna, как они пишут промпты и создают агентов прям массово (Klarna реально поувольнял тонну народа и заменил AI), но доклад был довольно слабый.
Основное - заручаются помощью команды разработки, отвечающей за функциональность в продукте (а то это частая история, дата-сайнтисты чего-то там разработали, а оно лежит на полке, потому что команда продуктовая, куда это внедряется, пилит свои фичи), смотрят в логи и на реальных видеозаписях, как сейчас происходит, потом пишут тесты, как работает и как в идеале должно и оптимизируют промпты, чтобы поднимать метрики. Цикл примерно 3 месяца занимает
Маленькие партнерские доклады.
Text-to-SQL для данных из разных источников.
Это когда вам надо собрать например табличку из эксельки, потом данные из имейлов и все это связать и позволить "спрашивать" на естественном языке.
Очень пригодится в текущей BI компании.
Они по сути данные из ВСЕХ источников приводят в табличный вид с понятными AI названиями колонок и схемой данных и хранят это в памяти во временной SQL-базе. Далее просят пошагово описать LLM-ку, как сделать нужный запрос в ответ на запрос клиента, и собственно выдать сам SQL-запрос. Вызывают его и возвращают результат. Это позволяет работать с разными данными одинаковым способом. Так как LLM-ки медленные, все операции по переводу данных во временную базу успевают пройти и они могут расширять этот подход на все последующие интеграции.
В общем, полезно, если вам надо данные анализировать и они все в разном виде к вам приходят.
Всё, улетаю домой. Ещё несколько мелких партнерских докладов не рассказал, уже с Кипра тогда. Зато вот вам фоточка с Биг Беном :)
Читать полностью…Сессия про мультимодальность с Real-time API. Что работает сумасшедше быстро, очень лёгкое в реализации апи, но дорого, да. Новые оптимизации и кэширование, что сегодня анонсировали, примерно на 30% снизят цены, но это все равно примерно $7 за час работы. Понятно, что будет дешевле и дешевле. В целом объединять голос и текст в одном продукте станет прям мейнстримом скоро, чем раньше попробуете и настроите UI - тем лучше.
Читать полностью…Доклад про дистилляцию моделей. Когда результаты большой используются для файнтюна маленькой. Что делает процесс в 50 раз дешевле и быстрее.
Автоматизировали множество процессов, так что можно сохранять результаты в вебе, а потом использовать для оценки и оптимизации практически в автоматическом режиме (тюнинг занимает 15 минут-4 часа). Достаточно 1000 хороших примеров, чтобы работало хорошо. Главное, задачи чтоб были узконаправленные и без большой вариативности.
Считают, что наступает время оптимизированные моделей, которых у каждой компании будет десяток.
Возможность задать вопрос Сэму Альтману. Спросил про образование детей (чему учиться-то, если все будет делать AI). Если хотите что-то спросить - пишите в комментах (на английском)
Читать полностью…Сессия про structured output.
Рассказывали, как добились 100% соблюдения json схемы, в том числе для сложных, вложенных структур. И для построения UI, который может быть ещё более развесистый. Довольно сложная задача, подразумевающую и маскирование токенов, чтобы модель точно выбирали токены, соответствующие формату, и множество оптимизаций, чтобы это работало сумасшедше быстро. Показали на примере вытаскивания нужных полей из резюме и копайлота, который с ними работает текстом, типа "покажи только живущих в Англии" или "отсортируй по опыту и отправь приглашение персональное первым трем". Если строите агентов - structured output - маст-хев
Взял у мобильщиков.
SensorTower выпустили отчет о росте AI-приложений:
1. Выручка AI-приложений выросла на 51% в 2024 г. по сравнению с 2023 г.
2. Среднее время использования AI-чатов с персонажами – 1,5 часа в день.
3. Основные категории роста:
• Фото/видео редакторы (Remini $5M/мес, Photoroom $4M)
• Чаты на базе ChatGPT (ChatOn $5M, Chat&Ask $2M)
• Распознавание объектов (Picturethis $12M/мес, Plantin $2M)
• AI для учебы (Brainly $1M, Question AI $0.7M)
• AI-персонажи (Poly AI $0.7M, Replika $0.6M)
• AI-музыка (Donna AI $1M, AI Song Creator $0.4M)
• Text-to-audio (Speechify $3M, Otter $0.9M)
Вот и более детальная программа. Будет AMA with Sama :)
Main Stage Sessions
10:00–Opening Session: Dive into the latest AI advancements including reasoning and Realtime API
10:45–Structured Outputs: Learn how to increase reliability with precise JSON schema adherence
11:45–Distillation: Optimize scalability by transferring intelligence from large models to smaller, cost-effective ones
13:45–Realtime API: Create natural voice interactions in applications by integrating speech and text processing
15:00–Cost & Latency: Scale AI applications by balancing accuracy, latency, and cost
16:00–Virtual AMA with Sam Altman: Hear from Sam as he answers questions live, moderated by Harry Stebbings, 20VC
Vault Stage Sessions
12:30–Parloa: Transforming Contact Centers with GPT-4o Multi-Agent Crews and Human-in-the-Loop
12:45–Dust: Unified Text-to-SQL for Datalakes, Spreadsheets, and CSVs
13:00–Cosine: Fine-Tuning a SOTA AI Developer
13:15–Klarna: Lessons Learned from Deploying & Scaling Assistants
14:45–Tortus: Clinical Safety Evaluation of LLMs
15:00–Sana AI: Architecting Multi-Talented General Agents
15:15–VEED: Insights on Scaling a Custom Text-to-Video GPT
15:30–Stainless: Designing delightful APIs and SDKs
О, выложили видосы из митапа Wrike на Кипре про QA AI
1. Про AI для тестировщиков: от написания тестов до фикса багов
https://www.youtube.com/watch?v=ZIZCx_bDpIQ&ab_channel=Wrike%26WrikersCommunity
2. Про поисковую систему по вашему коду и базе знаний, которую можно сделать за 1 день
https://youtu.be/EFIH0wSYtms
3. Про 40000 тестов на Selenium, которые не мешают, а помогают жить
https://youtu.be/Gz9Tvrc-330
Хотели заработать, - не прокатило.
Теперь ai copilot включен в подписку office, пока в нескольких странах
https://3dnews.ru/1113665/microsoft-sdelala-iifunktsii-office-chastyu-podpiski-microsoft-365
На следующей неделе будет краш-курс от Google бесплатный по GenAI: промпт-инжиниринг, эмбеддинги и векторные базы, агенты, вертикальные решения, MLOps. Понятно, что будут свои решения рекламировать, но в целом должно быть интересно и крайне полезно
https://rsvp.withgoogle.com/events/google-generative-ai-intensive
Вчера вечером рассказал про инсайты с OpenAI Dev Day сообществу фаундеров на Кипре. Презентация туть.
В принципе все это есть в канале, еще и с комментариями, а не просто фоточки, но зато можно быстро посмотреть в одном месте, чего рассказывали.
И еще со мной поделился заметками один из участников, там про дистилляцию, мультимодальность и стоимость/качество - https://docs.google.com/document/d/1diTYMr7WvqlbP-7ZZYB5maG3TTqVQMJIFdTORbhpKkQ/edit?usp=sharing
Был еще медицинский стартап, который рассказывал, как они минимизируют передачу персональных и чувствительных данных пациента. По сути они каждый набор данных очищают, анонимизируют и хэшируют, и получается работать с разными "классами" клиентов, а не данными отдельных людей, а индивидуальные особенности уже передаются через хэш. Так можно и с LLM работать безопасно, и консистентно сохранять данные о человеке при каждом запросе.
Звучит сложновато для обычного применения, но для медицинских данных такие вещи весьма востребованы.
Из забавного, они галлюцинации и ошибки моделей назвали халлуми :) HALLUcinations and MIsalignments
И соответственно стремятся на каждом эксперименте по обработке данных это число уменьшать.
Далее Cosine про улучшение AI-ассистента разработчика. Понравился подход тоже.
Данных о том, как разработчики решают задачи, очень мало. В основном просто код. Ну и понятно, что они и собирает трейсы с пользователей, но пока все равно мало. В итоге подход основан на синтетике: мы берем мощную o1 и даем ей задачу генерировать "советы" для решений, сгенерированных более слабой моделью, не ответы, а советы, типа "обрати внимание, что ты такие классы не поменял", в итоге получаем последовательность улучшений, которые в итоге и используют для файнтюнинга. То есть оптимизации идут не финального решения, а каждого шага рассуждения. Уверяют, что добились state-of-the-art в нескольких разработческих бенчмарках при приемлемой скорости ответа.
Итак, продолжаю про OpenAI Dev Day:
Довольно важная сессия про улучшение точности и уменьшение задержки и стоимости.
Активно настаивают на eval-driven development. Создаёте датасет для тестирования и далее улучшаете промпты, добавляете RAG, занимаетесь файнтюнингом, чтобы получать лучшие оценки качества на вашем датасете. Все механизмы уже есть в OpenAI, можно сохранять ответы, можно собирать в батч, можно тестировать разные модели и промпты, можно использовать ответы большой модели для файнтюна маленькой и так далее.
Самое важное - установить параметры точности, что считать хорошей работой. Кажется, что 90-95-99%, но все фигня. Они как-то для клиента тестировали, сколько должно быть с учетом окупаемости правильного решения и ухода в минус, если например клиент вообще решил перестать быть клиентом компании и оказалось, что достаточно 81%, а люди в кол-центре там имели “точность” 75%.
Промпт-инжиниринг: скидывайте весь контекст задачи, добавляйте пару примеров (всегда хорошо работает), используйте инструменты для автоматизации улучшения промпта
RAG: не всегда нужен, иногда можно просто поиском найти (например, когда слов в запросе меньше 3), ну и поиск в RAG добавляет возможность фейла, так что его тоже надо тестировать
Файн-тюн: начать с небольшого, 100-200 хороших примеров, добавить постоянный сбор обратной связи и улучшенного датасета, использовать дистилляцию ответов большой модели
В итоге потихоньку пробуя разное дойдете-таки до хороших показателей
По задержке работают сейчас над несколькими датацентрами ближе к вашим клиентам, так что 200мс задержки сигнала до США и обратно точно снизится (это кстати один из немногих анонсов конференции)
Чтобы оптимизировать время до первого токена лучше использовать более короткие промпты, маленькие модели и кэширование (а значит вариативную часть промпта перенести в конце). Ну и лучше запросы делать вечером и в выходные :)
Чтоы оптимизировать время между токенами - просить коротко отвечать, использовать короткие промпты и маленькие модели. В среднем OpenAI o1 и 4o отдают 22 токена за секунду, 4o mini - 33, 01 mini - 66.
Ну и пользуйтесь BatchAPI, позволяет в 2 раза снизить стоимость, если не нужно в риалтайм (например, на бесплатном тарифе результат через сутки выдавать)
Итого:
На чем сейчас фокусируются? Reasoning модели, будут расширять фичи.
Инструменты для не технических спецов, которые помогут прям все сделать и выложить, появятся, но займет время
Новые модели исправят все проблемы текущих. AI открывает новые возможности, и нужно просто иметь это в виду, а не сражаться с ними. Просто учитывать, что каждые полгода модели будут лучше.
Разработчики агентов создадут новую экономику и привнесут огромную ценность во множестве отраслей. Образование и здравоохранение точно изменят, а это триллионы долларов
Опенсорс полезен, но комментировать не будет.
Агент - кому можно дать большую задачу. Это не просто агент, звонящий в 1 ресторан, а который перелопатит 300 ресторанов и позвонит в десятки. Типа Smart senior co-worker.
Цена на действия AI агентов, как устанавливать? Вполне может быть почасовая ставка
Спец модели для агентов нужны? O1 норм
Новые модели нужны? Да, но если слишком много этим занимаются и делают похожие вещи.
Поддержка мультиязычности - в целом и сейчас норм, но посмотрят, что там не так, если проблемы заметны.
Какие новые технологии возникнут? Секрет openAI - как делают новые ещи, копировать уже легче. Таких компаний очень мало из-за отсутствия культуры, а значит миллионы классных спецов страдают и не реализуются. Цель - дать каждому максимальный потенциал.
Что не знал? Как расти 10х, много изменений каждый день.
Нужны талантливые люди любых возрастов
Gpt-4 была сложная в разработке, но справились
Антропик лучше? Будет много моделей, выбирайте по задаче.
Мораль в команде, как повысить? Большая цель - AGI, многих это мотивирует.
Каждый день много решений, где нет правильного ответа или 1 вариант лишь капельку лучше, в итоге приходиться доверять чутью.
Поставщики? Да, с ними сложно, но это не топ проблема.
Топ-1 - общая сложность области, баланс кучи параметров.
AI - новый интернет пузырь? Нет, это другое, просто примеры для людей лучше заходят. Электричество - тоже не очень пример. Лучше - транзистор. Огромная ценность и возможности, которые открыла технология.
Что строить стартапам? Вертикальное решение, типа тьютор по предмету или юрист.
Что невозможно пока у AI? AI, понимающий жизнь
Что удивило? Последние исследования.
OpenAI API самое классное - real-time API
Что воодушевляет? Как из технологий рождаются понятные и полезные продукты
Что улучшить в компании? Непонятна стратегия, слишком много вариантов.
Какой вопрос хотел бы чтоб задали? Да все уже задавали
Волшебная палочка и горизонт 5 лет-10 лет. Огромный прогресс в инновациях и технологиях. И уже должны подтянуться изменения в обществе.
Доклад про дистилляцию моделей. Когда результаты большой используются для файнтюна маленькой. Что делает процесс в 50 раз дешевле и быстрее.
Автоматизировали множество процессов, так что можно сохранять результаты в вебе, а потом использовать для оценки и оптимизации практически в автоматическом режиме (тюнинг занимает 15 минут-4 часа). Достаточно 1000 хороших примеров, чтобы работало хорошо. Главное, задачи чтоб были узконаправленные и без большой необходимости высокой точности.
Считают, что наступает время оптимизированные моделей, которых у каждой компании будет десяток.
И я буду рад, если будете делится инфой о "текстовом стриме" с OpenAI Dev Day с другими AI каналами.
Читать полностью…На первой сессии в основном рассказали, какая классная o1 и что она может: написать код мобильного приложения с данными о метро Лондона в реальном времени.
Так же управление дроном (использовали Cursor) и заказ голосом пирогов через real-time API.
Из анонсов внедрили кэширование голосовых запросов, что уменьшает цену для долгих разговоров. Ну и работают над тем, чтобы все остальные возможности подтянулись в o1.
Anthropic тоже запустил возможность при ответе писать и запускать код и выпустил инструмент анализа данных - https://www.anthropic.com/news/analysis-tool
Читать полностью…Кстати Voice Advanced Mode запустили-таки в ЕС. Попробовал греческий переводить в режиме реального времени, но пока такое себе... Видимо риалтаймовые библиотеки очень урезанные.
Читать полностью…Shanghai AI Lab парсила книжки и статьи для обучения своей LLM-ки и попутно сделала библиотеку распознавания PDF, включая модуль сложной разметки - DocLayout-YOLO.
Демо тут https://huggingface.co/spaces/opendatalab/DocLayout-YOLO
Код - https://github.com/opendatalab/DocLayout-YOLO
Ресерч - https://arxiv.org/abs/2410.12628
Все это в итоге завернули в полную обработку PDF - https://github.com/opendatalab/PDF-Extract-Kit
А также в отдельный парсер PDF в Markdown - https://github.com/opendatalab/MinerU
Круто, что сообщество, причем скорее всего небольшими силами, так как университет, улучшает работу распознавалок документов, которыми занимаются десятки тысяч человек.