ai_product | Unsorted

Telegram-канал ai_product - AI Product | Igor Akimov

2853

Subscribe to a channel

AI Product | Igor Akimov

Итак, с Новым годом, друзья! 🎁

Мы чудом урвали шенгенские визы и на рождественские каникулы уехали семьёй в Евро-трип по Австрии, Швейцарии и Франции, и вот - Новый год сегодня в Париже.

Хочу сказать, конечно, огромное спасибо, что вы были со мной в этом году. Вас уже почти 3000, и всё это очень мотивирует писать дальше. Пока не смотрел статистику, но цель была - публиковать полезное каждый рабочий день, и вроде это получилось. Канал, конечно, очень помогает сохранять важную информацию, которой через меня проходит много. Ещё с мобильных времён понял, что новые функции или библиотеки, новинки от партнёров могут кардинально изменить продукты и улучшить многое (и особенно это актуально в AI), поэтому стараюсь посвящать этому время и вот делиться с вами.

Год был непростой (хах, помню так же говорил и про доковидный 2019, а это был лучший год по ощущениям), но много чего начало получаться или прорастать. Думаю, смогу этим делиться в 2025-м.

Вам же, дорогие мои, желаю в новом году сбросить популярные оковы "синдрома самозванца" и тоже писать и делиться полезным. Даже в вездесущие новости вы привносите свой персональный взгляд, а это важно. Поэтому не стесняйтесь и пишите.

И конечно очень рекомендую записывать и ставить цели на год. Это позволяет видеть и хвататься за возможности, а также подглядывать в них, когда тонете в текучке, и кажется, что ничего не происходит интересного. Не всё сбудется, но прогресс вас удивит.

Ну и мира, конечно, каждому дому! Раньше это был дежурный тост, а теперь он актуален на 100%.

Читать полностью…

AI Product | Igor Akimov

OpenAI 12 день.
Показали превью o3 и o3 mini, следующее поколение рассуждающих моделей.
Существенно лучше текущих o1 и o1 mini, и по математике и кодированию достигают прям уровня PhD (кучу графиков показали, какая она крутая. Бенчмарки все реально очень сложные, и модель при этом показывает результат лучше людей). Пока недоступно, доступ будет только у исследователей безопасности.
Но выглядит круто, конечно.

https://www.youtube.com/live/SKBG1sqdyIU?si=ERka55ujKd74rCRh

Читать полностью…

AI Product | Igor Akimov

Кстати на deeplearning.ai вышел новый часовой курс про промптингу для o1 от Колина Джарвиса из OpenAI (мы с ним общались на DevDay).
Должно быть полезно, потому что промптинг там довольно нестандартный и даже исследователи пишут, что стандартные методы даже ухудшают качество, а если делать норм, то прям все летает.

Вот что будет:
- Научитесь распознавать, для каких задач подходит модель o1 и в каких случаях лучше использовать более компактную или более быструю модель, а также комбинировать эти две модели.
- Поймете четыре ключевых принципа промптинга с помощью o1 - от «простого и прямого» до «показывать, а не рассказывать» - и изучите разницу в эффективности.
- Реализуете многоэтапную задачу, в которой o1 выступает в роли оркестранта, создающего план и передающего его модели 4o-mini для последовательного выполнения плана, балансируя между интеллектуальностью и стоимостью.
- Используете o1 для решения задачи кодирования, чтобы создать новое приложение, отредактировать существующий код и проверить производительность, проведя соревнование по кодированию между o1-mini и GPT 4o.
- Используете o1 для понимания изображений и узнайте, как он лучше работает с иерархией рассуждений, в которой он берет на себя задержку и затраты, предварительно обрабатывая изображение и индексируя его, чтобы впоследствии использовать для вопросов и ответов.
- Изучите технику, называемую мета-промптинг, в которой вы используете o1 для улучшения своих промптов. Используя набор оценок поддержки клиентов, вы итеративно применяете o1 для модификации промптов с целью повышения эффективности.

https://www.deeplearning.ai/short-courses/reasoning-with-o1/

Читать полностью…

AI Product | Igor Akimov

10-й стрим OpenAI

Пока мы ждем (ждем жеж?) новостей про DALL·E 4, OpenAI исполняют в чудеса продуктологии.

На сегодняшнем стриме показали, что если вы позвоните (со штатовского номера) на +1-800-2428478, то попадете в головой режим chatGPT.
Те, кто уже разучился звонить с телефона, могут писать в WhatsApp, а ответы получать либо голосом, либо текстом.
Телеграм боты нервно закуривают овальные сигареты...

Небольшая деталь: OpenAI is offering 15 minutes of free calling for U.S. users. The company notes that standard carrier fees may apply.

А теперь про то, что не пишут:
Как и в случае с ChatGPT по телефону, для общения в WhatsApp вам не нужен аккаунт, но существует суточный лимит. Пользователи получат уведомление о приближении к этому лимиту, и тогда они смогут продолжить общение, загрузив приложение ChatGPT или используя ChatGPT на настольном компьютере.

@cgevent

Читать полностью…

AI Product | Igor Akimov

Тут чувак в кожанке новый Мини-ПК для AI "выпекает" - Nvidia Jetson Orin Nano Super. 70 триллионов операций в секунду за 249 баксов:
https://youtu.be/S9L2WGf1KrM?si=A9sLWp07LopcF6_8
Для всяких локальных AI систем, типа генерации текстов, computer vision или обработки речи должно вполне хватать.

Читать полностью…

AI Product | Igor Akimov

8 день OpenAI: интернет-поиск
Раскатили на всех платформах и на бесплатных, сделали автовключение, если запрос поисковый, сделали красивый UI на разных платформах со всякими всплывашками и разными вьюхами, типа карт и видео, позволяют по умолчанию поиск на chatgpt заменить (привет, гугл), сделали сильно быстрее и включили в advanced voice mode.
Короче, гуглу пора совещание срочное собирать :)
https://www.youtube.com/live/OzgNJJ2ErEE?si=Ns9v8-P6Vh_TB-uY

Читать полностью…

AI Product | Igor Akimov

Что показали:
– Advanced Voice Mode теперь поддерживает видео-стрим, то есть можно показать аппу видео с камеры или пошарить экран (с телефона или компьютера) – можно делать вместе домашку, писать код, или готовить вместе, короче клевая штука, выходит сегодня и раскатают в течение недели на всех. Машину в гараже разбирать стало проще!

Интересно сможет ли она помочь с фитнесом и правильными техниками, например

– А еще в ChatGPT добавили Санту с которым можно пообщаться (кнопка снежинки), и у него клевый Санта-голос

Читать полностью…

AI Product | Igor Akimov

5 день: OpenAI в новогодних свитерах предлагают посмотреть на их более крутые интеграции с iOS/MacOS
Можно через Siri взаимодействовать с ChatGPT, в том числе в камере. А в MacOS передавать, например, скриншот или весь текущий док для анализа прям в 1 клик
https://youtu.be/mBhkD0iFf4w

Читать полностью…

AI Product | Igor Akimov

OpenAI официально показали Sora!

Доступно будет всем подписчикам ChatGPT - и Plus и Pro. Дают кредитов на до 50 генераций в месяц Plus подписчикам и до 500 быстрых генераций Pro подписчикам. Pro подписчики с более 500 генераций попадают в "медленную очередь".

Длина видео всё таки от 5 до 20 секунд (для Plus максимум 5), а разрешение от 480p до 1080p (Plus подписчики ограничены 720p). На более длинные видео и видео разрешения уходит больше кредитов. К видео можно применять стили и создавать свои.

Показали Storyboard - продвинутый инструмент позволяющий режиссировать видео. К примеру можно попросить Sora сгенерить видео человека, который на пятой секунде видео машет рукой.

Ещё есть куча продвинутых инструментов - можно догенеривать до видео как начало так и концовку, смешивать несколько видео вместе разными способами и много чего ещё.

Модерация сейчас чрезмерно строгая, но OpenAI обещают постепенно снимать ограничения.

sora.com

@ai_newz

Читать полностью…

AI Product | Igor Akimov

А, еще выложили основные данные о модели, че как с производительностью и безопасностью. https://cdn.openai.com/o1-system-card-20241205.pdf
Все улучшилось, а с безопасностью были вопросики, но вроде порешали уже дополнительными проверками при выдаче ответа.

Читать полностью…

AI Product | Igor Akimov

OpenAI тоже любит Адвент-календари :)
Будут радовать 12 апостолами анонсами до Рождества.

Читать полностью…

AI Product | Igor Akimov

ElevenLabs наконец поделился подробностями их голосовых агентов (а то все их юзали только как text-to-speech) - https://elevenlabs.io/conversational-ai
10 центов за минуту, на больших объемах до 1.5 центов. Ну, с этим уже можно работать.

Читать полностью…

AI Product | Igor Akimov

Не совсем про AI, но про прикладное применение. Почти шестисотстраничный доклад о коронавирусе, который теперь с помощью LLM можно "прочитать" за пару минут - https://oversight.house.gov/wp-content/uploads/2024/12/12.04.2024-SSCP-FINAL-REPORT.pdf

Шок-контент, конечно...

1. Происхождение COVID-19
Гипотеза лабораторной утечки:
Основной версией происхождения вируса является лабораторная утечка. Вирус обладает уникальными характеристиками, такими как наличие фуринового участка, которые не встречаются в других известных вирусах его семейства.
В 2018 году исследователи из Wuhan Institute of Virology совместно с EcoHealth Alliance предлагали вставить фуриновый участок в SARS-подобный вирус, что совпадает с характеристиками SARS-CoV-2.
Скрытие данных:
Китайское правительство и некоторые международные научные сообщества пытались скрыть информацию о происхождении вируса.
Исследования, поддерживающие версию природного происхождения, были подвергнуты критике за недостаток доказательств.

2. Ответ на пандемию
Операция Warp Speed:
Быстрое создание вакцин показало эффективность частно-государственного партнерства. Вакцины снизили уровень смертности и тяжести заболевания.
Финансовые злоупотребления:
Программы помощи, такие как Программа защиты зарплат (PPP) и страхование от безработицы, потеряли миллиарды долларов из-за мошенничества.
Например, около $64 млрд было потеряно из-за ложных заявок на PPP, а более $191 млрд из-за мошеннических выплат по безработице.

3. Закрытие школ
Отсутствие научной обоснованности:
Продолжительные закрытия школ не основывались на научных данных. Многие из них были вызваны политическим давлением, а не реальной необходимостью.
Долгосрочные последствия:
Ухудшение академической успеваемости, увеличение числа психологических расстройств у детей и подростков.
Снижение физической активности из-за отсутствия доступа к спортивным программам.

4. Меры общественного здоровья
Социальное дистанцирование:
Требование соблюдать дистанцию в 6 футов не имело убедительной научной основы.
Маски:
Частые изменения в рекомендациях и недостаточная прозрачность исследований подорвали доверие к общественному здравоохранению.
Маски для детей младше 2 лет признаны вредными.
Локдауны:
Строгие меры изоляции привели к негативным последствиям: экономические убытки, ухудшение психического здоровья, замедление развития детей.

5. Общие уроки
Прозрачность и ответственность:
Требуется большее сотрудничество между правительственными и международными организациями для улучшения готовности к будущим пандемиям.
Недостатки в стратегических резервах:
Резерв США медицинских материалов и лекарств оказался неподготовленным для пандемии.
Зависимость от импорта, особенно из Китая, была названа угрозой национальной безопасности.
Доверие общественности:
Недостаток прозрачности и политизация пандемии подорвали доверие граждан. В будущем необходимо обеспечить большее взаимодействие с обществом.

Читать полностью…

AI Product | Igor Akimov

И Cohere обновил свой реранкер до версии 3.5
Это наверное самое простое улучшение для вашего RAG: стянули ответы из векторной и/или обычной базы, запустили их реранкер и получили прям топовое избавление от мусора и будущих галлюцинаций. На удивление, работает лучше не только голого RAG, но Assistants API или переранжирования LLM-кой. Плюс мультиязычная сильно. И внедряется за 10 минут.

https://cohere.com/blog/rerank-3pt5

Читать полностью…

AI Product | Igor Akimov

Кстати, китайцы продолжают двигать опенсорсный передний край науки. Еще одна многошаговая нейросетка, конкурент O1-preview - Marko-O1 от Alibaba, затюненная Qwen2-7B:

- Fine-tuning с использованием Chain-of-Thought (CoT): последовательное рассуждение.
- Алгоритм Monte Carlo Tree Search (MCTS): многовариантный поиск решений с построением дерева решений.
- Гибкие стратегии рассуждения: баланс между точностью и вычислительными затратами.

MCTS помогает находить лучшие решения, оценивая разные варианты.
Механизм рефлексии: модель периодически задаёт себе вопрос: «Возможно, я ошиблась. Нужно пересмотреть рассуждение.»

- Значительно превосходит базовую модель Qwen2-7B на задачах математики.
- Эффективнее справляется с переводом сленговых выражений и тонкостей языка.
- Marco-o1 идеально подходит для задач с открытыми решениями: дизайн продуктов, стратегии, переводы сложных контекстов.

https://arxiv.org/abs/2411.14405

Читать полностью…

AI Product | Igor Akimov

Кстати, на ютюб OpenAI выложили и записи с DevDay из США, кто хотел наконец увидеть сессии, что я описывал (я смотрю, что контент лондонский и американский по части анонсов от OpenAI похож), можно наконец это сделать OpenAI/videos?view=0&sort=dd&shelf_id=3" rel="nofollow">https://www.youtube.com/@OpenAI/videos?view=0&sort=dd&shelf_id=3

Читать полностью…

AI Product | Igor Akimov

11 день OpenAI. Десктопное приложение. Анонсов немного.

ChatGPT теперь может работать напрямую с большим количеством приложений для разработки и создания заметок — через голос или текст на macOS.

• Работайте с кодом в контексте с расширенной поддержкой приложений для кодирования, таких как Warp, IntelliJ IDEA, PyCharm и других

• Пишите код с мощью o1 и 01 pro

• Мы добавили поддержку приложений для создания заметок, таких как Apple Notes, Notion и Quip.

• И вы можете использовать Advanced Voice при работе с этими приложениями.

Читать полностью…

AI Product | Igor Akimov

Красивое. Новый быстрый 3d движок, в котором можешь текстом описывать, чего тебе делать надо.

🚀 В 430 000 раз быстрее, чем физическое моделирование в реальном времени, обрабатывает 43M FPS на одном RTX 4090
🐍 Построен на чистом Python, в 10-80 раз быстрее существующих GPU-решений, таких как Isaac Gym
🌐 Кроссплатформенная поддержка: Linux, MacOS, Windows, с бэкендами CPU, NVIDIA, AMD и Apple Metal
🎨 Встроенный фотореалистичный рендеринг с трассировкой лучей
🔄 Возможность генерировать окружение, движения камеры, движение робота, анимацию персонажей на основе текстовых подсказок
⚡️ Требуется всего 26 секунд для обучения переносимых в реальный мир политик движения робота
💻 Простая установка через pip: pip install genesis-world
🤝 Физический движок и платформа моделирования полностью открыты для использования

Код: https://t.co/DhBv7NdyqH
Документация: genesis-world.readthedocs.io

Читать полностью…

AI Product | Igor Akimov

OpenAI 9/12: o1 выходит из превью в API и добавляет поддержку function calling, structured output и developer message. В общем, можно пользоваться теперь.
И добавили поддержку картинок на входе.

Для gpt-4o добавили возможность файнтюна более простого (типа вот эти ответы норм, а вот эти - нет, давай там настраивайся, чтобы сам понимал, какие мне нужны)

Для риалтайм голоса уронили цены в 2.5 раза (ура, теперь примерно 10 центов за минуту, получается, а с мини-моделью и вообще 3). И добавили настроек. И нативную поддержку WebRTC.
В общем, пора строить прям сложные голосовые ассистенты.
https://www.youtube.com/live/XKABimtOWME?si=AfWr66wwS3YnZAz7

Статья со всеми анонсами:
https://openai.com/index/o1-and-new-tools-for-developers/

Читать полностью…

AI Product | Igor Akimov

Кстати, сказали, что разработчики чтоб не расстраивались. Завтра будет их день

Читать полностью…

AI Product | Igor Akimov

OpenAI 7: проекты в chatgpt

Очень полезная штука. Можно такие папочки создавать, в которых все необходимые документы, инструкции, чаты. Причем не только на потрындеть, но и код пописать. Наконец-то можно будет разложить все аккуратно и контекст сохранять. Тут рабочая стратегия, тут путешествия организация и так далее. Раскатывают прямо сейчас
https://www.youtube.com/live/FcB97h3vrzk?si=xjUjA8kQxsJLMglh

Читать полностью…

AI Product | Igor Akimov

А Google представила Gemini 2.0 Flash - быстрее, выше, сильнее предыдущих. И несколько крутых исследовательских проектов.

Основное:
- Мультимодальный ввод и вывод: поддержка работы с текстом, изображениями, видео и аудио, а также их генерация.
- Улучшенная производительность: в 2 раза быстрее предыдущей версии (1.5 Pro) с повышенными возможностями рассуждения.
- Интеграция с инструментами: нативная работа с Google Search, выполнение кода и поддержка пользовательских функций.
Уже доступна разработчикам через Google AI Studio и Vertex AI, а также через Multimodal Live API с функцией потокового ввода и инструментов.

Deep Research
Новый инструмент, который действует как продвинутый исследовательский ассистент. Он помогает анализировать сложные темы, структурировать информацию и составлять отчеты. Вот это крутая штука

AI Overviews в поиске
Обновление популярной функции поиска, которая теперь может обрабатывать более сложные запросы, включая мультимодальные вопросы, сложные уравнения и код.

Исследовательские проекты:
- Project Astra: универсальный AI-ассистент, который умеет поддерживать диалог на нескольких языках, лучше понимает контекст и акценты, а также использует инструменты Google (поиск, карты, Lens). Новая версия улучшена благодаря технологиям Gemini 2.0.
- Project Mariner: агент для работы в браузере, который может анализировать содержимое экрана и выполнять задачи, такие как взаимодействие с веб-формами или текстовыми элементами. Это исследовательский прототип с фокусом на безопасность. По видео
- Jules: AI-ассистент для разработчиков, интегрированный в рабочие процессы GitHub, помогающий автоматизировать задачи программирования.
- ИИ в играх: агенты, использующие возможности Gemini 2.0, помогают игрокам разбираться в сложных игровых ситуациях, взаимодействуют с виртуальными мирами и предлагают решения в реальном времени.

Смотрите красивый видос - https://www.youtube.com/watch?v=Fs0t6SdODd8
Mariner выглядит вообще огненно.

Больше инфы https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#building-responsibly

Читать полностью…

AI Product | Igor Akimov

Что показали:

🌹 Обновили ChatGTP Canvas:
https://chatgpt.com/?model=gpt-4o-canmore

Это что-то вроде умного Notion/Google Doc, где слева вносишь правки через чат, а документ/код всегда справа, и обновляется моделью или пользователем, а не переписывается с нуля:

– Режим Canvas теперь доступен всем
– Модель может оставлять комментарии к вашему тексту или коду, а не просто редактировать его
– Теперь Canvas работает с кастомными GPT’s (вот бы ими еще занимался кто-то в OpenAI)
– Canvas может исполнять Python код, например, когда нужна какая-та дата аналитика или скрипт не работает, его сразу можно отправить в ChatGPT

В общем, OpenAI опять ряд стартапов сегодня закрыла 😮

Читать полностью…

AI Product | Igor Akimov

Sora v2, мать моя женщина...
Кажется, весь видео процессинг скоро изменится навсегда.

Будет доступна "совсем скоро".
Минутная генерация.
Текст, текст+картинка, текст+видео -> видео

Отсюда https://x.com/RuudNL/status/1865425438991945938

Читать полностью…

AI Product | Igor Akimov

o1 зарелизят, быстрее и лучше, и картинки поддерживает. И будет o1 pro mode для реальных пацанов за 200 баксов в месяц, специально для исследований и науки. Цен на API пока нет.
https://youtu.be/rsFHqpN2bCM
Инфа про про
https://openai.com/index/introducing-chatgpt-pro/

Читать полностью…

AI Product | Igor Akimov

Новые LLM-ки от Амазон - Nova

🧠 Micro (только текст), Lite (мультимодальный), Pro (с высокой пропускной способностью) и Premier (появится в 2025 году)
🎨 А еще Canvas (создание изображений) и Reel (создание видео)
📊 Контекст длиной до 300К токенов и 200+ языков
🥇 Производительность в бенчмарках аналогична Llama 3 (не выдающаяся, но дешево)
🗺 Модели в настоящее время доступны только в регионах AWS в США
🔒 Включает в себя возможности водяных знаков (подробностей нет)
🔧 Возможность файнтюнинга в Amazon Bedrock
💰 Стоимость - Micro: $0,035 / $0,14; Lite: $0,06 / $0,24; Pro: $0,80 / $3,20 за 1M токенов. GPT-4o - $2.50/$10

Читать полностью…

AI Product | Igor Akimov

Интересный ресерч от MS: Сравнение o1-preview с их лучшим подходом к модели предыдущего поколения - GPT-4 (Medprompt, это где и промпт подобран, chain-of-thought и примеров много, и вопрос задается несколько раз, а потом выбирается лучший ответ).
Так вот o1 все это обошла просто базовым промптом (96% vs 90% на медицинских бенчмарках).
Советуют на 01 экспериментировать с промптами под задачи и множественной генераций ответа (помогает), а вот примеры решений как-то не очень.

Прим этом да, это в 6 раз дороже GP4-4o. Ну и бенчмарки уже устаревают, нужны более сложные для современных моделей.

https://www.microsoft.com/en-us/research/blog/advances-in-run-time-strategies-for-next-generation-foundation-models/

Читать полностью…

AI Product | Igor Akimov

Пока старички добавляют GenAI технологии двухлетней давности, Huawei делает магию. Копирование файлов "рукой" :)

Я еще со времен ABBYY грезил быстрой бесшовной передачей файлов, даже прототипы строили всяких p2p-соединений и копирования/вставки из буфера. Но работало криво в то время.

Читать полностью…

AI Product | Igor Akimov

CEO HuggingFace поделился своими прогнозами на 2025 и подсчитал, что сбылось из прошлого (большая часть)

- Появится первая крупная публичная акция протеста, связанная с ИИ
- Крупная компания потеряет более половины своей рыночной капитализации из-за ИИ
- Будет предзаказано как минимум 100,000 персональных ИИ-роботов
- Китай начнет лидировать в гонке ИИ (как следствие лидерства в гонке по открытым исходным кодам).
- Произойдут крупные прорывы в области ИИ для биологии и химии.
- Мы начнем видеть экономический и трудовой потенциал ИИ, с 15 миллионами разработчиков ИИ на Hugging Face.

Как оправдались мои прогнозы по ИИ на 2024 год:
Разрекламированная компания ИИ обанкротится или будет продана за смешную цену
✅ (Inflexion, AdeptAI,...)

Модели с открытым исходным кодом достигнут уровня лучших закрытых LLM
✅ с QwQ и десятками других

Крупные прорывы в ИИ для видео, временных рядов, биологии и химии
✅ для видео 🔴 для временных рядов, биологии и химии

Мы будем больше говорить о стоимости ИИ (денежной и экологической)
✅ Денежной 🔴 Экологической (😢)

Популярные медиа будут в основном созданы ИИ
✅ с NotebookLM от Google

10 миллионов разработчиков ИИ на Hugging Face, при этом без увеличения безработицы
🔜 сейчас 7 миллионов разработчиков на Hugging Face

Читать полностью…

AI Product | Igor Akimov

Маленькую модельку научили в structured output. Нет так круто, как в OpenAI (там прям масштабный подход с маскированием токенов, кэширование и использованием CPU и GPU для постройки дерева возможных вариантов), но все-таки.

Структурированная генерация с использованием SmolLM2, работающего в браузере и WebGPU 🔥

Работает на базе MLC Web-LLM & XGrammar.

Определите схему JSON, введите свободный текст, получите структурированные данные прямо в браузере.

Чтобы продемонстрировать, как много вы можете сделать с помощью всего лишь 1.7B LLM, вы передаете свободный текст, определяете схему разбора текста в GitHub issue (название, описание, категории, теги и т.д.) - пусть MLC & XGrammar сделают все остальное!

Демка тут https://huggingface.co/spaces/reach-vb/github-issue-generator-webgpu

Читать полностью…
Subscribe to a channel