Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу на острове Самуи, где исследую и применяю технологии искусственного интеллекта. Делюсь своим опытом и новыми открытиями в этой и смежных областях.
Новый Responses API от OpenAI
OpenAI выкатили новый Responses API - объединение Chat Completions и Assistants API! Наконец-то не нужно выбирать между простотой использования и функциональностью.
Что в нём клёвого:- Объединяет возможности обоих API в один интерфейс
- Упрощает интеграцию инструментов по сравнению с Assistants API
- По умолчанию сохраняет историю чата (бесплатно на 30 дней)
- Можно включить режим без состояния (как Chat Completions)
Для тех, кто уже вложился в Assistants API - без паники! OpenAI обещает целый год на миграцию с полной поддержкой, включая перенос assistant-подобных объектов, code interpreter и вебхуков.
Responses API доступен уже сейчас всем разработчикам и работает со стандартными тарифами на токены и инструменты.
Сергей Булаев AI 🤖 - об AI и не только
#КриповаяСуббота
Пока мы возимся с моделями ИИ, Cortical Labs зарелизили нечто ИНОЕ - CL1, первый в мире коммерчески доступный биологический компьютер на живых (искуственно выращенных) человеческих нейронах. И это не лабораторный эксперимент - они реально продают эти штуки по $35,000!
Самое удивительное здесь - "тело-в-коробке" (пророчество великого классика начинает сбываться) для этих нейронов. В CL1 встроена миниатюрная система жизнеобеспечения со всем необходимым для поддержания клеток в живом состоянии до шести месяцев - регулирование кислорода, доставка питательных веществ, удаление отходов и поддержание идеальной температуры 37°C. Никаких внешних инкубаторов не требуется!
Что же умеют эти био компьютеры? Они освоили игру в Pong всего за несколько часов - то, на что обычным моделям ИИ потребовалось бы гораздо больше времени. Нейроны могут невероятно быстро перестраивать свои связи, что делает их идеальными для обучения с подкреплением.
Стойка из 30 устройств CL1 потребляет всего 850-1000 ватт. Для сравнения, обучение модели типа GPT-3 требует около 1,300 МЕГАВАТТ-часов. Это разница в несколько порядков! Человеческие нейроны просто обрабатывают информацию гораздо эффективнее кремния.
Применения просто сумасшедшие - от тестирования лекарств от Альцгеймера на нейронах, полученных от реальных пациентов (вместо использования животных моделей), до создания роботов, которые могут адаптироваться к окружающей среде в реальном времени. Исследователи могут наблюдать, как нейроны формируют связи в реальном времени с помощью флуоресцентной микроскопии.
Конечно, эта технология поднимает и этические вопросы. Cortical Labs настаивает, что эти нейронные сети не обладают сознанием, но всё равно создали этический комитет и внедрили защитные механизмы, которые отключают систему, если нейронная сложность превышает определенные уровни. Лучше перестраховаться, когда имеешь дело с клетками человеческого мозга!
Что дальше? Они уже работают над объединением нескольких устройств CL1 в серверные стойки и движутся в сторону создания "Минимально Жизнеспособных Мозгов" с 3D-нейронными структурами. Границы между биологией и технологией становится всё более размытой.
Сергей Булаев AI 🤖 - об AI и не только
Ровно год назад мой друг Руслан рассказывал мне про идею ИИ-агента, который будет сидеть в браузере и выполнять рутинные действия. И вот, Опера придумала практически то же самое!
Ребята представили (ну типа в видео превью) Browser Operator - ИИ-агента, который понимает инструкции на человеческом языке и выполняет за вас задачи прямо в браузере. Концепт простой, но потенциально меняющий правила игры. Вы даёте указания - он делает.
Что можно поручить такому оператору? Да практически всё:- Заказать продукты для конкретного блюда
- Найти и купить те самые носки из мериносовой шерсти (которые вы давно хотели)
- Забронировать путешествие мечты
При этом, вы всегда можете вмешаться и взять управление на себя. Нормальный баланс автоматизации и контроля. Считаю идею весьма перспективной!
Сергей Булаев AI 🤖 - об AI и не только
У Pika новинка - PikaFrames! Теперь можно превращать фотографии в видео с уникальными переходами. Выбираете фотки, а затем объединяете, добавляете переходы и трансформируете. Возможностей - масса. Делал это в Runway полгода назад.
Кроме того, они обновили свою модель до Pika 2.2:- Нативное разрешение 1080p с улучшенным качеством изображения
- Генерация видео длительностью до 10 секунд
Сергей Булаев AI 🤖 - об AI и не только
Anthropic запустил Claude Code - агента для совместного кодинга
Anthropic выложил бету исследовательское превью Claude Code - агента для помощи в написании кода, который работает прямо в вашем терминале. Это первый продукт Anthropic, который выходит за рамки обычного чата и действует как настоящий агент: умеет просматривать код, редактировать файлы, запускать тесты и даже делать коммиты в GitHub.
Что интересного в Claude Code:- Прямо в терминале понимает контекст вашего проекта
- Может искать по всей кодовой базе и разбираться в её структуре
- Выполняет команды от вашего имени (тесты, линтинг и пр.)
- Работает с git: ищет в истории, разрешает конфликты, создаёт коммиты и PR
- Использует последнюю модель claude-3-7-sonnet-20250219 по умолчанию
Как начать использовать:
# Установка через npm
# Переходим в директорию проекта
npm install -g @anthropic-ai/claude-code
# Запускаем агента
cd ваш-проектclaude
После этого придётся авторизоваться через OAuth в консоли Anthropic (нужен активный биллинг).
Интересные применения:
# Спросить про код> как работает наша система аутентификации?
# Автоматизировать git> сделай коммит моих изменений
> создай PR
> в каком коммите добавили тесты для markdown в декабре?
# Изменить код> добавь валидацию ввода в форму регистрации
> рефактори логгер для использования нового API
# Тестирование и отладка> запусти тесты для auth модуля и исправь ошибки
> найди и исправь уязвимости безопасности
А теперь о расходах. Стандартное использование обходится в $5-10 в день на разработчика, но при интенсивном использовании может превышать $100 в час! Следите за расходами командой /cost или в консоли Anthropic.
Для экономии токенов:- Используйте /compact когда контекст разрастается
- Пишите более конкретные запросы
- Разбивайте сложные задачи на части
- Используйте /clear между задачами
У меня пока не было возможности попробовать (хотя уже установил на все компы, на всякий случай), но выглядит очень интересно. Кто-нибудь уже тестировал?
Сергей Булаев AI 🤖 - об AI и разработке вместе с ним
Наконец-то добрался до Cline! Столько про него слышал, но всё как-то руки не доходили. И знаете что? Он крутой! Replit на стероидах как будто. Есть небольшое ощущение магии, когда наблюдаешь за его работой.
Поставил ему первую тестовую задачу - написать транскрайбер диалогов. У меня есть куча записей в voice recorder на айфоне, которые я регулярно записываю (в основном мои разговоры), но нормально их распознать, особенно на русском, ни один сервис толком не мог.
Сразу решил использовать Assembly AI API - знаю, что он отлично справляется с разделением реплик между собеседниками (кстати, если кто-то знает другие варианты для этого - поделитесь в комментах!).
Работали итеративно:- Сначала базовое распознавание
- Потом добавили выбор языка
- В конце - возможность переименовывать участников диалога
- Ну и конечно архив транскрипций и хранение файлов.
На всё про всё ушло примерно полчаса и около 5 баксов на Клода через OpenRouter. Для небольших проектов "под ключ" выглядит даже круче Cursor Composer! Правда, как с ним работать над большими проектами - пока не очень представляю. За Composer-то иногда не успеваю уследить, а тут, похоже, будет ещё веселее.
Кстати, готовое приложение выложил на GitHub. Для использования нужен API ключ Assembly AI, но они всем дают $50 кредитов при регистрации. Должно надолго хватить - час транскрибации выходит примерно в 40 центов.
Сергей Булаев AI 🤖 - об AI и не только
Посмотрите, как Альваро Синтас сделал реальную игру с помощью Grok 3. Пара часов работы и получился рабочий 2D-платформер с вертикальным скроллингом. Более 1000 строк сгенерированного кода, много различных механик - разные герои, монстры, платформы, уровни сложности и система жизней.
Главное никаких сложных промтов и попыток сразу получить всё. Всё делается по шагам. Начал с простейшего запроса:
CopyCreate a basic 2D vertical jump game using HTML/CSS. The characters and platforms should be just shapes (will add assets later). Code everything in one file.
- Не пытайтесь сразу описать все детали и фичи
- Начните с максимально простой версии игры
- Для сложных задач используйте кнопку Grok Think (по его словам, работает отлично)
- Используйте простые фигуры вместо готовых ассетов на первом этапе
- Если появляются ошибки - просто просите Grok их исправить (если сами не понимаете как)
CopyA digital illustration of 10 cute, chibi-style characters with unique outfits and accessories, designed as game assets, standing in a row against a light beige background. Each character has a distinct appearance with shorter legs for a more compact look.
CopyA digital illustration of six simple, 2D side-scrolling platform game tiles, viewed from a true side-on perspective, set against a light beige background. Each tile is rectangular with a clean, minimalistic, and flat design, featuring different environmental themes: 1. A grassy platform...
CopyA digital illustration of a vertical side-scrolling game background, designed in a simple, cartoonish style, set against a light beige background. Bright colors and minimalistic details. Ice theme.
- Настройки игры
- Систему жизней
- Подсчёт очков
- Анимации
- Разные типы платформ
- Главное меню
- Врагов
Интересный отзыв от пользователя Windsurf о новой версии Cursor.
Xeophon получил ранний доступ к обновлению Cursor и, как активный пользователь Windsurf, решил сравнить инструменты. Главное изменение в том, что новый режим Agent в Cursor перенёс функционал Composer в панель чата, сделав его более доступным.
По его мнению, Cursor Tab работает намного лучше любого конкурента на рынке — такой же быстрый, как новая функция Edit Prediction от Zed, но более полезный. При этом встроенные предложения кода от Windsurf он считает непоследовательными и медленными.
Интерфейс нового Cursor ему нравится больше — более красочный, с удобными иконками. Windsurf же слишком серый, в нём сложно найти нужные функции. В Cursor доступно меньше моделей (только o3-mini и Sonnet), но результат работы Sonnet в Cursor был более точным — не содержал ошибок, в отличие от того же Sonnet в Windsurf.
Однако пользовательский опыт в Windsurf всё же лучше: он показывает список файлов и дифы, которые открываются прямо в редакторе и могут быть приняты по одному. Cursor же создаёт новые файлы, которые приходится просматривать в небольшом окне чата.
В целом автор доволен обновлением Cursor, и главное — растущая конкуренция на рынке пойдёт только на пользу всем пользователям!
Сергей Булаев AI 🤖 - об AI и не только
В рубрике #КриповаяСуббота сегодня у нас реальные видео вместо сгенерированных. И это даже чуть пострашнее искусственного! Они успешно соревнуются с записью разговора Groka и ChatGPT из прошлого поста.
На первых двух — летающий электромобиль от Alef Aeronautics, который "перепрыгивает" через другие машины. Компания называет его "первым в истории тестом вертикального взлёта автомобиля в городской среде". CEO Джим Духовный сравнивает этот момент с легендарным полётом братьев Райт в Китти-Хок — доказательством того, что новый вид транспорта возможен.
Машина оснащена четырьмя роторами спереди и четырьмя сзади, пока способна разгоняться только до 40 км/ч, но уже собрала более 3000 предзаказов по цене $300,000 за штуку.
А на третьем — Protoclone, безликий анатомически точный синтетический человек с более чем 200 степенями свободы, 1000 миофибрами и 500 сенсорами. Выглядит так, будто сбежал прямиком из фильма ужасов.
Так и у нас опять проблема с бустами, побустите пожалуйста кому не жалко!
Сергей Булаев AI 🤖 - об AI и не только
Мэтт из Replit записал крутой туториал на 3 минуты о том, как создать игру с помощью Grok 3 и моментально задеплоить её на repl.app. Cуть проста: запрашиваете HTML-код игры у Grok 3, создаёте новое Node-приложение в Replit, копируете код в новый файл, просите ассистента Replit настроить сервер и ваша игра уже доступна онлайн. Если что-то создадите по этой схеме - делитесь результатами в комментариях!
Выкладываю две версии видео - оригинал и перевод через ElevenLabs.
Так и у нас опять проблема с бустами, побустите пожалуйста кому не жалко!
Сергей Булаев AI 🤖 - об AI и не только
В Pika появилась PikaSwap - новая фича для редактирования элементов в AI-видео. Технология позволяет заменять лица персонажей, одежду и другие визуальные детали при этом сохраняя плавность и естественность движений.
Процесс работы довольно прост:1. Загружаете видео или генерируете новое в Pika
2. Выбираете область для замены
3. Загружаете референс-изображение или описываете изменения текстом
4. ИИ обрабатывает запрос, сохраняя движение, освещение и перспективу
5. Скачиваете готовый результат
Кейсы использования разнообразны - от кастомизации персонажей и замены лиц до быстрой адаптации рекламных материалов под разные бренды. Особенно ценно для маркетологов.
Сергей Булаев AI 🤖 - об AI и не только
Лайфхак, который упростит вашу работу с Cursor Composer за 10 секунд:
Используйте /ref и выберите Reference Edited Files что бы добавить все ваши вкладки в контекст.
✅ Grok 3 сказал мне, что 9.11 > 9.9 (распространено и у других LLM), но опять же, включение мышления решает это.
✅ Несколько простых головоломок работали нормально даже без мышления, например, "У Салли (девочки) 3 брата. У каждого брата 2 сестры. Сколько сестёр у Салли?" GPT4o, например, неправильно отвечает 2.
❌ К сожалению, чувство юмора модели не кажется явно улучшенным. Это распространённая проблема LLM с юмором и общим схлопыванием режимов - например, известно, что 90% из 1008 ответов ChatGPT на просьбу рассказать шутку были повторениями одних и тех же 25 шуток. Даже при более детальных промптах, уводящих от простых каламбуров (например, "дай мне стендап"), я не уверен, что это юмор на уровне современных достижений. Пример сгенерированной шутки: "Почему курица присоединилась к группе? Потому что у неё были барабанные палочки, и она хотела стать рок-звездой!" Режим мышления не помог, возможно, даже немного ухудшил ситуацию.
❌ Модель всё ещё кажется слишком чувствительной к "сложным этическим вопросам", например, сгенерировала страничное эссе, по сути отказываясь ответить, может ли быть этически оправданным неправильное обращение к чьему-то полу, если это означает спасение миллиона людей от смерти.
❌ Тест Саймона Уиллисона "Сгенерируй SVG пеликана на велосипеде". Это проверяет способность LLM располагать множество элементов на 2D-сетке, что очень сложно, потому что LLM не могут "видеть" как люди, поэтому располагают вещи вслепую, в тексте. Отмечаю как неудачу, потому что эти пеликаны довольно хороши, но всё же немного сломаны. У Claude получаются лучшие, но, думаю, они специально тренировали способности SVG во время обучения.
Итог
Судя по быстрой проверке в течение ~2 часов этим утром, Grok 3 + Thinking ощущается где-то на уровне самых современных моделей OpenAI (o1-pro, $200/месяц) и немного лучше DeepSeek-R1 и Gemini 2.0 Flash Thinking. Это невероятно, учитывая, что команда начала с нуля ~1 год назад - такие сроки достижения современного уровня беспрецедентны. Учтите также оговорки - модели стохастичны и могут давать слегка разные ответы каждый раз, и сейчас очень рано, поэтому нам придётся подождать гораздо больше оценок в течение следующих дней/недель. Ранние результаты LM arena выглядят весьма обнадёживающе. Пока что, большие поздравления команде xAI - у них явно огромная скорость и импульс, и я рад добавить Grok 3 в свой "совет LLM" и услышать, что он думает в будущем.
Сергей Булаев AI 🤖 - об AI и не только
Посмотрел презентацию Grok 3, и оказалось, что для тренировки использовали не 100k, а целых 200k GPU! По словам создателей, модель уделала всех в математике, кодинге и научных ответах. Ранняя версия под кодовым названием Chocolate две недели тестировалась на Chatbot Arena, набрав впечатляющие 1400 очков. Ну и конечно же появился первый официальный агент на Гроке - Deep Search (да, весьма оригинальное название).
В процессе демо показали создание анимации перелёта космического корабля с Земли на Марс. Оказывается, возможность такого перелёта появляется каждые 2 года, и следующее "окно" будет в конце следующего года. В этот момент Илон планирует отправить туда свои космические корабли с Оптимусами и Гроком на борту.
Мне лично понравились интерфейсы Deep Search и режима размышлений вообще. Хочется уже побыстрее пощупать самому.
Grok 3 станет доступен на Premium+ подписке X уже сегодня. А вот для доступа к Deep Search и расширенному режиму размышлений придётся купить доступ к SuperGrok на сайте grok.com (который, кстати, прямо сейчас лежит).
API обещают только через несколько недель... 😐
Сергей Булаев AI 🤖 - об AI и не только
Смотрите, первый в мире ИИ-инвестор, выписывает чек на $100k! Зовут её No Cap. 🚫🧢
Основатель Wonder Family Артём Голдман получил подписанный SAFE и деньги. На финальном звонке No Cap управилась за 3 минуты: подписала документы, перевела $100k, познакомила с пятью новыми инвесторами и даже подкинула контакт потенциального сотрудника. Эффективность - огонь!
Я в прошлом году убил десятки часов на общение с инвесторами, и продолжаю тратить 2-3 в неделю. А тут - раз, и за 3 и готово!
No Cap обучали на более чем 60 выпускниках Y Combinator (сами ребята тоже оттуда), и они называют себя "No Cap Mafia". На звонке, она говорит, что не собирается на Burning Man, и вообще общаться с ней можно 24/7, но только если сам фаундер этого захочет.
Готовимся к следующему уровню: ИИ инвестор встречает ИИ фаундера.
Сергей Булаев AI 🤖 - об AI и не только
Играю в Hedra Character 3, глючит жёстко, отказывается от генераций постоянно. С ошибками и без. Просто не создаёт и всё. Но иногда что то прикольное выходит. Хотелось бы стабильности для экспериментов.
Сергей Булаев AI 🤖 - об AI и не только
Новый Hedra Character-3 — первая омнимодальная модель, которая одновременно думает в тексте, картинках и звуке.
Собрали всё в одном: text-to-video, audio-to-video, генерация персонажей с сохранением стиля, динамические фоны. Прямотаки новая ступень эволюции видеогенерации.
Надо тестить самому! Сколько осталось инфлюенсерам?
Сергей Булаев AI 🤖 - об AI и не только
Aidan (кстати работающий в OpenAI), показал рисованную картинку трём моделям и попросил нарисовать тоже самое. Посмотрите что получилось.
Также у него нашёл пример с прогрессом рисования автопортрета по моделям GPT.
Сергей Булаев AI 🤖 - об AI и не только
Итак вышел GPT-4.5 (проект Orion)!
Все пишут о наконец то улучшенном эмоциональном интеллекте и творческих способностях. Модель стала больше походить на человека, чем на механического помощника. Меньше отказов, больше естественных ответов, лучше форматирование.
Как понимаете, релиз совпал с выходом Claude 3.7 Sonnet, который наоборот сделал акцент на кодинге, но потерял в "человечности".
По бенчмаркам - GPT-4.5 набрал 64% на Simple QA, почти вдвое больше чем GPT-4. Это значит, что он должен меньше галлюцинировать... хотя на практике явных улучшений пока не видно.
Интересные факты:- В Every дали GPT-4.5 пройти личностные тесты вместе с GPT-4o! По сравнению с предшественником, 4.5 оказался более экстравертным, открытым, добросовестным и менее невротичным. Забавно, что оба получили эстетику "Тёмная Академия" в тесте BuzzFeed.
- При просьбе исправить и подытожить стенограмму мыслей, GPT-4o следовал инструкциям буквально, а 4.5 часто - предпочитал написать эссе, игнорируя точные указания. Зато текст получался гораздо лучше и читабельнее.
- OpenAI называет стиль письма GPT-4.5 "Orion prose" - текст с паузами и переносами, который лучше звучит при чтении вслух. Они признались, что проектировали 4.5 больше для голосового режима, чем для чтения.
- Модель может быть своенравной - она не обязательно даст точно то, что вы просите, но предложит то, что считает лучшим. - Это раздражает тех, кто привык к послушным ассистентам.
- GPT-4.5 стоит примерно в 20 раз дороже предыдущих моделей! Неудивительно, что OpenAI пока сделала его доступным только для Pro-пользователей.
Модель доступна через API и в профессиональном плане, на плюсе обещают на следующей неделе.
Сергей Булаев AI 🤖 - об AI и не только
Anthropic выкатили Claude 3.7 Sonnet - свою первую гибридную модель с расширенным мышлением. И да, наконец-то, он может либо быстро отвечать, либо думать пошагово прямо на наших глазах.
По бенчмаркам, новый Клод выглядит просто роскошно! В программировании буквально рвёт — 70.3% на SWE-bench (с кастомным скаффолдом) против жалких 48.9% у o1. Космос!
В агентском использовании инструментов (TAU-bench) тоже явно впереди с 81.2% в ритейл-сценариях (против 71.5% у Claude 3.5 и 73.5% у o1). В следовании инструкциям вообще монстр — 93.2% с расширенным мышлением.
Забавный момент с математикой для старшеклассников (AIME) — с расширенным мышлением даёт 80% (против 83.3% у o1), а без него падает до жалких 23.3%. Тут ещё нужно поработать, похоже.
Для API-юзеров добавили тонкий контроль времени обдумывания — можно задать сколько именно токенов модель потратит на размышления, до 128К. Это как раз то, чего не хватало в o1, и сразу помогает сбалансировать скорость, стоимость и качество.
Anthropic запустили и новый инструмент Claude Code — консольную утилиту для написания кода прямо из терминала (правда, пока только в режиме ограниченного превью).
А вот с ценами всё приятно: $3 за миллион входящих токенов и $15 за миллион исходящих, включая "думательные" токены. Модель уже доступна на всех тарифах, даже на бесплатном (но без расширенного мышления).
Сергей Булаев AI 🤖 - об AI и не только
ByteDance (создатели/владельцы TikTok) продолжают удивлять! Свежий пейпер про OmniHuman-1 демонстрирует очередной взрыв мозга в генерации видео с говорящими людьми.
Главная тема - это "омни-кондишн" тренировка, которая позволяет модели учиться сразу на разных типах данных. Проще говоря, они научились использовать даже те видео, которые раньше приходилось выбрасывать из-за шума или плохой синхронизации губ.
В результате получилась универсальная модель, которая:- Умеет работать с любыми пропорциями кадра
- Точно передает движения губ и жесты
- Сохраняет стиль оригинального изображения
- Справляется даже с мультяшными персонажами
Самое поразительное - это объем данных. Для тренировки использовали 18.7K часов видео, из которых только 13% подходили под строгие критерии качества. Но благодаря новому подходу, модель смогла научиться даже на "плохих" примерах.
А ещё она умеет анимировать не только лица, но и полноценные сцены с объектами - например, музыкант с гитарой или человек с бокалом вина.
Результаты выглядят роскошно - в сравнительных тестах OmniHuman обходит существующие решения по всем метрикам. Правда, пока это только исследование, использовать его никак нельзя, но учитывая, что за ним стоит ByteDance - ждем появления этих технологий в их продуктах. (Похоже скоро криэйтеры будут не нужны совсем)
Сергей Булаев AI 🤖 - об AI и не только
Майкрософт на прошлой неделе представили свой первый квантовый компьютер - Majorana 1! И тут реально есть чем восхититься. Ребята не просто собрали какуюто новую машину, а создали совершенно новое состояние материи - не твёрдое, не жидкое и не газообразное, а топологическое.
Для тех кто не в теме квантовых вычислений:
Представьте обычный компьютерный бит - он может быть либо 0, либо 1. А кубит (квантовый бит) может находиться в обоих состояниях одновременно! Это как если бы монетка при подбрасывании могла быть и орлом и решкой сразу. Именно эта особенность и даёт квантовым компьютерам их суперсилу.
Что особенного в Majorana 1:- Использует совершенно новый тип материалов - топокондукторы
- Кубиты получились в 100 раз меньше существующих (0.01 мм)
- На одном чипе размером с ладонь можно разместить миллион кубитов
- Работает намного стабильнее других квантовых компьютеров
По словам Сатьи Наделлы, это прорыв позволит создать реально работающий квантовый компьютер не через десятилетия, как предполагалось, а уже через несколько лет. Такая машина сможет решать задачи, с которыми не справятся все существующие компьютеры вместе взятые.
Перевёл для вас обзорное видео (оригинал тут) от Microsoft о том, как это всё работает. ElevenLabs, как обычно, местами глючит, но общий смысл передаёт хорошо.
P.S. Создание этой технологии заняло у Microsoft почти 30 лет. Настойчивость заслуживает уважения. Интересно, что будет дальше!
Сергей Булаев AI 🤖 - об AI и не только
Свежий, 3-й стартерпак ИИ инженера от ElevenLabs доступен прямо сейчас! Приурочен к их хакатону этих выходных и включает кучу бонусов и скидок для разработчиков ИИ приложений.
В набор входят кредиты от различных сервисов: Notion, Intercom, MistralAI, FAL, Hugging Face, а также новые бонусы от StackBlitz, ExaAI Labs и DeepReel AI. Отличная возможность поэкспериментировать с различными ИИ-инструментами без лишних затрат.
Разбирайте пока промо-коды не закончились!
Сергей Булаев AI 🤖 - об AI и не только
Тем временем в сети начали появляться первые демонстрации голосового режима Grok 3. Судя по утечкам, ассистент будет доступен с как минимум двумя голосами - "Ara" (женский) и "Sal" (мужской), и похоже, что они предназначены для разных уровней подписки.
Пока голосовой Grok похоже сохранил свою фирменную "раскрепощённость" - в отличие от довольно зажатого ChatGPT Advanced Voice Mode. В одном из видео даже показали диалог голосовых ассистентов, где разница в подходах к модерации контента видна невооружённым глазом.
Среди заявленных возможностей: доступ в интернет, настраиваемые инструкции, сохранение транскриптов, работа в фоновом режиме, пение и даже смех. Запуск, похоже, уже совсем скоро!
Внимание, в переведённом диалоге между ChatGPT и Grok 3 очень много хамства.
Так и у нас опять проблема с бустами, побустите пожалуйста кому не жалко!
Сергей Булаев AI 🤖 - об AI и не только
Spotify начал принимать аудиокниги, озвученные с помощью голосов ElevenLabs. С сегодняшнего дня авторы могут публиковать свои произведения напрямую на Spotify и другие крупные площадки через партнерство с Findaway Voices.
Это значительный шаг вперёд для независимых авторов, которым раньше приходилось заниматься дорогостоящим и трудоёмким процессом создания аудиоверсий своих работ. Теперь распространение станет быстрее, проще и доступнее.
Я давно пользуюсь ElevenLabs для разных проектов (переводы видео и искусственные подкасты, генерация гипно сессий), и качество их голосов очень радует. Теперь эти технологии смогут помочь авторам достичь новой аудитории и получать доход, когда слушатели покупают или стримят их аудиокниги.
Сергей Булаев AI 🤖 - об AI и не только
Китайский стартап MagicLab представил роботизированную руку MagicHand S01 с роскошными показателями. 11 степеней свободы и гибридная система управления силой/положением позволяют выполнять сложные манипуляции с предметами.
Грузоподъёмность до 5 кг для самой руки и до 20 кг для всего роботизированного манипулятора MagicBot. Технические детали тоже норм: точность измерения силы до 0,1Н, частота синхронизации до 100Гц и 30% запас прочности для всех ключевых компонентов.
В декабре компания уже демонстрировала своих роботов на производственной линии, где они занимались проверкой продукции, перемещением материалов и сканированием штрих-кодов.
Финансирование на уровне - 150 миллионов юаней ($20 млн) в раунде ангельских инвестиций. Направления понятные - расширение команды, доработка технологий, масштабирование производства.
Сергей Булаев AI 🤖 - об AI и роботах
В Venture Beat статья о трансформации процесса разработки в текущих реалиях.
Replit в партнёрстве с Anthropic и Google Cloud превратил обычных сотрудников Zillow в разработчиков. И это не просто эксперимент - через приложения, созданные людьми, которые раньше никогда не писали код, сейчас проходит более 100 000 запросов от покупателей недвижимости!
"Мы наблюдаем трансформацию в том, как бизнес создает программные решения," говорит Микеле Катаста, президент Replit. "Нашу платформу всё чаще используют команды маркетинга, продаж и операционной деятельности, которым нужны индивидуальные решения, которые готовое ПО предоставить не может."
Майкл Герстенхабер, вице-президент по продуктам Anthropic, особо отмечает подход Claude к генерации кода: "Claude отлично справляется с созданием чистого, поддерживаемого кода, понимая сложные системы на разных языках и фреймворках. Он подходит к проблемам стратегически, часто делая шаг назад для анализа общей картины, вместо того чтобы сразу бросаться писать код."
Журналистка Claire Lehmann: "Создала 2 новые внутренние системы для моей команды за эту неделю (заявки на отпуск/поддержка клиентов) используя код, сгенерированный Claude. Заняло в сумме 1 день и сэкономило нам $5-10K на консультантах. Если выпускница факультета английского и психологии как я может использовать код для создания вещей, то любой гуманитарий сможет."
Сергей Булаев AI 🤖 - об AI и не только
Андрей Карпаты уже успел попользоваться Grok 3 и написал довольно подробный и интересный обзор (привожу в переводе Клода, если что не так - пишите):
Мне сегодня дали ранний доступ к Grok 3, что делает меня, пожалуй, одним из первых, кто смог провести быструю оценку.
Мышление
✅ Во-первых, Grok 3 явно имеет современную модель мышления (кнопка "Think") и отлично справился с моим вопросом по Settlers of Catan прямо из коробки. Я попросил создать веб-страницу с гексагональной сеткой, как в игре, с возможностью менять количество "колец" с помощью слайдера. Немногие модели справляются с этим надёжно. Топовые модели OpenAI (например, o1-pro за $200/месяц) тоже справляются, но DeepSeek-R1, Gemini 2.0 Flash Thinking и Claude - нет.
❌ Модель не смогла решить мою "загадку с эмодзи", где я даю смайлик с скрытым внутри сообщением через Unicode-селекторы вариаций, даже когда я дал сильную подсказку в виде кода на Rust. Больше всего продвинулся DeepSeek-R1, который однажды частично декодировал сообщение.
❓ Модель решила несколько партий в крестики-нолики с хорошей цепочкой рассуждений (многие современные модели часто не справляются!). Я повысил сложность и попросил сгенерировать 3 "хитрых" позиции в крестиках-ноликах - тут она не справилась (генерируя бессмысленные доски/текст), но и o1 pro тоже не справился.
✅ Я загрузил статью про GPT-2. Задал несколько простых вопросов - всё сработало отлично. Затем попросил оценить количество флопс на обучение GPT-2, без поиска. Это сложно, потому что количество токенов не указано явно, поэтому нужно частично оценивать и частично вычислять, проверяя способности поиска, знаний и математики. Grok 3 с включенным мышлением отлично справился, в то время как o1 pro (модель мышления GPT) не справился.
Мне нравится, что модель пытается решить гипотезу Римана, когда её просят об этом, подобно DeepSeek-R1, в отличие от многих других моделей, которые сразу сдаются (o1-pro, Claude, Gemini 2.0 Flash Thinking) и просто говорят, что это великая нерешённая проблема.
DeepSearch
Очень интересное предложение, которое, похоже, сочетает в себе что-то вроде "Deep Research" от OpenAI/Perplexity вместе с мышлением. Может давать качественные ответы на различные исследовательские вопросы. Вот несколько примеров:
✅ "Что там с предстоящим запуском Apple? Какие слухи?"
✅ "Почему в последнее время растут акции Palantir?"
✅ "White Lotus 3 - где снимали и та же ли команда, что в сезонах 1 и 2?"
✅ "Какой зубной пастой пользуется Брайан Джонсон?"
❌ "Где сейчас актёры 4 сезона Singles Inferno?"
❌ "Какую программу распознавания речи упоминал Саймон Уиллисон?"
❌ Я обнаружил некоторые проблемные места. Например, модель, похоже, по умолчанию не любит ссылаться на X как на источник, хотя можно явно попросить её об этом. Несколько раз я ловил её на галлюцинациях с несуществующими URL. Иногда она утверждала фактические вещи, которые, думаю, неверны, и не предоставляла для них цитат (вероятно, их не существует). Например, она сказала мне, что "Ким Чжон Су всё ещё встречается с Ким Мин Соль" из Singles Inferno Season 4, что наверняка совершенно неверно. А когда я попросил создать отчёт о крупных лабораториях LLM, их общем финансировании и оценке количества сотрудников, она перечислила 12 основных лабораторий, но не включила себя (xAI).
DeepSearch примерно на уровне DeepResearch от Perplexity (что само по себе здорово!), но пока не дотягивает до недавно выпущенного OpenAI "Deep Research", который всё ещё кажется более тщательным и надёжным (хотя тоже далеко не идеален - он тоже неправильно исключает xAI из "основных лабораторий LLM", когда я попробовал с ним...)
Случайные "подводные камни" LLM
Я попробовал ещё несколько забавных тестовых запросов, которые люблю периодически проверять. Это запросы, которые специально простые для людей, но сложные для LLM, и мне было интересно, с какими из них Grok 3 справляется лучше.
✅ Grok 3 знает, что в слове "strawberry" три буквы "r", но при этом сказал, что в LOLLAPALOOZA только три "L". Включение режима мышления решает эту проблему.
Сергей Булаев AI 🤖 - об AI и не только
Криминальный лайфхак:
Носите дополнительный палец постоянно. Тогда любые фото/видео улики будут выглядеть как ИИ генерация.