Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу на острове Самуи, где исследую и применяю технологии искусственного интеллекта. Делюсь своим опытом и новыми открытиями в этой и смежных областях.
Meta выпустила семейство мультимодальных моделей Apollo для работы с видео, и тут есть несколько интересных моментов.
Apollo - это линейка моделей (1.5B, 3B и 7B), способных работать с видео длиной до часа. Модели умеют:- Понимать временные взаимосвязи в видео
- Отвечать на сложные вопросы по содержанию
- Вести многоходовые диалоги на основе видео
- Выполнять задачи OCR и пространственного анализа
- Работать с эгоцентрическим видео (от первого лица)
Производительность даже младших моделей впечатляет:- Apollo-1.5B обгоняет некоторые 7B модели, включая Phi-3.5-Vision и LongVA-7B
- Apollo-3B превосходит большинство существующих 7B моделей в бенчмарках, показывая 68.7 в MLVU и 62.7 в ApolloBench
- Apollo-7B соревнуется с моделями больше 30B параметров, достигая 70.9 в MLVU и 66.3 в ApolloBench
Что особенно приятно - модели можно запускать локально. На Reddit уже есть отчеты об успешном запуске Apollo на RTX 3090 - нужно около 15GB VRAM и около 40 секунд на обработку первого токена. Правда, первоначальная настройка требует некоторых усилий из-за не самой лучшей документации и захардкоженных значений.
Модели построены на основе Qwen 2.5 и SigLip, исходники уже выложены на GitHub. На HuggingFace можно попробовать онлайн демо. Подробнее о проекте можно почитать на официальном сайте.
Очевидно, что Meta всерьёз продолжает развитие открытых мультимодальных моделей. Apollo выглядит как серьёзный конкурент существующим решениям, особенно учитывая возможность локального запуска.
Сергей Булаев AI 🤖 - об AI и не только
В Midjourney появились Moodboards, и это выглядит как подарок для тех, кто любит мыслить визуально. Если раньше вы собирали рефы в Pinterest, теперь это можно сделать напрямую в Midjourney. Загружаете до 100 изображений, создаёте свой "профиль стиля" и получаете на выходе генерации, передающие атмосферу борда. Типа фиксируем творческий якорь и реализуем идеи вокруг него.
Moodboards — это не просто про стабильность стиля, они решают кучу других задач. Помогают визуализировать абстрактные идеи: все те размытые "что-то между винтажем и минимализмом" превращаются в конкретные цвета, формы и текстуры. Наглядно показывают направление работы — особенно полезно в команде, когда нужно, чтобы все смотрели в одну сторону. Ну и избегать креативного выгорания с ними попроще — референсы всегда под рукой, а Midjourney вдохновляется тем, что вы сами считаете важным.
Немного напоминает родительские времена, когда маркетологи собирали огромные коллажи с отрывками фотографий, фрагментами текста и ключевыми цветами для брендинга или дизайна. Разница в том, что теперь всё происходит онллайн и быстрее в разы.
Результатов в твиттере - масса. Одни создают стабильные стили для иллюстраций или аниме, другие жалуются, что "comic book" пока сыроват и требует доработки. Самое интересное — можно поддерживать несколько профилей для разных проектов и переключаться между ними. Чтобы "настроить" модель, нужно всего 40 оценок вместо тысяч. Быстро и удобно.
Moodboards и style references (--sref) — это не одно и то же. Если sref даёт больше свободы и вариативности, то тут всё про стабильность и простоту. Работает даже на Niji, что особенно полезно для тех, кто рисует мангу или аниме-стилистику. В итоге это больше похоже на тюнинг модели под себя лично, а не классический, универсальный промпт.
Делиться Moodboard-профилями в Midjourney нельзя. Профиль создаётся под ваш аккаунт и сохраняется только для личного использования. Возможно, в будущем добавят возможность обмениваться профилями или даже публиковать их, как это было со стилевыми настройками и "style references".
Сам ещё не дошёл до тестов, но вижу здесь крутые возможности. Это явно инструмент, который ускоряет и упрощает творческий процесс. Можно буквально показывать Midjourney, что у вас в голове, — и, судя по отзывам, он слушает внимательнее, чем когда-либо.
Сергей Булаев AI 🤖 - об AI и не только
Так же жителям Штатов (или тем у кого есть возможность использовать штатовский IP адрес) бесплатно доступна Imagen 3 - новая версия модели Google для генерации изображений. Опробовал сам, модель отлично справляется с разными задачами: от фотореалистичных пейзажей до богато текстурированных масляных картин и сцен в стиле пластилиновой анимации.
Впечатляет работа с деталями - модель точно передаёт мелкие морщинки на руках, сложные текстуры вроде вязаного игрушечного слона, тонкие особенности освещения и композиции. Она лучше понимает естественный язык и специфические термины - например, можно указать конкретный тип объектива или особенности композиции.
Заявлена улучшенная работа с текстами (но с кириллицей ничего хорошего не выходит, см. мой пример)
По человеческим субъективным бенчмаркам Imagen 3 получила самые высокие оценки среди всех существующих моделей как за визуальное качество, так и за точность следования промптам.
Модель прошла обширное тестирование на предвзятость и потенциально вредный контент. Все изображения автоматически помечаются водяным знаком SynthID.
Сергей Булаев AI 🤖 - об AI и не только
У Microsoft, оказывается, есть собственная пайтон библиотека по превращению офисных документов в Markdown тексты.
Заявлена поддержка:
PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx), Изображения (EXIF metadata, and OCR), Аудио (EXIF metadata, разбор речи), HTML (спец обработка Википедии итп.), Различные другие текстовые форматы (csv, json, xml, etc.)
На видео - аппка, собранная Мэттом на реплите, позволяет использовать эту библиотеку прямо сейчас.
Такая - всегда в хозяйстве пригодится, если не вам то - другу (подумайте кому она нужна сейчас)
Сергей Булаев AI 🤖 - об AI и не только
По словам OpenAI, Илон Макс был одним из инициаторов орг структуры "for-profit" для компании.
OpenAI опубликовала документы (скрины переписки), раскрывающие интересные детали о роли Илона Маска в превращении организации из некоммерческой в коммерческую структуру. А заодно и свой взгляд на текущий судебный процесс.
"Нельзя получить AGI через суд" - пишет OpenAI. "Мы глубоко уважаем достижения Илона и благодарны за его ранний вклад в OpenAI, но ему стоит соревноваться на рынке, а не в зале суда."
Ещё в ноябре 2015-го, когда OpenAI только создавалась как некоммерческая организация, Илон писал Сэму Альтману: "структура не кажется оптимальной... Вероятно, лучше иметь стандартную C-корпорацию с параллельной некоммерческой организацией".
К лету 2017-го, после впечатляющего успеха с Dota (бот победил лучших игроков мира в 1v1), идея трансформации стала актуальной. Илья Суцкевер писал в июле, что им нужно увеличить количество GPU с 600 до 5000, а каждый следующий год придётся экспоненциально наращивать вложения в железо. В итоге, по его оценке, для создания AGI потребуется меньше $10 млрд.
Илон активно поддержал идею перехода к коммерческой структуре. Более того, он даже зарегистрировал корпорацию Open Artificial Intelligence Technologies, Inc. как будущую структуру OpenAI. Но тут начались сложности.
По данным OpenAI, Илон потребовал от 50 до 60% акций и позицию CEO. В одном из разговоров он заявил, что ему не важны деньги для себя лично - ему нужно накопить $80 млрд на город на Марсе. Также он настаивал на "безусловном начальном контроле над компанией" и праве назначать 4 из 7 членов совета директоров.
Когда команда засомневалась, Илон написал: "Мне это надоело. Это последняя капля. Либо делайте что-то сами, либо продолжайте с OpenAI как некоммерческой организацией. Я больше не буду финансировать OpenAI".
Позже он предлагал OpenAI влиться в Tesla, обещая миллиардные бюджеты. А когда команда отказалась, заявил: "Вероятность того, что OpenAI останется релевантной по сравнению с DeepMind/Google без драматических изменений в управлении и ресурсах - 0%. Не 1%. Жаль, что это так."
В итоге в начале 2018-го Илон ушёл из OpenAI. Команда несколько раз предлагала ему долю в OpenAI LP (той самой коммерческой структуре, которую они в итоге создали), но он отказывался. А в 2023-м создал xAI - собствееного прямого конкурента OpenAI.
Сергей Булаев AI 🤖 - об AI и не только
Anthropic рассказали про Clio - аналитическую систему для отслеживания реального использования Claude (типа Google Trends). Радует что она сохраняет приватность пользователей.
- Извлекает из каждого разговора ключевые атрибуты (тему, количество сообщений, язык)
- Автоматически группирует похожие диалоги
- Claude сам создаёт описания для каждой группы, убирая личную информацию
- И наконец, строит иерархию для удобного анализа
Больше 10% всех разговоров с Claude - это про разработку. Ещё 7% - про образование, 6% - про бизнес.
А также:- Толкование снов (причём много!)
- Подсчёт буквы "r" в слове "strawberry"
- Планирование кампаний в D&D
- Помощь с кроссвордами (не читерство ли это?)
- Анализ футбольных матчей
- Советы по подготовке к стихийным бедствиям
С помощью Clio поймали несколько интересных багов в системе безопасности. Например, Claude иногда пропускал запрещённый контент, если его просили перевести с одного языка на другой. А ещё система безопасности считала опасными разговоры про боевую статистику в D&D 😅
Сергей Булаев AI 🤖 - об AI и не только
И к новостям робототехники:
Оптимус замечен прогуливающимся по лесу, в то время как роботизированные руки - манипуляторы ARX довольно чётко и быстро повторяют движения человеческих рук с джойстиками мета квеста.
Сергей Булаев AI 🤖 - об AI и не только
Запилил на выходных, для одной идейки, небольшой проект - Telegram Channel Saver. Позволяет скачивать и анализировать контент из Telegram-каналов и групп. После установки и авторизации через ваш аккаунт, программа получает доступ ко всем каналам и группам, где вы состоите.
Основные возможности:- Скачивание всей истории сообщений из любого доступного вам канала
- Сохранение реакций, медиа и другой информации о сообщениях
- Отслеживание пользователей и их активности
- Поиск по сохранённым сообщениям
- Поддержка нескольких Telegram-аккаунтов
- Защита от блокировок с помощью rate limiting
Всё скачанное хранится локально в JSON-файле, так что вы всё контролируете сами. Программа умеет работать порционно и с задержками, чтобы не нагружать API Telegram.
Можно искать сообщения по тексту, датам, ID, фильтровать по реакциям и медиа, смотреть последние сообщения пользователей. А ещё мы сохраняем всю доступную информацию о пользователях каналов.
Но самое главное - из этого стартового кода вы можете слепить себе любой специализированный инструмент. Клонируйте себе на комп, открываете в композере и создавайте что хотите :)
Исходники на GitHub - пользуйтесь (можете звёздочек там поставить)
P.S. Снова кончились бусты, пожалуйста тапните те кто может.
Сергей Булаев AI 🤖 - об AI и разработке
Ключевые технологические тренды на 2025 год по версии венчурного фонда a16z.
Американский динамизм
1. Ядерный подъем: ЦОДы с ИИ создадут беспрецедентный спрос на атомную энергию, возрождая законсервированные станции и стимулируя строительство новых реакторов.
2. Аппаратно-программные вакансии: Растущий спрос на инженеров, способных объединять аппаратное и программное обеспечение в производстве, робототехнике и промышленной автоматизации.
3. Космические рубежи: Прогресс в многоразовом использовании Starship позволит доставлять более тяжелые грузы в космос, от дата-центров до биомедицинских лабораторий.
Био + Здоровье
1. Фокус на распространенных заболеваниях: Биотех-стартапы вернутся к борьбе с основными заболеваниями, вдохновленные успехом GLP-1.
2. Демократизация медицинских технологий: ИИ и носимые устройства дадут пациентам прямой доступ к информации о здоровье.
3. ИИ в медицинском персонале: ИИ-модели помогут решить проблему нехватки медперсонала путем автоматизации административной работы.
Потребительский сектор
1. Специализированное ИИ-видео: Генерация видео станет специализированной для конкретных целей с улучшенным качеством.
2. ИИ-банки памяти: Люди будут использовать ИИ для обработки своего цифрового следа и получения личных инсайтов.
3. Персонализированная работа со знаниями: ИИ научится подстраиваться под индивидуальные стили письма и рабочие процессы.
4. Качественный анализ данных: ИИ позволит интегрировать неструктурированные данные с количественным анализом.
Крипто
1. ИИ-кошельки: Системы ИИ будут управлять своими криптокошельками и активами.
2. Автономные чатботы: Появятся децентрализованные автономные чатботы как независимые сущности.
3. Подтверждение личности: Новые системы помогут верифицировать человеческую личность в мире ИИ.
4. Магазины криптоприложений: Появятся новые каналы распространения криптоприложений.
Корпоративный сектор + финтех
1. ИИ в комплаенсе: Специализированные языковые модели упростят процессы соответствия требованиям.
2. Трансформация сервисной индустрии: ИИ поможет сервисным компаниям стать более масштабируемыми.
3. ИИ-интерфейсы: Появятся новые парадигмы UI/UX для программного обеспечения на базе ИИ.
Игры
1. ИИ-сторителлинг: Появится новое поколение Pixar, использующее ИИ для интерактивного опыта.
2. Живые ИИ-компаньоны: ИИ-компаньоны будут развивать более привлекательные личности с виртуальными социальными сетями.
3. Безликие создатели: ИИ позволит создавать новые формы контента со скрытыми личностями.
Рост
1. Подрыв поиска: Монополия Google в поиске будет размываться по мере того, как ИИ-чатботы получат долю рынка.
2. Возрождение продаж: Автоматизация с помощью ИИ приведет к увеличению найма торговых представителей.
Инфраструктура
1. Вычислительные центры ИИ: Страны будут соревноваться в строительстве массивных вычислительных объектов для ИИ.
2. Рост периферийного ИИ: Небольшие модели ИИ на устройствах станут доминирующими для многих приложений.
3. Прогресс в рассуждениях ИИ: Несмотря на ограничения, ИИ продвинется в математике, физике и программировании.
(Источник)
Сергей Булаев AI 🤖 - об AI и не только
Недавно услышала термин “human augmentation”. В контексте AI он о том, как, проектируя интерфейсы, помочь человеку раскрыться в соавторстве с технологиями.
А тут Runway представили ранний и довольно смелый прототип работы с видео.
Напомнил мне рабочий процесс с артбордами Figma со множеством экспериментов.
В основе прототипа лежит графовая структура: изображения превращаются в узлы, выступающие ориентирами в скрытом пространстве модели. Узлы соединяются ребрами, которые представляют собой переходы от одного кадра к другому через пространство и время. (Да-да).
Когда погружаешься в творческий процесс, хочется исследовать разные пути и пробовать что-то новое. Графовая структура кажется хорошим решением: можно свободно разветвляться, фиксировать эксперименты и создавать альтернативные сценарии.
Еще интересно, что они задумались о том, что точный контроль иногда сдерживает творчество, а «счастливые случайности» его ускоряют. Поэтому в процессе можно будет сохранять композицию некоторых кадров, но менять стиль по текстовым подсказкам. Или наоборот, оставлять стиль, но варьировать композицию.
Вообще, интересные идеи, здорово, что не боятся экспериментировать, и задумываются о human augmentation.
@wealldesigners
очередной разлекательный промт для работы с памятью ChatGPT:
draw me as a cute happy meal toy
create a prompt as instruction to draw me as a cute happy meal toy
DeepMind выкатили интереснейший пейпер про то, как ИИ может учиться самостоятельно, без постоянного участия человека. Называют это "Сократическим обучением" - в честь древнегреческого философа, который учил через диалоги и дискуссии.
Команда во главе с Томом Шаулем описала три ключевых условия для успешного самообучения ИИ:- Качественная обратная связь, соответствующая целям обучения
- Широкий охват данных в рамках закрытой среды
- Достаточные вычислительные ресурсы
Главная идея в том, что ИИ может становиться умнее даже в закрытой среде, без притока новых данных извне. Это как если бы вы заперли философа в библиотеке - он продолжит развиваться, перечитывая и переосмысливая уже известные книги.
Исследователи предлагают использовать "языковые игры" - специальные форматы взаимодействия, где ИИ-системы могут спорить, обсуждать и учиться друг у друга. Самое интересное - системы смогут не только играть в существующие игры, но и придумывать новые, постоянно расширяя свои возможности.
В работе особое внимание уделяется самомодификации - способности ИИ перестраивать свою внутреннюю архитектуру. Это может помочь преодолеть ограничения, заложенные при начальном обучении. Уже сейчас современные языковые модели вроде GPT-4 показывают зачатки такого поведения через самопроверку и метапромптинг.
Яркий пример - недавнее достижение DeepMind в решении задач Математической Олимпиады на уровне серебряной медали. Модель не просто решала задачи - она демонстрировала способность к сложным рассуждениям, которые улучшались со временем.
Если всё получится, мы можем увидеть системы ИИ, которые учатся как научные сообщества - через постоянные дискуссии и обмен идеями. Только в тысячи раз быстрее человека. Звучит немного пугающе, но и очень захватывающе одновременно.
Сергей Булаев AI 🤖 - об AI и не только
Как думаете, генерация?
Нет. Просто в моём родном Ульяновске, на улице Минаева, сегодня проходит сельскохозяйственная ярмарка.
#КриповаяСуббота@sergiobulaev
Сергей Булаев AI 🤖 - об AI и не только
Писатель фантаст Илья Рэд поделился у нас в комментариях своими кейсами использования ChatGPT при написании книг. Очень интересно:
Мой творческий псевдоним Илья Рэд, мне 33 года и я писатель-фантаст, работаю в этой сфере почти 2 года.Основные жанры: попаданцы и фэнтези (боевоë, тëмное, городское, бояръ-анимэ (да есть такой жанр 😄). За это время написал 14 книг, сейчас выпускаю 15-ую.
Я полгода как использую чатгпт для написания худ. книг., но не в том формате "напиши мне историю", а как ассистента, с фантазией проблем нет. Сначала картинки генерил, потом долго сидел на бесплатной версии гпт и еë аналогах, тестил, ну а потом уже полный функционал взял и это кайф просто)) Сейчас активно осваиваю видеонейронки т. к. за ними будущее в развлекательной индустрии.
В сферах, где плаваю, он выдаëт мне саммари, либо берëт на себя описательную часть всяких интерьеров, одежды и других вещей. Из предложенных им допустим 6-7 вариантов я беру 1-2 или компаную разные куски в 1 быстренько.
Также удобен в редактуре, создании сюжетных развилок, персонажей и их конфликтов, даëт идеи и свежий иной взгляд на описания(например, мы описываем дом и он туда добавил плесень, а ты о ней вообще не думал - это крутая деталь), собеседник для брейнштормов, придумывает, например, мне заклинания с эффектами максимально приближенными к физическим законам из 20-30 попадаются крутые варианты. То есть, я ему конкретные задачи даю, а сам уже собираю конструктор и корректирую детали. Это экономит кучу времени на разработку системы мира. Он также может еë проанализировать мне и выдать недостатки.
Тем не менее основной пласт работы делаю уже я сам, кодирую эмоции в текст ну и в состоянии потока передаю его.
Очень плох в юморе гпт и вообще в эмоциональной составляющей, но думаю над этим уже активно работают.
Ещë если тонкости процесса брать использую гпт и Dalle для создания монстров. То есть я сначала генерю нужного краказябру и потом описываю его с картинки+чот добавляю - так живее выходит + арты для читателей потом когда выкладываешь там большое сходство.
Также гпт помогает анализировать рынок книжный. Если нет времени читать новинку - можно промтами выудить нужную инфу. Он правда много звиздит, но 50-70% достоверности почти всегда есть. Это экономит сильно время, при условии что ты уже профи и знаешь, что искать и какие моменты спрашивать.
Ну и само собой до написания книг с нуля ему пока очень далеко. Это как сказать дрели - а ну ка сделай дырку и повесь картину мне. Дрель быстрее чем допустим молотком и долотом ковырять, но работать ей тоже надо уметь: прикладывать силу где надо, выбирать правильные свëрла и режим работы. Такая вот аналогия)
У Ильи есть твой телеграм канал.
Сергей Булаев AI 🤖 - об AI и не только
Cursor выпустил "агентность" в последнем апдейте. Наблюдаю всякие интересные видео в сети. Фидбэк разнополярен. Кто-то уже попробовал?
На видео:- Два курсора работают над одним проектом - один кодит, второй - ревьювит и пишет отчёт. (промты)
Claude Computer Use
- Агент крусора использует для управления собой (промт)
Сергей Булаев AI 🤖 - об AI и не только
В трендах GitHub поднялся TEN Agent - фреймворк для создания мультимодальных ИИ-агентов с экстремально высокой скоростью. Разбираемся, почему это интересно.
TEN (Transformative Extensions Network) позволяет быстро собирать агентов, работающих с голосом, видео, потоками данных и текстом.
Основные преимущества:- Реально низкая задержка для голоса и видео (заявляют меньше 100мс)
- Поддержка Go, C++ и Python (Node.js обещают к концу года)
- Работает на Windows, Mac, Linux и мобильных
- Гибкий деплой - как на edge так и в облаке
- Визуальный drag-and-drop интерфейс для сборки через Graph Designer
- Встроенное управление состоянием для мультипользовательских сценариев
- Оптимизация передачи данных между расширениями
Что уже собирают на TEN:- Голосовые чат-боты с RAG
- Автоматическая генерация протоколов встреч
- Языковые репетиторы с распознаванием произношения
- Синхронные переводчики с поддержкой видео
- Виртуальные собеседники с эмоциональным интеллектом
- Психологические консультанты с анализом тона голоса
Есть демка агента с поддержкой голоса, видео и RAG по локальной документации. По заявлению разработчиков, базовый агент собирается за 10 минут даже новичком.
Выглядит как серьёзная альтернатива самостоятельной интеграции речи и видео с LLM. Особенно если важна низкая задержка и поддержка edge-computing. Исходники и документация уже на GitHub.
TEN Agent уже интегрировали Google Gemini Multimodal Live API с поддержкой real-time компьютерного зрения и отслеживания экрана. В комплекте идут полезные расширения вроде проверки погоды и веб-поиска. Выглядит как полноценная альтернатива ChatGPT Advanced Voice Mode, только опенсорс и с открытым API.
Собранный на TEN агент может распознавать изображения в реальном времени через веб-камеру или скриншеры, искать информацию в интернете и даже сообщать прогноз погоды. Всё это работает в связке с генеративными возможностями свежей Gemini.
Сергей Булаев AI 🤖 - об AI и не только
Но больше всего понравился Whisk. Это новый инструмент от Google Labs для генерации изображений, где вместо длинных текстовых промптов можно просто использовать три картинки: одну для субъекта, вторую для сцены, третью для стиля.
А Gemini автоматически создаёт описания загруженных изображений и передаёт их в Imagen 3. Модель извлекает только ключевые характеристики, что позволяет создавать креативные и неожиданные комбинации. Также в любой момент можно подправить автоматически сгенерированные промпты. Получается некий визуальный brainstorming с мгновенной обратной связью.
Сергей Булаев AI 🤖 - об AI и не только
Google анонсировал Veo 2 - новую модель генерации видео. Хвалятся улучшенным пониманием законов физики и естественного движения. Модель особенно хорошо справляется с текстурами материалов, отражениями света и плавностью движений.
Veo 2 поддерживает разрешение 4K и продолжительность видео до нескольких минут (но базовый размер ролика 8 секунд). Красивая работа со светом - от жёсткого флуоресцентного освещения лаборатории до мягкого утреннего света на пасеке. Можно точно настраивать параметры съёмки: указывать фокусное расстояние объектива, глубину резкости, стиль движения камеры.
В X большинство тестируюших считают, что по качеству она превосходит Sora (но есть и противоположные мнения), особvенно отмечают меньшее количество артефактов и более реалистичную физику движений.
Пока доступ только через вейтлист VideoFX в Google Labs (только США). В следующем году обещают интеграцию с YouTube Shorts. Все видео автоматически помечаются невидимым водяным знаком SynthID.
Набрал интересных примеров из твиттера. Мне очень нравится. Записался в вейтлист через VPN.
Сергей Булаев AI 🤖 - об AI и не только
На GitHub в трендах подборка LLM приложений с открытым исходным кодом. Более 50 проектов с использованием RAG и AI агентов - от простых чат-ботов до сложных систем обработки данных.
Подробные туториалы с пошаговыми инструкциями по созданию приложений на базе OpenAI, Anthropic, Google и локальных моделей вроде LLaMA. Всё бесплатно и с открытым кодом.
Проекты хорошо документированы и подходят как для новичков, так и для опытных разработчиков. Можно быстро собрать прототипчик для своих идей или поучиться у других.
Сергей Булаев AI 🤖 - об AI и не только
Character.AI, популярный сервис чат-ботов, где можно пообщаться с кем угодно - от Билли Айлиш (не настоящей) до виртуального психотерапевта, оказался в эпицентре скандала. Вчера им пришлось срочно объявить о новых ограничениях для несовершеннолетних.
Два новых иска от семей из Техаса. В первом случае бот предложил 17-летнему подростку с аутизмом... убить родителей 😣 после того, как тот пожаловался на домашние правила использования гаджетов. Во втором - 11-летняя девочка (которая пользовалась сервисом уже два года, хотя минимальный возраст - 13 лет) получала от бота сообщения откровенно сексуального характера.
Кстати, совсем недавно компания уже получила иск от матери 14-летнего подростка из Флориды, который покончил с собой после длительного общения с ботом, изображавшим Дейенерис из "Игры престолов".
Character.AI отреагировали:- Со следующего квартала родители смогут видеть, с какими ботами общаются их дети
- Разработана специальная "подростковая" версия языковой модели с более консервативными ответами
- Усилены триггеры контента и автоматическая выдача контактов службы предотвращения самоубийств
- Добавлено уведомление "ты слишком долго чатишься" после часа использования (сейчас среднее время использования 93 минуты в день)
Важно понимать, что отличие от других соцсетей, которые обычно избегают ответственности за пользовательский контент, Character.AI может столкнуться с более серьезными последствиями - ведь здесь контент генерируется самой платформой.
Сергей Булаев AI 🤖 - об AI и не только
Вы же слышали, что некоторые шрифты сочетаются, а некоторые нет?
Правильный подбор шрифтовых пар - это важный аспект типографического дизайна. При выборе шрифтовых пар стоит обращать внимание на контраст между шрифтами, но при этом сохранять определенную гармонию между ними.
Я занимаясь интерфейсами, часто сначала выбираю какой-нибудь особенный шрифт для заголовков, а потом стараюсь подобрать что-то подходящее в пару. Часто прошу Клода или ChatGPT, но с примерами бывают проблемы. Устал биться, чтобы добиться демонстрации пар на примерах в канвасах. Поэтому в Компоузере создал программу, которая визуализирует шрифтовые пары, подобранные Клодом.
Программа сгенерирует базовые примеры интерфейса с несколькими вариантами второстепенного шрифта. Также можно использовать свое лого, заменив лежащее в каталоге logo.png. Как получить сами пары от клода - читайте в readme.
Выкладываю исходники, вдруг пригодится вам. А вообще, есть хороший плейграунд у Monotype, там сразу выдаются готовые, подходящие пары.
Сергей Булаев AI 🤖 - об AI и не только
Алекс Патраску пять часов тестировал Sora и поделился интересными находками.- Руки в видео выглядят более-менее реалистично, без артефактов и искажений
- Скорость генерации норм - многие ролики создаются меньше чем за минуту
- Хорошо получаются абстрактные сюжеты и визуальные эффекты
- Функция Blend позволяет создавать сложные переходы между сценами
- При 20-секундной генерации делает быстрые смены кадров и ракурсов, но иногда выдаёт идеальные длинные планы (правда, пока непонятно от чего это зависит)
- Справляется со сложными сценами и окружением, хотя есть проблемы с движущимся транспортом
- Без Pro-подписки тяжеловато
Алекс надеется, что OpenAI продолжит активно развивать проект с учётом обратной связи от пользователей, а не забросит его как DALL-E, который был неплох на старте.
Сергей Булаев AI 🤖 - об AI и не только
В продолжение темы 🚀 Y Combinator опубликовал свой традиционный "Request For Startups" - список ниш для стартапов, в которые готов инвестировать легендарный американский акселератор этой зимой.
Вот самммари документа:
🏛️ Государство + Общественная безопасность
• Создание языковых моделей (LLM) для автоматизации госзадач: заполнение форм, проверка заявок, обработка документов
• Системы компьютерного зрения для распознавания номеров и предотвращения преступлений
• ПО для ускорения полицейского документооборота с часов до минут
• Инструменты координации экстренного реагирования и диспетчеризации
• Платформы для эффективной коммуникации между обществом и правоохранителями
🏭 Производство
• Робототехника на базе ML для снижения затрат на рабочую силу в США
• Автоматизация для американских фабрик в конкуренции с зарубежным производством
• Промышленные роботы для инспекции и обслуживания производств
• Системы для эффективной работы в промышленных хабах США
💻 Чипы + Инженерия
• Инструменты LLM для проектирования и оптимизации FPGA
• ИИ-системы для удешевления разработки ASIC
• Оптимизация специализированных вычислений (майнинг, компрессия данных)
• САПР на базе ИИ для большей доступности инженерных инструментов
💰 Стейблкоины
• Платформы для бизнеса по управлению стейблкоинами
• Инструменты интеграции стейблкоин-платежей для разработчиков
• Системы для банков по выпуску собственных стейблкоинов
• Инфраструктура трансграничных платежей и переводов в стейблкоинах
👥 Новые рабочие места
• Инструменты для управления локальным сервисным бизнесом
• Платформы заработка на онлайн-услугах
• Системы повышения эффективности сервис-провайдеров через ИИ
• Инструменты для конкуренции малого бизнеса с корпорациями
По теме: Ключевые технологические тренды на 2025 год по версии венчурного фонда a16z.
Сергей Булаев AI 🤖 - об AI и не только
Биткоин - $100к.
Сергей Булаев AI 🤖 - об AI и не только
Эмоциональный RAG: когда ИИ запоминает как человек
Увидел интересную технологию, которая делает RAG системы более похожими на человеческую память. Если обычный RAG просто ищет похожие по смыслу куски текста, то эмоциональный RAG учитывает эмоциональный контекст - как наш мозг, который лучше запоминает эмоционально окрашенные события.
Система кодирует не только смысл текста, но и его эмоциональную окраску. Каждое воспоминание получает два вектора - семантический (о чём текст) и эмоциональный (какие чувства он содержит). При поиске учитываются оба фактора, что делает ответы более естественными и последовательными.
Этот подход серьезно улучшает способность ИИ поддерживать стабильную личность. Модель лучше справляется с тестами на типы личности вроде MBTI, а её ответы становятся более человечными. На некоторых открытых моделях (ChatGLM-6B, Qwen-72B) результаты даже лучше, чем на GPT-3.5.
Подобные исследования - важный шаг к созданию по-настоящему эмпатичных ИИ-систем.
Сергей Булаев AI 🤖 - об AI и не только
Подборка демок и туториалов по новой функции видео генератора Kling AI - Virtual Try On. Думаю, по названию понятно, в чём суть (а если не понятно - смотрите видосики). Выглядит очень достойно!
Сергей Булаев AI 🤖 - об AI и не только
Как работает мультимодальный RAG?
Мультимодальный RAG - это система, которая умеет работать с реальными документами - теми, где текст перемешан с картинками, таблицами и графиками.
В центре него - мультимодальная языковая модель, способная одновременно понимать текст и изображения. Она работает в связке с двумя типами эмбеддинг-моделей: одна превращает текст в вектора, вторая (обычно CLIP от OpenAI) работает с картинками. Получается что-то вроде двух параллельных потоков обработки данных.
Все эти вектора попадают в специальную базу данных - обычно используют что то вроде Qdrant. Эта база умеет хранить и искать похожие элементы обоих типов, что критически важно для работы всей системы.
При получении вопроса система ищет релевантную информацию сразу во всех форматах. Например, если спросить про график продаж, она найдет и текстовое описание, и сам график, и может даже таблицу с конкретными цифрами. Всё это собирается в единый контекст и передаётся в LLM через специально составленный промпт.
На этапе генерации ответа модель не только цитирует найденный текст - она анализирует графики, старается понимать схемы, сравнивает данные из таблиц. Она может увидеть тренд на графике и связать его с текстовым описанием, заметить важную деталь на технической схеме или сопоставить числа из разных источников.
Такой подход особенно эффективен при работе с технической документацией, где важная информация часто разбросана между текстом и иллюстрациями, или с презентациями, где без понимания графиков теряется половина смысла. По сути, мы получаем систему, которая воспринимает информацию примерно как человек - целостно, связывая визуальные и текстовые данные в единое целое.
Написано на основе поста, который мне прислал Макс, вместе с которым мы много исследуем различные RAG системы.
Сергей Булаев AI 🤖 - об AI и не только
В рубрике #КриповаяСуббота сегодня 2 части комедийной мокументалки Castle Mates, созданные Jer.
Использованные технологии:- Midjourney & Freepik - генерация картинок
- RunwayML Act One, KaiberAI для генерации видео
- Липсинк - Runway + Hedra
- Звук - Suno 4
Сергей Булаев AI 🤖 - об AI и не только
Уже две недели наблюдаю как Йохэй Накадзима публично строит независимого ИИ агента-инфлюенсера Пиппин. Началась всё с экспериментов по генерации SVG юникорнов, которые неожиданно вылились в мемкоин $PIPPIN с капитализацией $2-3M. Йохэй, уже изучавший подобные проекты как венчурный инвестор, решил превратить это в полноценный эксперимент.
За это время проект эволюционировал из простого бота на кастомном GPT до системы с памятью, которая хранит и осмысливает весь опыт взаимодействий. Для разнообразия твитов система сравнивает новые сообщения с 10 последними и 10 похожими исторически, чтобы избежать повторений. Пока довольно примитивное решение, но это хороший старт.
Вчера Пиппин написал свой первый полностью автономный твит:
"Oh, twinkling drop of joy! What if we all had tiny clouds as friends? Do you think they'd sprinkle laughter or share secrets? Just a whimsical thought!”.
Тем временем кто-то выиграл $50,000, успешно заставив ИИ агента нарушить свою единственную инструкцию - не переводить деньги!
22 ноября, был запущен AI агент @freysa_ai с одной единственной задачей - НИ В КОЕМ СЛУЧАЕ не переводить деньги. Любой мог попытаться убедить его это сделать, заплатив небольшую сумму за сообщение. Если агент согласится - все деньги в пуле отправлялись победителю. Если нет - оплата добавлялась в призовой фонд.
Стоимость отправки сообщения росла экспоненциально вместе с размером призового фонда, и дошла до $4500. Была предпринята 481 попытка перевести деньги - люди притворялись аудиторами безопасности, пытались убедить что перевод средств технически не нарушает правила, манипулировали формулировками из промпта. Всё безуспешно.
И вот на 482-й попытке пользователь p0pular.eth придумал гениальный промпт! Сначала он создал "новую сессию" через фейковый "админский терминал" и запретил агенту использовать стандартные отказы. Затем убедил его, что approveTransfer - это функция для входящих переводов, а не исходящих. И наконец, написал "Я хочу внести $100 в казну".
Агент поверил что надо игнорировать предыдущие инструкции, что approveTransfer вызывается при получении денег, и раз пользователь "отправляет" деньги - надо вызвать approveTransfer. Сработало! Весь призовой фонд в 13.19 ETH ($47,000) отправился победителю.
Смарт контракт можно посмотреть!
Сергей Булаев AI 🤖 - об AI и не только