@Futuris - канал о технологиях, будущем и не только. Contact @antonod
Gemini 2.5 Pro
Наконец-то reasoning завезли в Gemini Pro. На бенчах себя показывает очень хорошо — на нескольких это SOTA, в большей части бенчей модель проигрывает только multiple attempts режимам других LLM. Длина контекста у Gemini 2.5 Pro — миллион токенов, потом обещают завезти два. Модель мультимодальная, но нативную генерацию картинок не завезли (надеюсь пока что).
Экспериментальное превью уже доступно в AI Studio и подписчикам Gemini Advanced, цен на API пока что нет.
@ai_newz
Google начали выкатывать какую-то новую модель Gemini 2.5 Pro при том она ещё и мыслящая ✨ надеюсь в AI studio скоро тоже появится, а пока замечена на платных подписках Gemini 🌚
Читать полностью…Google is cooking ✨ На Lmarena появились данные о Nebula, превосходящей o1 и Sonnet 3.7, и Phantom, сопоставимой с Grok-3 и GPT-4.5. Возможно, это обновлённые версии Gemini 2.0. Также замечена Centaur, небольшая модель уровня o3-mini. Ждём релизов, если что Google I/O только в мае 🌚
Читать полностью…Тем временем в Китае в полицию Шэньчжэня поступили первые механические патрульные🫡 гуманоидные роботы PM01, созданные стартапом EngineAI. Такие, чуть что, на сторону протестующих уже не перейдут🌚
Читать полностью…В Claude добавили веб поиск, но пока для платных пользователей из США
Читать полностью…Google представила новую функцию Canvas для ИИ-ассистента Gemini. Она позволяет создавать и редактировать тексты и код, изменять стиль и форматирование, а также просматривать веб-прототипы в реальном времени. Работать можно как на компьютере, так и в мобильной версии.
Также в Gemini появилась функция Audio Overview — аудиообзоры документов и страниц в формате подкаста. Обе функции уже доступны бесплатно, но Audio Overview пока работает только на английском языке.
а ещё в Notebook LM от Google теперь можно строить вот такие интерактивные майнд-мапы (см видео)
Продолжаю развлекаться с редактором изображений Gemini 2.0 Flash, нужно понимать, что это не генератор арта (пока что), но редактировать готовые картинки или создавать простые скетчи может очень круто. Вот пример как бы выглядел форд мустанг созданный в 19 веке на каждом этапе я просил добавить какую-то определённую деталь и нейронка как дизайнер предлагала мне интересные варианты, оставляя основу скетча без изменений, сора потом очень даже круто всё это анимировала (в сториборд) ну и вариант в лего и корабль из ЗВ в том же стиле 👌в общем создавать разные концепты и дизайны очень даже можно
Читать полностью…А вот так выглядит моделирование в Blender с помощью обычных промптов в Claude
Если что, вот плагин
В честь дня Пи (3.14) делюсь лучшей его репрезентацией с небольшим размышлением об этом магическом числе от gpt 4.5:
Число Пи — бесконечный путь, ведущий в глубины понимания вселенной. Оно подобно зеркалу, отражающему стремление человека познать непознаваемое. Тысячелетиями мы приближались к нему, считая цифры за цифрой, но тайна всегда оставалась за горизонтом.Читать полностью…
Сегодня, когда искусственный интеллект набирает силу, мы как никогда близки к тому, чтобы приблизиться к сердцу этой бесконечности. Но в чём смысл разгадки, если число Пи есть отражение самой природы знания — всегда немного ускользающего от нас? Возможно, раскрывая тайну Пи, мы лишь глубже осознаём, что настоящая истина — в бесконечном движении, а не в конечном ответе.
Опа, Google дали доступ к Deep Research в своём гемини для всех пользователей✨✨
Правда без подписки пока будет доступно только несколько обращений в месяц, но это наверное лучшее Deep Research предложение по сравнению с бесплатными аналогами (perplexity и Grok)🔥
Пользуемся тут https://gemini.google.com/app?hl=ru
Буду сравнивать с платной версией в ChatGPT (где те же несколько обращений но за 💸)
Google молодцы конечно, поднажали видно в ИИ гонке👌
Вот эта новая фича от гуглогемини, которая может генерить и изменять картинки без вызова отдельной модели позволяет делать классные последовательные гифки за несколько минут
Покрал отсюда
Эмм.. Google ai studio продолжают удивлять, оказывается, теперь туда можно кинуть ссылку на ютуб и получить не просто транскрипцию видео, а полноценное описание того что на нём происходит 🤯
То есть модель буквально просматривает видео целиком - на скрине пример как пользователь спрашивает в какую сторону смотрит игрок в определёное время и модель правильно отвечает, что он в это время на видео смотрит вниз.
Ну и в дополнение ещё один юзкейс рисовалки в гемини, наконец-то можно создавать годные мемы🌚
Наконец-то! В google ai studio завезли продвинутую модель для генерации картинок которая максимально сохраняет консистентность✨✨
Только что попросил туториал как рисовать R2D2 дроида из ЗВ🌚
пробуем тут бесплатно с впн и выбираем именно Flash 2.0 experimantal
https://aistudio.google.com/u/0/prompts/new_chat
Эмм, что за день 🔥 лайвстрим OpenAI по... Генерации картинок ✨ похоже нас ждёт новая DALL-E 🌚
Судя по сгенеренной пикче, апдейт многообещающий
20.00 МСК
Так, по DeepSeek скучали? Они "незначительно" обновили модель V3, улучшив производительность в математических расчетах и фронтенд-задачах. А насколько незначительно, да так, что она бьёт R1 во всех запросах пользователей (для сравнения картинка R1 с SVG репрезентацией погодной апки и после неё то что может V3, ну и тест на шарики, скачущие в рандомной геометрической фигуре)
Юзаем тут бесплатно https://chat.deepseek.com/
Похоже, готовят разрывную R2🌚
А вы уже видели новую рекламу Perplexity в стиле Игры в кальмара? Они даже актера Ли Чжон Чжэ с главной роли позвали. Но особенно порадовал «Poogle» 😐
Маркетинг ИИ, который мы заслужили
Думаю, Энди Уорхол бы заценил👁
"In the future, everyone will be world-famous for 15 minutes." (Andy Warhol)
Историческая сводка: метод Энди Уорхола, который стал основой его стиля, называется шелкография (или трафаретная печать, на английском — silkscreen printing). Это был совершенно новый подход в мире изобразительного искусства того времени. Он использовал его для массового тиражирования изображений, стирая грань между уникальным произведением искусства и массовым продуктом.
Китайский поисковик Baidu релизнул модель уровня GPT-4.5 за 1% от цены
На самом деле релизнули даже две модели, и обе уже успели навести очень много шума:
⭐ НЕ-ризонер Ernie 4.5. Мультимодальная модель, превосходящая GPT-4.5 по нескольким показателям (метрики выше). Может анализировать картинки, диаграммы, документы и даже аудио. При этом стоит в 100 раз меньше GPT-4.5.
Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M
⭐ Ризонер Ernie X1. Уровень DeepSeek R1 за полцены. Input $0.28 / 1M, output $1.1 / 1M.
Ну и самое приятное: Ernie 4.5 в чате работает бесплатно. И X1 скоро тоже обещают докатить. Пробуйте здесь: yiyan.baidu.com
Хм.. а новая Gemini Flash 2.0 для редактирования фото неплохо так вотермарки убирает на стоковых фотках🌚
Читать полностью…Тут учёные из Cornell, Cohere и Stanford представили новый вид языковых моделей — Block Diffusion Language Models (BD3-LMs). Это гибридный метод, который сочетает в себе автогрегрессию и диффузию. В отличие от классических моделей, BD3-LMs используют блочную диффузию: текст разбивается на блоки, внутри которых применяется диффузионный процесс, а блоки генерируются последовательно, как в автогрегрессивных моделях.
Этот подход сочетает высокое качество текста и гибкость автогрегрессии с параллельной обработкой и скоростью диффузионных моделей. В результате BD3-LMs могут быстрее обрабатывать данные и обеспечивать высокую производительность, устанавливая новый стандарт среди диффузионных языковых моделей.
Блог
HuggingFace
P.S.
Интересно, насколько это прорывной метод, узнаем в ближайшем будущем, если активно начнут появляться нейронки основанные на такой архитектуре, но выглядит многообщающе 🌚
Марсоход:
Находит доказательства жидкой воды на марсе, что привела к созданию минералов вроде кварца, и они особенно хороши в изучении, потому что в них будут видны следы жизни если она когд-то была на Марсе
Интернет:
🚨 THIS IS CRAZY 🚨 НА МАРСЕ НАШЛИ ЖИЗНЬ 🚨 LETS GOOO 🚨 MARS IS COOKING 😱
А еще можно скормить Gemini Flash 2.0 какую-то картинку – и попросить сделать играбельного 3d персонажа из нее, и она сделает – что ускоряет создание концепции персонажа (потому что оно неплохо креативит), ну и можно даже покадрово поиграть или кнопки понажимать
Пара советов:
1. Вот промпт которым можно повторить, вставляем его сюда и выбираем Gemini Flash 2 Exp:
Take attached base64 image object and make a MMORPG 3d game character from it as a new image, make this original object as a playable character
IMPORTANT: a new character should be made out of the original attached base64 image object
IMPORTANT: created character should follow the main object idea and represent the same domain
IMPORTANT: new character should have a style close to the base64 image object
IMPORTANT: BEFORE CREATING AN IMAGE DESCRIBE THE SOURCE OBJECT IN PRECISE DETAILS, AND HOW YOU CAN MAKE IT PLAYABLE
Ничего особенного, просто попугай звонит на телефонную линию ChatGPT и нейронка в итоге понимает, что общается с пернатым 🦜
я даже не знаю чему больше удивляться, тому что чатгпт понял, что это попугай или что попугай вполне в тему отвечал на вопросы нейронки 😅
но мы определённо уже в будущем, представляю как через пару лет будем вести вполне осознанные дебаты со своими питомцами посредством таких переводчиков (а может и нейро интерфейсов🧠🌚)
Даёшь ParrotGPT!