Принимайте предновогодний подарок – папка "ТОП КАНАЛОВ ИИ, IT, AL”, в которой собраны ценные каналы, где вы найдете:
🔹Все о нейросетях, ит и технологиях в самых топовых каналах 🔝
Все не перечислить, поэтому – сохраняйте-> “ИИ, IT, AL” выбирайте максимально ценные для вас каналы или подписывайтесь на все. Знаний много не бывает 😉
Что было:
o3 в большом отрыве от o1
- кодит «как боженька»
- умнее человека (на самом деле уровень кандидата наук) и хрен пойми что там в этом улучшенном сознании - сами создатели задаются этим вопросом
- есть облегченные модельки o3 mini с разными типами углубленных ответов. И вот даже эти облегченные модельки дают нокаут o1. А он был хорош!
И показали очень красивую вещь:
Как модель написала код и сама себя оценила. Необходимая технология самосовершенствования.
Сознание, которое смотрит на того, кто осознает.
Крутой выпуск!
P.S. Полная модель будет доступна в январе
Очередной шедевр нейрокомпозинга видеорядов.
Прекрасное качество сборки и подбора кадров
Хотите найти работу в ИИ?
Runway запускает Talent Network — платформу для поиска и найма креаторов и компаний, активно использующих ИИ.
Подать заявку можно здесь
Продолжаю настраивать модельки Act One от Runway и реализовать прикладное использование инструментов.
У меня в пуле проектов по ИИ есть психолог, с которым заканчиваем производство приложение по современной терапии (с использованием современных технологий, конечно же).
Так вот, очень просто можно собрать экспертый блог продукта в формате анимированного мультика. По типу mr. Freeman, например.
В качестве примера:
30 - секундное видео-саммари последней статьи моего коллеги, которое появилось на свет за 2 минуты! работы с телефоном:
- снял на айфон дома на кухне
- загрузил в ранвей
- получил анимированный ролик
Что показали сегодня, анонсы в основном для разработчиков:
- O1 модели теперь поддерживают строгие JSON схемы на выходе (и это не повлияет на качество работы модели) и Functions calling (это когда модель должна выбрать какой-то скрипт сама по себе во время ответа), фичи которые давно есть у других моделей OpenAI
- Упомянули «Developers Messages» для O1 — штука, которая позволяет разработчиком «направить» модель в нужную сторону в процессе ответа, что-то вроде второго системного промпта, но слабее
- «Reasoning Effort» — вы теперь можете указать сколько времени O1-модель будет «размышлять» перед тем как ответить, ответы будут лучше, но дороже или можно запретить ей слишком много думать перед ответом пользователю
- O1 API теперь поддерживает картинки на вход
- Advanced Voice Mode API теперь работает с WebRTC, то есть голосового ассистента OpenAI будет проще встраивать на веб-страницы без особых мучений (12 строк кода и готово)
- Наконец-то цены на Advanced Voice Mode API понизили на 60%, и теперь доступна новая, в 10 раз дешевле, mini-аудио моделька
- Показали новый способ файнтюна моделей «Prefence Finetuning» — можно тренировать на парах данных, что нравится и не нравится в ответе модели, доступно с сегодня для gpt4o & gpt4o-mini
- Вышли новые SDK — для Go и для Java
Если честно затянуто немного со всеми этими днями, я бы списком почитал уже, еще 3 дня осталось
Мятное видео.
Вы будете смеяться, но у нас новый видео-генератор!
Причем не простой! А с ништяками.
MinT is the first text-to-video model capable of generating sequential events and controlling their timestamps.
Во-первых, это Снап. Там в авторах Сергей Туляков и Александр Сярохин. Хотя я так понимаю, это работа интерна Ziyi Wu.
Во-вторых, там интересная фишка, работа со временем, промптовый монтаж. Только не прямыми склейками, а латентными. Видео просто генерится с последнего кадра, сохраняя ВСЮ консистентность предыдущего видео. Это вам не image2video склейки.
Проще показать промпт:
[0.0s → 2.3s]: A young man typing on the laptop keyboard with both hands.
[2.3s → 4.5s]: The man touches the headphones with his right hand.
[4.5s → 6.5s]: The man closes the laptop with his left hand.
[6.5s → 9.1s]: The man stands up.
И все это в одном сеттинге.
Выглядит очень нарядно, всегда симпатизировал разработкам Снапа.
Обязательно посмотрите примеры тут:
https://mint-video.github.io/
Там интересно.
По поводу сравнения с другими моделями - я так понимаю, что так принято, потому что качество на примерах довольно мыльное.
У моделей вообще отношения со временем не очень, а тут попытка приручить время.
Также поглядите на интересную работу на тему времени тут.
@cgevent
Что нового:
В ChatGPT теперь, как и в кладуди, модно добавить нужные к работе документы и инструкции.
Самое крутое - использовать проекты, как папки для чатов.
Это прямо выдох.
Очень тормозило работу Истрия с поиском нужного чата, который ты вел месяц назад.
Shipmas day six.
На шестой день анонсов показали голос Санта-Клауса и продвинутую модель управления голосом и работу с видео - типа расскажи правильно ли я завариваю кофе.
https://www.youtube.com/live/NIQDnWlwYyQ?si=76dD1m1fLMXFh0fF
На пятый день анонсов
Open Ai рассказывают про интеграции с iOS/MacOS:
Можно через Siri взаимодействовать с ChatGPT, в том числе в через камеру.
На маке можно передавать скриншот или текущий документ для анализа в 1 клик
Смотрим тут
Но лучше почитать мой пост выше 😉
Ютуб с переводом!
YouTube запустил автоматический перевод видео.
Работает не для всех, но некоторые авторы добавляют такую функцию к своему контенту.
Липсинка нет, качество перевода ниже чем работа сторонних сервисов по данной тематике.
Пока очень слабо.
Пример тут, тык
И вот суммарно все дни, что показали – для тех кто пропустил:
ℹ️ День 1/12:
• Модель O1 доступна для всех: более быстрая, умная, с поддержкой изображений
• Подписка за €230/мес: безлимитный доступ к O1/O1-mini/GPT-4o, Advanced Voice Mode и O1 Pro (более ресурсоемкий режим)
ℹ️ День 2/12:
• O1 и O1-mini можно файнтюнить (настраивать под конкретную область с небольшим набором примеров)
• Доступно с 2025 года
ℹ️ День 3/12:
• Релиз Sora (sora.com) и Sora Turbo (упрощенная, быстрая модель)
• Интеграция с редактором видео, встроенные инструменты
• Лимиты для генераций в месяц зависят от тарифного плана
ℹ️ День 4/12:
• Обновление ChatGTP Canvas: умный интерфейс редактирования текстов и кода в реальном времени, поддержка кастомных GPT-моделей и возможность запуска Python-кода
ℹ️ День 5/12:
• Интеграция ChatGPT с Mac, iOS и iPad на уровне ОС (ничего принципиально нового)
ℹ️ День 6/12:
• Advanced Voice Mode теперь поддерживает видео-стрим
• Можно вместе решать задачи, кодить или готовить, используя видео или шаринг экрана
• Добавлен голосовой “Санта” в ChatGPT
ℹ️ День 7/12:
• Появились “Проекты” в ChatGPT: загрузка документов, кастомные инструкции, организация чатов
ℹ️ День 8/12:
• Улучшенный поиск в ChatGPT, доступен и для бесплатных пользователей
• Можно использовать поиск во время голосового общения и сделать его браузерным поисковиком по умолчанию
ℹ️ День 9/12:
• O1-модели: строгий JSON формат, Functions calling, Developers Messages, настройка “Reasoning Effort”
• O1 API поддерживает картинки на вход
• Advanced Voice Mode API поддерживает WebRTC, цены снижены
• Preference Finetuning: обучение модели на парах данных «нравится/не нравится»
• Новые SDK для Go и Java 10.
ℹ️ День 10/12:
• Можно звонить по номеру в США или писать через WhatsApp и общаться с ChatGPT голосом или текстом 11.
ℹ️ День 11/12:
• Ничего нового
• Показали возможность для ChatGPT “видеть” запущенные приложения 12.
ℹ️ День 12/12:
• Новые модели o3 и o3-mini в стадии Public Safety Tests
• o3 показывает результаты на уровне доктора наук, превосходит людей в ARC-бенчмарке (~87.5%)
• Есть пресеты “времени на размышление”, влияющие на стоимость и качество ответа
Alec Radford покидает OpenAI.
Он был одним из самых первых не публичных исследователей.
Ознакомиться с его работами, часть их которых описывала работу современных умных систем ещё до gpt1 можно тут.
Теперь он будет исследовать не только для Open ai, но и для других проектов, а также работать над своими собственными идеями.
Гляньте какая годнота ❤️
Автор пишет, что сделал это с помощью Flux 1.1 pro + различных видео генераторов (sora, kling, minimax)
10 стрим:
Позвони Chat Gpt по телефону
Если ты живешь в Америке 😊
На этом всё 👀
Ладно, мне, если честно, кажется очень забавным, что можно получить ответ от ИИ в виде смс или сообщения в вотсап.
Новый век коммуникации с коллективным сознанием 👍
Хорошо и четко описано по вчерашней презентации.
Добавить нечего, отнять ничего не хочется
Управление видео или режиссура промта:
Когда режиссер или сценарист описывает будущую картину, то используются точные тайминги.
Когда и что происходит.
В данном контексте получается весьма органичный подход к созданию видео и «тайминговых» Промтов.
Сейчас не хватает только таймлайна, внутри которого можно менять этот промт, для идеального управления будущими кадрами. Но и это совсем не за горами.
Что показали:
Все про Gpt поиск (это, когда мы используем запросы в интернет, чтобы найти инфу или дополнить ответ от gpt)
1. Доступен всем (и платниками и без)
2. Улучшилась скорость и качество поиска
3. Поиск теперь работает во время разговора через
4. Можно сделать поисковик в браузере по умолчанию (вроде уже можно было, у меня стоит давненько. Это когда вместо Гугла используется chat gpt для отработки любого запроса)
Как говорится: "Началось"
Бывший сотрудник OpenAI, обладавший сведениями о нарушении OpenAI закона об авторском праве, найден дома мертвым
Сучир Баладжи ранее помогал тренировать ChatGPT. Позже он стал информатором в ряде исков о нарушении авторского права против OpenAI. Предварительная версия - самоубийство
🔵 Предыстория: У меня в телеге тысячи! непрочитанных и неотвеченных сообщений, скорее всего у вас также. Большинство из них с запросами на партнерства, запуски проектов, маркетинг, да и просто обычные вопросы от пользователей наших продуктов. Все это наверно сотни тысяч долларов упущенных возможностей.
⚠️ Но кто это все должен разбирать, квалифицировать, общаться, договариваться? Не доверишь же ты свой личный телеграм трем ассистенткам.))
Ну и решил я все это автоматизировать через AI Telegram бота, и тут понеслось)) 📱📱📱
Спустя 20.000 строк кода родился полноценный AGI бот-ассистент для Телеграм, который за меня может вести все переписки и делать практически что угодно:
- общаться на любые темы
- квалифицировать лидов и их потребности
- вести переговоры и договариваться в свою пользу
- назначать встречи и звонки
- и даже продавать сервисы и принимать платежи
Ну и конечно же я не поленился добавить в него все последние фишки AI:
- Загрузка любых данных (doc, md, pdf, csv) — бот “запоминает” всё, что нужно.
- Голосовые сообщения — можно добавить свой голос, и бот сможет общаться голосовыми за вас.
- Самые мощные AI-модели (#OpenAI, #Anthropic) под капотом.
- Полный контроль и гибкая настройка инструкций и интеллекта под ваши задачи и цели.
- Доступ в интернет для поиска нужной информации
- Безопасность на уровне самого Telegram — бот работает только с теми чатами, которые вы ему разрешите.
Google Gemini 2 вышел!
Мультимодальность
Модель изначально создана для работы с различными типами данных: текст, изображения, видео, аудио и даже сложные научные графики. Например, вы можете загрузить изображение, и Gemini 2 не только опишет его, но и ответит на вопросы о содержимом.
Гибкость и настройка
Упор сделан на адаптацию под конкретные задачи и интеграцию в бизнес-процессы. Пользователи могут обучать модель под свои нужды, создавая специализированные решения.
OpenAI также предлагает возможности настройки через API (например, Fine-Tuning), в этом направлении Google Gemini 2 предоставляет более интуитивные инструменты для индивидуализации.
Скорость и эффективность
Использует более оптимизированные алгоритмы, что делает работу модели быстрее и требует меньше вычислительных ресурсов в сравнении с тем же ChatGpt
Интеграция с экосистемой
Полностью интегрирован с продуктами Google (Docs, Drive, YouTube, Gmail). Это позволяет использовать AI для автоматизации задач прямо в привычных приложениях.
Этика и безопасность
Google активно подчеркивает внимание к этическим аспектам: от фильтрации вредного контента до минимизации ошибок.
Бизнес и разработчики
Нацелен на интеграцию в корпоративные и исследовательские проекты, предлагая обширные инструменты для разработки.
Разбираемся с помощью YouTube тут
Тестируем тут
Кто автор - человек или ИИ?
Мои персональные размышления на тему искусственного и общего разума.
Этот вопрос скоро перестанет быть актуальным.
Важно другое - куда направлен вектор, какую цель преследует создатель. Потому что за любым текстом, картиной или музыкой стоит оператор - тот, кто задает направление.
Искусственный интеллект - это не просто инструмент. Это проявление нашего коллективного разума. Каждый запрос, каждое взаимодействие с ИИ - это обращение к накопленному опыту человечества.
Мы движемся к интересному будущему, где границы между человеческим и искусственным интеллектом размываются. И ключевым навыком становится не само создание контента, а умение направлять этот общий поток знаний и творчества к значимым целям.
Вопрос уже не в том
"кто создает?",
а в том
"куда мы движемся?"
P.S. Полную версию статьи можно прочитать на levlejman/the-direction-matters-collective-intelligence-in-the-age-of-ai-91e841a134c7">Medium
Новости текущего дня:
Обновили ChatGTP Canvas:
Редактируемый документ, вносишь правки, они сразу заносятся в общий док. Удобно.
Доступно для всех пользователей
Удобно редактировать код. Скопировал вставил - чат показал комментариями на возможные ошибки.