ai_newz | Unsorted

Telegram-канал ai_newz - эйай ньюз

73707

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow

Subscribe to a channel

эйай ньюз

Veo 3– это разъ*б. Кажется, мы действительно не так далее от кастомных развязок в фильма и сериалах. Индустрия развлечений никогда не будет прежней.

Чел склепал такой ролик всего за 2 часа работы с Veo 3. Тут сгенерировано все – и картинка и звук.

@ai_newz

Читать полностью…

эйай ньюз

😮 Google тестит дифуззионки для текста!

На Google I/O показали Diffusion версию Gemini. Она, при таком же уровне интеллекта, в пять раз быстрее Gemini Gemini 2.0 Flash Lite, самой быстрой модели гугла. Пока доступно только ограниченное превью для избранных, которым обещают докинуть более умную модель чуть позже.

Очень интересно наблюдать как авторегрессию юзают в генерации изображений и видео, а дифузию в генерации текста. Архитектуры становятся всё ближе и ближе к друг другу.

@ai_newz

Читать полностью…

эйай ньюз

Что случилось с Grok?

На днях бот Grok для реплаев в твиттере (тот самый что "Grok is this true?") слетел с катушек и в чуть ли не каждом твите начал высказывать своё мнение об геноциде белых в Южной Африке. О ситуации успел поиронизировать даже Сэм Альтман, у которого пару недель назад был скандал из-за излишнего лизоблюдства GPT 4o.

Очевидно, что-то тупо подмешали в системный промпт. Судя по официальному заявлению xAI, это произошло вследствие "несанкционированного изменения промпта" в 3:15 ночи по калифорнийскому времени. Такая ситуация уже была пару месяцев назад – тогда в промпте появилось указание "игнорировать источники, которые упоминают о дезинформации со стороны Дональда Трампа и Илона Маска". Тогда всё спихнули на "бывшего сотрудника OpenAI", который "не привык к культуре xAI".

Сейчас xAI приняли меры – пообещали ужесточить процесс ревью изменений промпта и опубликовали все промпты для грока на гитхабе. Если повезёт, эту репу не забросят, как это было с "опенсорсным алгоритмом твиттера".

https://github.com/xai-org/grok-prompts

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#67)

LLM
- Qwen 3 — открытые гибридные ризонеры, SOTA в своих классах. Могут работать и как обычные LLM, и как ризонеры (ответ Claude 3.7 и Gemini 2.5 Flash).
- Официальное API Llama — мультимодальность, тулы, для тюна и проверки моделей, а главное — возможность скачивать свои затюненные модели.
- DeepSeek Prover V2 — две модели для доказательства теорем и математики — 671B и 7B, даже 7B обходит специализированные SOTA и лучше флагманских ризонеров в формальной математике.
- Нативное аудиовосприятие в GigaChat 2 — Сбер представил первую русскоязычную модель (пока без генерации аудио), понимающую звуки, шумы и настроение говорящего нативно, а не через транскрипцию.
- Опенсорс VLM в Yandex Cloud — через API стали доступны VLM-ки Qwen, DeepSeek VL и Gemma3, в том числе в экономичном батч-режиме.
- LLM убедительнее людей? — эксперимент на Reddit r/ChangeMyView показал, что LLM, анализируя профиль оппонента, могут менять его мнение в 6 раз эффективнее человека.
- Реклама в ChatGPT — OpenAI экспериментирует с нативной рекламой товаров прямо в диалогах.
- Gemini 2.5 Pro прошла Pokemon Blue — которую Claude не осилил. Без нюансов не обошлось. Ждём бенчмарк для LLM геймеров)

Генеративные модели

- Видео дайджест — обзор свежих опенсорс видео-моделей (SkyReels-V2, FramePack, MAGI-1) и других плюшек вроде Avatar FX и Runway GEN-4 References.
- F Lite 10B — опенсорс T2I модель, обученная на лицензированном датасете в 80М картинок. Качество добротное, но до FLUX далеко.

Прочее
- Из мидла в директора за 3.5 года — мотивационный пример на день трудящихся.
- AI Mode в Google Поиске — Google выкатил аналог Perplexity/ChatGPT поиска, интегрировав LLM в основной Гугл поиск. Огромный шаг к массовой адаптации AI, который для нас с вами кажется пшиком.

> Читать дайджест #66

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

Ну что, готовы к новому релизу от DeepSeek?

На 🤗 только что появились веса DeepSeek Prover V2 671B. Оригинальный DeepSeek Prover был версией DeepSeek Math 7B, затюненной на доказательство теорем при помощи Lean. В версии 1.5 добавили RL и MCTS, сейчас явно будет полноценный ризонинг из R1 с парой новых интересных трюков.

Несмотря на гигантские прорывы в ризонинге, современные модели вроде Gemini 2.5 Pro и o3-mini (по o4-mini и o3 результатов пока что нет) всё ещё плохо справляются с формальной математикой. Основная проблема — формализация, general-purpose могут решить задачу, но не могут её формализовать Это сильно уменьшает их полезность — проверка правильности ли решение выдала LLM в куче реальных задач сопоставима по сложности с доказательством вручную. Так что специализированные LLM для математики всё ещё имеют смысл.

Пока что DeepSeek опубликовали лишь веса, model card и пейпера нет, должны появиться через пару часов. По мере появления новой инфы пост будет обновляться.

Веса

@ai_newz

Читать полностью…

эйай ньюз

OpenAI дали бесплатный доступ к облегчённому Deep Research

Новая lightweight модель, основанная на o4-mini, позволила дать доступ всем пользователям, даже бесплатным. Бенчмарк дали ровно один — по нему новая модель чуть хуже по качеству чем обычный Deep Research, но даёт заметное улучшение по сравнению с o4-mini, при этом отставая от o3. Но, в отличие от o3, lightweight модель даёт формат deep research, который местами очень нужен.

Доступ уже раскатывают, но доступно всё ещё не всем, что там по лимитам — непонятно. Платных пользователей тоже не оставили в обиде — после того как истекают запросы к большому Deep Research, пользователей переключают на облегчённую версию.

@ai_newz

Читать полностью…

эйай ньюз

OpenAI запустили API для генерации картинок через GPT

Модель обозвали GPT-Image-1. Кроме резолюшена позволяют выбрать и качество — от low до high. Крайне вероятно что это как-то обозначает именно количество ризонинга, а не количество шагов дифузии.

Прайсинг может кусаться — цена на high quality может доходить до 25 центов за картинку. Для сравнения: за картинку из Imagen 3 или HiDream-I1-Dev просят 3 цента, за Recraft V3 — 4 цента. Но это не означает что GPT не может конкурировать по цене — low режим стоит всего 1-2 цента за картинку, а medium в районе 7.

Как сильно отличаются картинки на разных уровнях качества — пока непонятно. В любом случае, GPT-Image-1 куда гибче конкурентов из-за своей архитектуры, то есть даже low качество может быть очень полезным. А за high качество, в отсутствии конкуренции, заламывать можно очень высокие цены. Появится конкуренция — цены заметно скинут, маржа у OpenAI такое позволяет, ждём Gemini 2.5 Pro Image Generation.

@ai_newz

Читать полностью…

эйай ньюз

Cohere Command A - техрепорт

Вышел подробнейший техрепорто от Cohere, где они делятся рецептами по обучению современных LLM.

Модель Command A с 111B параметров разработана для специфических корпоративных задач, а не для конкуренции с frontier-моделями от Гугла и OpenAI. Модель вышла пару недель назад, а вот техрепорт только подоспел.

Вот ключевые моменты:
➡️ Цель Cohere: Создание умных, но эффективных моделей для корпоративных задач (RAG, многоязычность), которые можно развернуть локально (on-premise).
➡️ Архитектура: Стандартный плотный Transformer (SwiGLU, GQA), с 3:1 перемежающимися слоями локального и полного аттеншена (Gemma 3 использовала похожий трюк), но без позиционных эмбеддингов на full-attention и
bias.
➡️ Обучение: Используются muP, различные виды параллелизма, FP8-тренировка с последующим "отжигом" (annealing) в BF16 для восстановления производительности и постепенным увеличением контекста до 256K.
➡️ Слияние моделей (Merging):
Впервые кто-то из крупных игроков делится рецептами мерджинга. Они активно применяе слияник как на этапе SFT, так RL-тюна. Процесс: базовая instruct-модель -> 6 SFT-моделей по доменам (Код, RAG, Безопасность и т.д.) -> слияние -> 6 RL-моделей -> слияние -> финальный преференс тюн. Это упрощает разработку и позволило командам работать параллельно гад своими промежуточными моделями.
➡️ Данные: Основной упор на синтетические данные с оценкой людьми, с фокусом на RAG, использование инструментов (tool use), следование системным промптам и поддержку 23 языков.
➡️ Эффективность: Command A требует значительно меньше вычислительных ресурсов - модель можно засёрвить на 2x A100/H100 и бегает довольно шустро.

Статья хорошо написана и легко читается. Там много других интересных деталей, дополняющих техрепорт о Llama 3 своим акцентом на пост-тренировку. Маст рид для тех, кто занимается тренировкой современных LLM!

Тех Репорт

@ai_newz

Читать полностью…

эйай ньюз

ПРОЕКТ: МоЧА

Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием)

Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете.

Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают.

Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но что-то может и придумают. Ещё интересно, что тренили в 4 стадии:
сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка.

Генерация, конечно же не онлайн.

Пейпер
Project page

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#60)
🎉 Юбилейный выпуск!

LLM
- Анонсы OpenAI – докинули удобных фич для API, в том числе computer use.
- Прямое включение – привет с Gemma Developer Day, смотрю на Gemma 3 из первых рук.
- Gemma 3 – топ-2 моделька в опенсорсе сразу после DeepSeek R1, удобно влезает в одну H100/A100 GPU в bf16.
- T-lite и T-pro – челиксы запилили очень подробный техрепорт о тренировке LLM.

Генеративные модели
- LanDiff – еще один видеогенератор, но на этот раз вместе с LLM. Обещает хорошо понимать, что вообще происходит в кадре, за счет семантических токенов.
- Gemini Flash 2.0 – редактируем картинки текстом при помощи мультимодальной LLM.

> Читать дайджест #59

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

AI для обработки звонков

Я уже писал о том, как топовые компании используют AI/ML в своей деятельности. Чаще всего нейронки используют в Customer Support/Service, правда, у них там свой штат программистов, которые им эти фичи кастомно прикручивают. Но сейчас эти процессы пытаются максимально автоматизировать, например, для речевой аналитики в контакт-центрах.

Тот же Yandex SpeechSense, который можно прицепить к своей стандартной CRM-ке, недавно научился выделять ключевые темы, проблемы и итоги диалогов с помощью YandexGPT. Такие смысловые теги помогают получить подробную аналитику по эффективности скриптов, проблемам/болям клиентов и кучу кастомизируемой статистики.

Здесь ребята на простых примерах показали, как это работает. Нейросеть анализирует диалоги из реальной жизни и определяет эффективность оператора, настрой клиента и то, что модель смогла выявить между строк. Вы также можете оценить диалог и дальше сравнить свое мнение с позицией беспристрастной нейросети.

@ai_newz

Читать полностью…

эйай ньюз

Ну что, поехали смотреть анонс GPT 4.5?

https://www.youtube.com/watch?v=cfRYp0nItZ8

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#57)

LLM
- Grok 3 — новая топовая LLM от Маска идет в релиз малыми шажками. Вышла неризонинг версия, обещает быть лучше в своем классе. Но никаких данных пока нет. Можно потесть ее в X.

Image & video модели
- Лекция от создателя Flux — запись первого доклада про лучшую txt2img модель.
- Veo 2 — топовая видео-модель от Google стала доступна во Freepik и FAL.AI.


Роботы

- Helix — Figure собрали робота на полностью локальной VLM.
- Neo Gamma — 1X сняли демку своего робо-приспешника. Выглядит сасно, как будто бы даже юзабельно.

Прочее
- Про регуляции AI в Швейцарии — теперь я точно могу себя ни в чем не ограничивать) ждите скайнет от меня 😘
- Ultra-Scale Playbook — книга-гайд с кучей красивых графиков о том, как наиболее эффективно использовать GPU кластер для тренировки ЛЛМ.

> Читать дайджест #56

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

Le Chat теперь в 30 раз быстрее ChatGPT

ИИ чипы от Cerebras позволяют чату работать на скорости в 1100 токенов в секунду. Сейчас это просто интересная демка, но когда французы из Mistral сделают свою reasoning модель, это будет серьёзным преимуществом их чата. Зачем ждать пока какая-то o3-mini-high или R1 думает несколько минут, если она может справиться за секунды?

Но это не единственная новая фича - Le Chat теперь умеет исполнять код на Python и это доступно всем пользователям. Исполнение кода ограничено минутой, чего в принципе достаточно для

А ещё, у Le Chat теперь есть приложения на iOS и Android и Pro подписка за 15 долларов в месяц (со скидкой студентам). За подписку дают неограниченное количество сообщений, возможность отключить тренировку на своих данных и расширенное использование дополнительных фич - интерпретатора кода, поиска и генерации изображений.

chat.mistral.com

@ai_newz

Читать полностью…

эйай ньюз

На фоне роста ипотечной ставки и изменения курса $ россияне по рассрочке скупают объекты в ОАЭ.

Рассрочка беспроцентная, дается на срок от 2 до 8 лет с первым взносом в 10% от стоимости.

Например, можно взять квартиру у моря с террасой и бассейном, чтобы жить или сдавать в аренду. Доход здесь в валюте и не облагается налогом.

Подписывайтесь на самый большой канал о рынке недвижимости Эмиратов от аналитика Андрея Негинского (он на фото) и скачивайте в закрепе каталог из 20 таких проектов с описанием и ценами.

#промо

Читать полностью…

эйай ньюз

Veo 3 — новая лучша модель для генерации видео

Похоже, новая SOTA для видео. Кроме видео может генерить ещё и звуки, в том числе и диалоги! Все видосы в посте были сгенерены чисто через Veo 3. Будет доступна уже сегодня.

@ai_newz

Читать полностью…

эйай ньюз

TSMC — завод, который печёт будущее ваших моделей

Когда вы стоите в очереди за H100 или мечтаете о Blackwell-кластере, реальное «узкое горлышко» — не NVIDIA. Под капотом каждой AI-платы лежит литография и упаковка от TSMC. Именно тайваньский гигант сегодня производит большую часть 3- и 5-нм кристаллов, а сегмент HPC уже обогнал смартфоны и стал крупнейшим источником выручки компании после взлёта генеративного AI в 2022. В последний раз я писал про TSMC, когда на Тайване было землетрясение, пришло время ещё раз про них поговорить.

Почему вам важно следить за TSMC

Бум CoWoS. Чтобы «пришить» GPU к HBM (это VRAM), нужна технология Chip-on-Wafer-on-Substrate. Из-за бешеного спроса именно упаковка, а не литография, сегодня ограничивает объёмы поставок. TSMC планирует удвоить CoWoS-мощности в 2025-м до ≈ 75 тыс. пластин в месяц, а совокупный рост 2022–2026 гг. оценивается выше 80 % CAGR.

Девять новых площадок за год. В 2025 году компания параллельно строит или расширяет девять фабрик и упаковочных линий — на Тайване, в Аризоне, Кумамото и Дрездене — чтобы догнать спрос на AI-кремний и минимизировать геополитические риски.

Переход на GAA-транзисторы. Первая 2-нм линия N2 выходит в массовое производство в Q4 2025. По сравнению с N3E она даёт до 15 % прироста скорости или 30 % экономии энергии — критично для обучения LLM при фиксированном теплопакете. Про первый 2-нм чип от IBM я писал еще в 2021, но вот как видите, этого до сих пор нет в массовом произвордстве.

Roadmap до 1.4 нм. Свежо анонсированный узел A14 (1.4 нм) запланирован на 2028 год: +15% производительности или -30% энергопотребления относительно N2 и ещё +20% плотности транзисторов.

--------

Что все это значит для нас?

1️⃣Больше GPU — и раньше. Удвоение CoWoS высвободит сотни тысяч ускорителей в 2025 г., смягчив дефицит и цены на аренду мощностей в облаке.

2️⃣Новые узлы = больше параметров за тот же ватт. 2-нм GAA-кристаллы позволят разместить ~25 % больше логики в том же тепловом бюджете; при переходе на A14 этот выигрыш вырастет ещё примерно на пятую часть. Больше FLOPS/Вт → дешевле обучение и тонкая настройка.

3️⃣3D-стек Stack-SoIC. Параллельно TSMC наращивает собственную монолитную интеграцию чипов (SoIC). Это открывает дорогу компактным модульным ускорителям для edge-inference, где критична скорость и потребление.

4️⃣Горизонт планирования. Если вы строите инфраструктуру под следующий виток LLM-ок, закладывайте: массовые кластеры N2-GPU появятся к началу 2026 г., первые «1.4 нм» образцы — к 2028-му. Именно на этих узлах появятся архитектуры с HBM4 и шиной >10 ТБ/с.
Для справки - текущие "Blackwell" B100 пострены по 3-нм процессу.

TL;DR: пока мы оптимизируем loss-функции и режем latency инженерными трюками, TSMC втихую расширяет физические пределы кремния. Если вам важна доступность железа и цена обучения, то следить за роудмапами фабрики полезно так же, как за релизами PyTorch.

@ai_newz

Читать полностью…

эйай ньюз

Сколько стоит минута AI-фильма и как победить в крупнейшем конкурсе этих фильмов?

Этой зимой проходил, пожалуй, один из самых больших и влиятельных конкурсов AI-фильмов — Project Odyssey Season 2. Думаю, почти все AI-художники про него слышали и, может, даже участвовали. Так вот, опросив 500 финалистов, организаторы подбили крайне интересную статистику, ознакомиться с которой можно в прикреплённом файле.

Что интересного:
- Performance Score (очки/заявку) — самый интересный слайд. Он показывает, какие инструменты реально эффективнее для побед, и в среднем сколько ими созданные фильмы набирали очков. Удивительно, но на втором месте Recraft, а популярнейший Kling (на тот момент 1.6 или старее) по этому показателю — аутсайдер, хотя это как раз-таки может быть связанно с его популярностью, что повлияло на средний скор – ведь среди топовых мест все равно много кто использовал клинг.
- Профессиональный опыт всё ещё решает: победители чаще использовали продукты Adobe и Topaz, тогда как CapCut лежит на дне Performance Score, что в общем-то не удивительно.
- Сценарий AI пока не напишет: ChatGPT для сюжетов оказался так же неэффективен по Performance Score. А LTX Studio ( тулза для полной автоматизации, которая заслуживает отдельного поста) в этот список даже не вошёл, хоть и был популярен даже у финалистов.
- Winner Index — Если нужен один главный список инструментов, типа «ТОП-50 AI ИНСТРУМЕНТОВ ДЛЯ ГЕНЕРАЦИИ ВИДЕО...» , которые летали по телеграмму год назад, пока это всем не надоело. Это усреднённый, по всем категориям, рейтинг от авторов отчёта.
- 1 минута AI-фильма = $70 на токены + 12 часов работы. Причём 91.4% финалистов потратили 10+ часов.

Как победить или секрет успеха:
- Команда решает. (См. слайд "Team Size" в отчёте).
- Образование не главное. «Корочка» не нужна, что для многих хорошие новости.
- Запаситесь бюджетом: даже с учётом бонусов и токенов, финалисты в среднем тратили $200 при условии, что труд бесплатный.
- Оригинальная музыка > AI-музыка. Ни одна работа со сгенерированной аудиодорожкой не получила награду. Возникает вопрос: судьи оценивали только видео или весь продукт целиком?

Ну и остаётся только добавить дисклеймер: вся эта статистика, а как следствие и выводы, подвержены сильному байесу из-за специфичности выборки и условий конкурса (об этом можно подробнее почитать в документе). Но в целом результаты совпадают с моим мировоззрением, так что на них можно примерно ориентироваться.

PDF в комментариях

@ai_newz

Читать полностью…

эйай ньюз

Сбер представил первую на русском языке модель с нативным восприятием аудио

Тут прикрутили аудио-модель к GigaChat 2 LLM, то есть на вход можно подавать сразу и текст и звук, который преобразуется в токены и подаётся в LLM. Это примерно как в 4o, только пока без генерации аудио, но зато теперь есть полноценное понимание звука.

Моделька распознаёт эмоции и звуки, музыку и речь на других языках. Из фишек — длина контекста в 170 минут, хватит аж на две лекции подряд (привет студентам, как там диплом?). При этом базовые метрики упали, но незначительно.

Пишут, что скоро стоит ждать полноценную speech-to-speech модель. Тогда мы получим настоящий аналог 4o. И там уже можно закрывать все колл-центры в РФ. Ведь, как показала практика, боты куда эффективнее убеждают людей. А значит, они смогут лучше продавать.

Пост на хабре
Гигачат

@ai_newz

Читать полностью…

эйай ньюз

Runway GEN-4 References🔥🔥🔥

К конкурсу видео фильмов GEN-48 Runway раскатили новую старую фичу references, которую презентовали на релизе. Но она сделана для генерации картинок, а не сразу в видео, как это у Kling, там я уже писал почему это не удобно. По принципу работы очень похоже на IP-Adapter, но продвинутый. Принимает на вход до трех изображаний причем сохраняет все мельчайшие детали лица, не крутит их как 4o или Midjourney (последние обещают выпустить что-то похожее), но главная фишка в том что эта штука может и отходить от референса и генерить например фон или areal view бэкграунда (см видос). Штука очень полезная как для продуктовой съемки так и для фильмов.

Ну и на десерт, сейчас всем учасникам GEN-48 дают 300 ТЫСЯЧ кредитов, чтобы вы понимали тир unlimited дает чуть больше 2000 и режим медлинной очереди. Но эти кредиты достыпны только следующие 48 часов.

Конечно всё нужно тестить, так что жду ваши примеры в комментариях.

Регистрация

@ai_newz

Читать полностью…

эйай ньюз

OpenAI удвоили лимиты на o3 и o4-mini для Plus подписчик

Теперь у подписчиков есть 100 запросов к o3 к неделю, 100 запросов к o4-mini-high в день и целых 300 запросов в день к обычной o4-mini. В основном рад за лимиты o3, остальных моделей в принципе хватало.

А насколько вы чувствуете эти лимиты?

@ai_newz

Читать полностью…

эйай ньюз

Трамп, конечно, рыночек хорошо колбасит. С такими тарифами американский проект Stargate может тоже под вопрос стать.

@ai_newz

Читать полностью…

эйай ньюз

Вот как работает режим Draft в MJ v7:

Он понимает не только английский, но и другие языки. Просто диктуешь, что изменить или добавить — проходит пара секунд, и у тебя уже новая картинка. Правда, он изменяет только промпт, а не редактирует саму картинку.

@ai_newz

Читать полностью…

эйай ньюз

DeepSeek V3 обновили

Оригинальную модель тюнили крайне мало — всего 5 тысяч H800 часов (это менее чем 0,2% компьюта на тренировку модели), а теперь её наконец-то затюнили нормально. В результате модель лучше использует тулы, разрабатывает фронтенд и размышляет. Это не reasoner, R1 всё ещё лучше для сложных тасков.

Новую версию релизнули сразу под лицензией MIT, как и R1 (оригинальная V3 была под кастомной лицензией). Модель со вчерашнего дня доступна в API, чате и на 🤗.

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

@ai_newz

Читать полностью…

эйай ньюз

Hunyuan Image2Video

Tencent подсуетились и следом за WAN 2.1 выложили код и веса img2video функционала для своей базовой модельки в 13B параметров. Пример выше, конечно, впечатляет, но говорят, что на деле модель плохо сохраняет лицо и слабо следует промпту.

В стоке разрешение 720p с нехилыми требованиями — 60 GB VRAM, что сильно больше, чем у того же WAN. Официальная оптимизация fp8 пока в прогрессе, но умельцы уже умудрились запихнуть Хуянь в одну единственную RTX 3060. На генерацию видоса в 129 кадров (5 секунд) уходит 10 минут.

В целом, модель я бы сказал проходная — она буквально ни в чём не лучше WAN, ещё и более требовательная.

GitHub
Hugging Face

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#58)

LLM
- Deep Research — дали всем подписчикам ChatGPT, Plus подписка даёт 10 запросов в месяц, для Pro расширили до 120.
- Claude против покемонов — на твиче запустили стрим где Claude проходит оригинальный Pokémon.
- YandexGPT 5 — хороший перформанс Про модели, а Лайт версию выложили в опенсорс.
- GPT 4.5 — модель слабее предшественников в коде (потому что не reasoner), но её главная фишка это креатив и нормальный стиль живого человека.
- Подгоны от DeepSeek — авторы R1 выложили значительную часть своего внутреннего стака в открытый доступ (обзор скоро будет).
- Claude Sonnet 3.7 Extended Thinking — Антропик обзавелась своей ризонинг моделью, говорят лучшая для кодеров.

Генеративные модели
- Alibaba Wan 2.1 — мощнейший видеогенератор с открытым исходным кодом! Умеет в txt и img2video + имеет при себе два вида контроллера для video2video, и даже inpainting.
- Видео дайджест — собрал все новости с просторов txt2video за последние два месяца. Veo 2 в общем доступе, моделька Adobe и другое.

Гайды
- Prompt engineering от Карпатого — гений гайдов по ллм записал 2-х часовой advanced гайд по написанию промптов. Мастхев для каждого юзера ChatGPT и прочих.

Прочее
- Alexa стала умнее — колонке завезли настоящие мозги. Интегрируется со всем, что можно себе представить, включая доставку еды.
- Обмен каналами — делимся любимыми авторами и пиарим свои блоки про AI/ML и прочее.


> Читать дайджест #57

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

Доступ к Deep Research дают теперь всем подписчикам ChatGPT

Обычные подписчики получают 10 запросов в месяц, а Pro подписчикам повысили ограничение с 50 до 120 в месяц.

@ai_newz

Читать полностью…

эйай ньюз

😮 Французский ответ Stargate

На AI Action Summit, президент Эммануэль Макрон анонсировал гигантские инвестиции во французскую ИИ индустрию - 109 миллиардов евро в течении следующих нескольких лет. Вплоть до 50 миллиардов придёт от фонда MGX из ОАЭ (он также участвует в финансировании Stargate), 20 миллиардов - от канадской инвестионной фирмы Brookfield, остальные деньги от плеяды более мелких инвесторов.

Значительная часть из вычислительных ресурсов, построенных на эти деньги, явно уйдёт Mistral - это сейчас единственная европейская компания способная выдавать конкурентноспособные LLM. Стартапам поменьше тоже достанется порядочно, но вот сколько - вопрос.

Похоже, что это всё - часть единой европейской стратегии по ИИ, которую должны представить завтра. Франция в ней должна сыграть лидирующую роль - у страны есть и куча талантов, и большие избытки атомной электроэнергии и доступ к современным чипам.

Государства всё ещё лишь начинают играть мышцами в сфере ИИ, это не последний такой анонс в этом году. Мои выводы после анонса Stargate лишь подтверждаются.

@ai_newz

Читать полностью…

эйай ньюз

Gemini 2.0 Flash - лучше и дешевле конкурентов

Модель заметно дешевле конкурентов - GPT-4o mini, DeepSeek V3 (по скидке) и Claude Haiku 3.5. При этом она показывает себя лучше всех этих моделей. Но есть и нюанс - расценки заметно поменяли. Раньше для длинных запросов цена была в 2x больше, а теперь цену сделали усреднённо единой. Теперь длинные запросы будут дешевле на 30%, а короткие - дороже на 30%.

А по старой цене доступна Gemini 2.0 Flash-Lite. Она лучше чем 1.5 Flash, но разница по бенчам с полноценной 2.0 Flash больше разницы в цене. Вот так ловко Google пытается пересадить разработчиков на более дорогую Gemini 2.0 Flash.

Вдобавок ко всему этому, Google обновил превью Gemini 2.0 Pro - более ранняя версия модели була доступна уже два месяца как Gemini-Experimental-1206, эта версия уже ближе к релизу. Надеюсь она не будет сидеть в превью ещё два месяца и релизнется скоро, желательно сразу с Thinking версией.

https://aistudio.google.com (может быть нужен впн)

@ai_newz

Читать полностью…

эйай ньюз

Мнение по Operator от ChatGPT на основе дня использования:
- это все еще ранний продукт, поэтому в бете: он не со всем справляется, но от него уже есть польза

- он полезен, когда вам нужно что-то собрать в автономном режиме: отправляете его собирать список философских кружков вокруг вас, он возвращается со списком ссылок, или у вас есть список товаров и нужно прописать им описания автоматом, или вам нужно найти какую-то редкую деталь, ответ и тп и тд, короче вы поняли

- он довольно сухо и коротко отвечает пока что - видно, что это будут настраивать

- поскольку это бета, агент может запутаться и долго делать простую задачу - простые задания лучше все еще делать кожаным

- каждый раз, когда он подходит к выполнению задачи, он просит вас вмешаться чтобы убедиться, что все ок - оператор работает в фоне и присылает пуш когда вы нужны, удобно

- забавный промпт инженеринг пример от OpenAI: в системном промпте, они говорят агенту что у него 20-летний опыт использования компьютера 🌚

- кстати, оператор будет доступен на телефонах в том числе, вчера упомянули на презентации - это уже киллер фича мне кажется, полноценный пк-браузер доступный в любой момент

Пока что мне нравится, соберу потом сценарии использования от сообщества

Читать полностью…
Subscribe to a channel