48228
Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
🔥 2025 - год, когда LLM действительно изменились. Коротко и по делу, по мотивам поста Андрея Карпты
2025 оказался неожиданно сильным годом для LLM. Не просто улучшения метрик, а реальные сдвиги в том, как модели обучаются, как ими пользуются и как вообще стоит думать об их «интеллекте».
Главное за 2025 по мнению Карпты:
1. RLVR — Reinforcement Learning from Verifiable Rewards
До 2025 стандартный стек выглядел так: pretraining → SFT → RLHF. В 2025 к этому стеку добавился новый, ключевой этап- RLVR.
Вместо субъективной человеческой оценки модель обучают на автоматически проверяемых наградах: задачи по математике, коду, логике. В результате LLM сама находит стратегии рассуждения - дробит задачи, проверяет гипотезы, возвращается назад.
Важно не «что мы показали модели», а то, что она сама нашла рабочие способы думать. Этот этап оказался невероятно эффективным по соотношению capability к стоимости, из-за чего значительная часть вычислений ушла не в pretraining, а в длинные RL-прогоны.
Побочный эффект — появился новый регулятор мощности: test-time compute. Больше «времени на размышление» — выше качество. o1 показал идею, o3 в начале 2025 сделал перелом — разницу стало чувствовать интуитивно.
2. «Призраки, а не животные» и рваный интеллект
В 2025 индустрия наконец осознала форму LLM-интеллекта. Мы не «растим животных». Мы «призываем призраков».
LLM оптимизированы не под выживание и социальные группы, а под имитацию текста, получение наград в формальных задачах и апвоты. Поэтому интеллект получается рваным:
- гениальны в одном
- наивны и уязвимы в другом
RLVR усиливает этот эффект - модели становятся сверхсильными в верифицируемых доменах и странно слабыми вне их. Отсюда и потеря доверия к бенчмаркам: они почти всегда верифицируемы, а значит легко «обрастают jagged-улучшениями». Обучение на тесте стало искусством.
Можно побить все бенчмарки и всё ещё быть далеко от AGI.
3. Cursor и новый слой LLM-приложений
Cursor показал, что появился новый класс LLM-продуктов - «Cursor для X».
Это не просто интерфейс к модели, а слой, который:
- делает context engineering
- оркестрирует множество LLM-вызовов в DAG
- балансирует стоимость и качество
- дает специализированный UI
- вводит «ползунок автономности»
Вероятный сценарий: LLM-лабы делают «универсального студента», а приложения превращают их в специалистов — добавляя данные, инструменты, сенсоры и обратную связь.
4. Claude Code - AI, который живет на твоем компьютере
Claude Code стал первым убедительным агентом, который работает локально, в твоем окружении, с твоими файлами и контекстом.
Это важный сдвиг. Не облачные контейнеры и абстрактные агенты, а «дух», который живет рядом с разработчиком. В мире рваных возможностей это оказалось гораздо полезнее, чем агентные своры в облаке.
Форм-фактор CLI сделал этот сдвиг особенно наглядным: AI - это уже не сайт, а постоянный спутник.
5. Vibe coding
2025 - год, когда стало возможно писать сложные программы, почти забыв, что код вообще существует.
Vibe coding демократизирует программирование:
- обычные люди могут создавать софт
- профессионалы пишут больше, быстрее и смелее
- код стал дешевым, одноразовым, экспериментальным
Можно написать программу ради одной проверки, одного бага, одной идеи - и выкинуть. Это изменит и софт, и профессии.
6. Nano banana и будущее интерфейсов
Чат - это терминал 80-х. Удобно для машины, плохо для человека.
Люди предпочитают визуальное мышление: схемы, изображения, анимации, интерфейсы. LLM должны общаться с нами в этих форматах. Gemini Nano banana - первый намек на настоящий LLM-GUI, где текст, изображения и знания слиты в одной модели.
Это не просто генерация картинок — это новый пользовательский слой для интеллекта.
2025 показал: LLM - это новый тип интеллекта. Он одновременно умнее и глупее, чем ожидали. Он невероятно полезен, но мы реализовали, возможно, даже не 10% его потенциала.
Прогресс будет быстрым. Работы впереди — море. Поле идей - открыто.
https://x.com/karpathy/status/2002118205729562949
@data_analysis_ml
✔️ GPT-5.2-Codex.
OpenAI представила GPT-5.2-Codex, которую называет самым продвинутым инструментом для реальной программной инженерии на сегодняшний день. Модель получила нативную поддержку сжатия контекста, улучшенную интеграцию с терминалом Windows и способность проводить глубокий рефакторинг крупных репозиториев без потери логической нити.
Ключевой апдейт коснулся сферы безопасности - Codex резко прибавил способностей в анализе защищенности кода. Модель уже доступна платным пользователям ChatGPT, а API будет открыт в ближайшие недели.
openai.com
✔️ xAI представила Grok Voice Agent API.
Компания Илона Маска открыла публичный доступ к Grok Voice Agent API — нативному интерфейсу speech-to-speech для создания голосовых ассистентов. Решение построено на полностью собственной архитектуре, что позволило достичь задержки ответа менее 1 секунды.
API поддерживает вызов внешних инструментов, веб-поиск, прямую интеграцию с телефонией через SIP и понимает более 100 языков. В бенчмарке Big Bench Audio модель заняла 1 место с точностью 92,3%, опередив Gemini 2.5 Flash и GPT Realtime.
Главной фишкой стала ценовая политика: единый тариф составляет $0.05 за минуту. Это значительно дешевле, чем у OpenAI и ElevenLabs.
x.ai
✔️ VS Code получил поддержку стандарта Agent Skills.
В VS Code Insiders появилась поддержка Agent Skills - открытого протокола, разработанного Anthropic. Технология позволяет упаковывать инструкции, скрипты и вспомогательные ресурсы в модули, которыми можно пользоваться в разных ИИ-инструментах.
Главное отличие Agent Skills от привычных кастомных инструкций в функциональности: это не текстовые гайдлайны по стилю кода, а полноценные наборы инструментов для автоматизации задач, которые подгружаются в контекст модели динамически и только при необходимости.
Стандарт дает кросс-платформенность: созданный один раз скилл будет работать одинаково как в интерфейсе редактора, так и в CLI-агентах.
code.visualstudio.com
✔️ Google выпустила T5Gemma 2.
T5Gemma 2 получила серьезные архитектурные изменения по сравнению с первой версией. Чтобы снизить потребление памяти, инженеры внедрили tied word embeddings для энкодера и декодера, а также объединили механизмы self-attention и cross-attention в единый слой. Модели доступны в компактных конфигурациях на 270M, 1B и 4B параметров.
Новинка поддерживает контекстное окно до 128 тыс. токенов и умеет обрабатывать не только текст на 140 языках, но и изображения. В бенчмарках T5Gemma 2 обошла базовую Gemma 3 в задачах на длинный контекст, кодинг и мультимодальное понимание. Модели доступны на Hugging Face и Kaggle для исследовательских целей.
blog.google
✔️ ИИ-подразделение Марка Цукерберга открыло аудио-визуальный энкодер PE-AV.
Perception Encoder Audiovisual (PE-AV) - техническое ядро, лежащее в основе SAM Audio. Это мультимодальная модель, которая объединяет аудио, видео и текст в единое пространство эмбеддингов.
PE-AV умеет извлекать векторы признаков из аудио или видеокадров и формировать совместные аудиовизуальные представления. Это повышает точность в задачах кросс-модального поиска, детекции звуков и глубокого понимания сцен, где важен синхронный контекст изображения и звука.
В открытом доступе - 6 чекпоинтов модели разного размера (от Small до Large) с вариациями по количеству обрабатываемых кадров. Код опубликован на GitHub, а веса - на Hugging Face.
huggingface.co
@ai_machinelearning_big_data
#news #ai #ml
🎤 xAI запустила Grok Voice Agent API
xAI представила Grok Voice Agent API - интерфейс для создания голосовых AI-агентов с живым диалогом в реальном времени.
Ключевые возможности:
- Двусторонний голосовой диалог с минимальной задержкой
- Поддержка десятков языков и естественной интонации
- Вызов инструментов, поиск в интернете, выполнение задач во время разговора
- Интеграция с SIP-провайдерами и голосовыми платформами
Производительность:
- Время до первой реплики - менее 1 секунды
- Высокие результаты в аудио-бенчмарках
- Простая тарификация - оплата за минуты соединения
Где используется:
- Голосовой Grok в мобильных приложениях
- Интеграции в автомобилях Tesla
- Поддержка продакшен-агентов для бизнеса
https://x.ai/news/grok-voice-agent-api
@data_analysis_ml
🔥 На stepik вышел курс, который учит Создавать настоящие AI-сервисы, а не просто запускать скрипты?
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
Когда OpenAI публикует такие посты, это редко бывает случайно.
Похоже, релиз новой модели для генерации изображений уже совсем близко. 🤯
@data_analysis_ml
🧠 Xiaomi представила MiMo-V2-Flash - новую open-source MoE-модель с фокусом на максимальную скорость без потери качества.
Моделька на 309B параметров, из которых одновременно активны лишь 15B - за счёт умной MoE-маршрутизации модель достигает высокой эффективности. Сравнима с DeepSeek-V3.2 на общих бенчмарках.
MiMo-V2-Flash заточена под агентов и работу с инструментами.
🔥 Ключевые особенности
🏗️ Hybrid Attention
5:1 чередование 128-window SWA и Global Attention
Контекст — 256K токенов
🏆 Код и разработка
• SWE-Bench Verified - 73.4%
• SWE-Bench Multilingual - 71.7%
Новый SOTA среди open-source моделей
🚀 Скорость
• До 150 output tokens/sec
• Day-0 поддержка от @lmsysorg
MiMo-V2-Flash - пример того, как MoE-архитектуры выходят на новый уровень: быстрее, дешевле и готовые к агентным сценариям.
🤗 Model: http://hf.co/XiaomiMiMo/MiMo-V2-Flash
📝 Blog: http://mimo.xiaomi.com/blog/mimo-v2-flash
📄 Technical Report: http://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
🎨 AI Studio: http://aistudio.xiaomimimo.com
#AI #LLM #MoE #OpenSource #AgenticAI #MachineLearning #DeepLearning #GenAI #SWEBench #Xiaomi #AIModels
🦾 Машинное обучение стало базой почти всех современных AI-решений — от систем рекомендаций до генеративных моделей.
📌 22 декабря в 18:00 МСК мы разберём фундамент ML, его связь с Data Science и роль в развитии современных AI-моделей. Покажем pipeline обучения, объясним, чем ML отличается от классического программирования, и вместе обучим простую модель классификации изображений.
Открытый урок подойдёт тем, кто делает первые шаги в Data Science и ML, IT-специалистам, которые хотят расширить компетенции, и тем, кто давно ищет понятное, логичное объяснение того, как устроена ML-модель.
Регистрация на вебинар: https://tglink.io/0c63316b0095?erid=2W5zFGTEVY4
Вебинар проходит в преддверие старта курса «Machine Learning» 🎄 Учитесь в новом году по старым ценам!
Максимальная скидка 30% на обучение до 21.12.2025:
1 курс — тающая скидка 15% до 21.12
2 курса −25%, 3 курса −30%
Вы можете оставить заявку на странице курса. Учиться системно — выгоднее!
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🚀 Live Avatar - генерация интерактивного аватара в реальном времени и бесконечной длины!
Система построена на диффузионной модели 14B параметров, выдаёт 20 FPS на 5×H800 (4 шага семплинга).
Можно говорить в микрофон и смотреть в камеру - аватар отвечает сразу, живым видеопотоком.
В связке с Qwen3-Omni это превращается в полноценный формат лицом-к-лицу с AI, автономные диалоги и агенты, которые могут общаться между собой потоково, в реальном времени, более 10 000 секунд подряд.
🔗YouTube: https://youtube.com/watch?v=srbsGlLNpAc&list=TLGGqUfEsaFb8-QwODEyMjAyNQ&t=55s
🔗Модель: https://modelscope.cn/models/Quark-Vision/Live-Avatar
🔗Блог: https://liveavatar.github.io
🔗Modelscope: https://modelscope.cn/papers/2512.04677
🔗Код: https://github.com/Alibaba-Quark/LiveAvatar
Microsoft запустила VibeVoice Realtime на Hugging Face - лёгкую стриминговую text-to-speech модель, которая начинает озвучивать текст примерно за 300 миллисекунд.
Идеально для живых данных и разговоров с LLM.
huggingface.co/microsoft/VibeVoice-Realtime-0.5B
В бигтехе есть место не только для разработчиков
В VK ценят каждого специалиста — от маркетологов до HR. По ссылке — истории сотрудников, которые меняют продукты компании без единой строчки кода. Смотрите ролики и вакансии, где вы точно сможете проявить себя.
Перейти на сайт
16+
#реклама 16+
vkteam.ru
О рекламодателе
Запустите рекламу в телеграм-каналах с Яндекс Директом
Перфоманс-реклама теперь в телеграм-каналах ⚡
Яндекс Директ знает, как привлечь целевую аудиторию 💰👌
Попробовать
#реклама
yandex.ru
О рекламодателе
🚀 Paper2Slides теперь в open source!
Теперь можно превращать научные статьи и техотчёты в профессиональные презентации в один клик.
Мы уже сгенерировали слайды по свежему DeepSeek V3.2 - разные стили, аккуратное оформление. Загляни, оцени и поделись мнением.
🔥 Что умеет Paper2Slides:
📄 Поддержка разных форматов - PDF, Word, Excel, PowerPoint и др.
🎯 Понимает содержание - вытягивает ключевые идеи, таблицы, формулы, графики и данные
🎨 Кастомизация - готовые темы и полная персонализация стилей
⚡ Очень быстро — качественные презентации за минуты
GitHub: github.com/HKUDS/Paper2Slides
📝 Главное из System Card GPT-5.2
— GPT-5.2 стала заметно честнее. В реальном продакшн-трафике случаи обмана у версии Thinking снизились до 1.6% против 7.7% у GPT-5.1. Модель гораздо реже врёт или искажает информацию о работе с инструментами.
— Модель лучше держит удар при провокациях. В специальных тестах, где её пытаются склонить к обману, показатель снизился с 11.8% до 5.4%. То есть GPT-5.2 устойчивее к манипулятивным подсказкам.
— Защита от prompt-injection стала сильнее. Instant и Thinking почти полностью проходят известные тесты (0.997 и 0.978). При этом OpenAI честно предупреждает: это проверка на известные атаки, а не гарантия защиты от новых.
— Большой скачок в чувствительных темах. Особенно в областях ментального здоровья и эмоциональной зависимости:
• mental health: 0.915 вместо 0.684
• emotional reliance: 0.955 вместо 0.785
Это один из самых заметных прогрессов по сравнению с GPT-5.1.
— GPT-5.2 Instant реже отказывается отвечать на запросы взрослых пользователей по «18+» темам. При этом правила не ослаблялись, а доступ для несовершеннолетних не расширялся.
— OpenAI внедряет автоматическое определение возраста. Для аккаунтов младше 18 лет будут жёстче ограничиваться чувствительные категории — сексуальный контент, романтические ролевые сценарии, сцены насилия.
— По фактической точности GPT-5.2 Thinking как минимум не хуже прошлых версий, а в некоторых сценариях лучше. С включённым браузингом уровень галлюцинаций опустился ниже 1% в пяти тематических областях.
— В рамках Preparedness Framework модель признана «высокоспособной» в биологии и химии. Включены дополнительные меры защиты. При этом OpenAI подчёркивает: нет доказательств, что модель может помочь новичку нанести серьёзный биологический вред, хотя она уже близка к этому порогу.
— В задачах самоулучшения ИИ GPT-5.2 Thinking стала лучшей моделью на бенчмарке OpenAI PRs, сопоставима с gpt-5.1-codex-max на MLE-bench и всего на 1 пункт уступает ему на PaperBench.
— Независимая проверка Apollo Research не выявила скрытого саботажа, попыток самосохранения или подрывного поведения. По их оценке, риск катастрофического вреда из-за «коварных» стратегий модели крайне низок.
GPT-5.2 показывает заметный прогресс в честности, устойчивости, безопасности и качестве ответов.
cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf
📘 Новая фундаментальная работа (65 страниц) от Stanford, Princeton, Harvard, University of Washington и других топ-университетов: впервые предлагается полная таксономия того, как современные агентные AI-системы адаптируются.
Главная идея:
Почти все сложные AI-агенты можно описать через всего 4 базовые типа адаптации - два связаны с обновлением самого агента, два других - с обновлением инструментов, которыми агент пользуется.
Что такое агентный AI:
Это большие модели, которые могут:
- вызывать инструменты,
- использовать память,
- выполнять задачи в несколько шагов.
Что такое адаптация:
Любое изменение агента или его инструментов на основе обратной связи, от проверки кода до человеческих оценок.
4 вида адаптации:
A1 - Agent Adaptation from Tool Execution
Агент обновляется на основе того, что произошло при вызове инструментов: код запустился или упал, поиск что-то нашёл или нет.
A2 — Agent Adaptation from Output Evaluation
Агент обновляется по оценкам качества своих итоговых действий: человеческим фидбеком, автопроверками ответов, качеством планов.
T1 - Tool Adaptation Independent of Agent
Инструменты обучаются отдельно, а агент остаётся “замороженным”. Например, заранее тренированный retriever или кодовый поисковик.
T2 - Tool Adaptation from Agent Signals
Агент остаётся фиксированным, но инструменты подстраиваются под его поведение — какие документы действительно помогли, какие подсказки улучшили выполнение задачи.
Почему это важно:
- Работа впервые системно упорядочивает методики адаптации агентных систем.
- Помогает понять компромиссы: стоимость обучения, гибкость, переносимость, модульные обновления.
- Показывает историю развития методов A1, A2 и T2, как они усложнялись и какие сигналы начали использовать.
Взгляд сводится к двум осям:
- можно менять агента,
- можно менять инструменты,
- а данные и фидбек служат топливом для обеих стратегий.
Эта таксономия помогает увидеть связи между десятками современных работ и понять, куда движутся агентные архитектуры нового поколения.
https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI/blob/main/paper.pdf
⚡️ Новый пост Andrej Karpathy : автоматическая оценка десятилетних обсуждений Hacker News с позиции «задним числом»
Он взял все 930 материалов и обсуждений с главной страницы Hacker News за декабрь 2015 года и прогнал их через GPT 5.1 Thinking API, попросив модель определить самые дальновидные и самые ошибочные комментарии.
Примерно 3 часа ушло на написание кода и ещё час и ~$60 - на запуск.
Почему это важно:
1. Анализ «задним числом»- мощный инструмент для тренировки собственного навыка прогнозирования. Чтение таких выводов помогает лучше понимать, где именно люди предугадывали будущее, а где промахивались.
2. Стоит задуматься, как будет выглядеть мир, когда будущие LLM смогут делать такие исследования намного дешевле, быстрее и точнее. Любой ваш комментарий в интернете может стать объектом глубокого анализа - бесплатно и в огромном масштабе. Как автор писал ранее: «будьте хорошими, будущие LLM за вами наблюдают».
🎉 Топ-10 аккаунтов: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth и johncolanduoni - GPT 5.1 Thinking признал их комментарии самыми точными и дальновидными в декабре 2015 года.
🔗 Полные материалы:
- Подробный разбор: karpathy.bearblog.dev/auto-grade-hn/
- Репозиторий проекта: github.com/karpathy/hn-time-capsule
- Готовые результаты: karpathy.ai/hncapsule/
@data_analysis_ml
⚡️ Shannon - полностью автономный AI-хакер для поиска реальных уязвимостей в веб-приложениях
Shannon - это автономная система для offensive security, которая сама ищет, воспроизводит и документирует реальные эксплойты в веб-приложениях без подсказок и ручного вмешательства.
Модель показала 96.15% успешности на XBOW Benchmark (hint-free, source-aware), что выводит ее на уровень практического pentest, а не просто статического анализа.
Что умеет Shannon
- Полностью автономная работа без ручного управления
- Поиск реальных эксплойтов, а не теоретических уязвимостей
- Генерация pentester-grade отчетов с воспроизводимыми шагами атаки
- Покрытие критических уязвимостей OWASP Top
- Code-aware динамическое тестирование с учетом исходного кода
- Использование набора интегрированных security-инструментов
- Параллельное выполнение атак для ускорения результатов
Почему это важно
Большинство сканеров находят потенциальные проблемы. Shannon ищет именно эксплуатируемые уязвимости и подтверждает их рабочими атаками, снижая false positives и экономя время команд безопасности.
Практическое применение
- Автоматизированный pentest в CI/CD
- Проверка безопасности перед релизом
- Red Team инструментарий
- Continuous security для веб-продуктов
Shannon - пример того, как автономные AI-агенты начинают реально менять рынок offensive security, переходя от подсказок к самостоятельному поиску и эксплуатации уязвимостей.
🖥 GitHub: https://github.com/KeygraphHQ/shannon
🚀 VoxCPM 1.5 - новый уровень реалистичной генерации речи! 🎧✨
Модель получила заметные улучшения, которые делают синтез голоса более естественным и технологически гибким.
Ключевые изменения:
🔊 Hi-Fi звук 44.1 kHz — качество приближено к студийному, вместо прежних 16 kHz
⚡ В 2 раза эффективнее — 1 секунда аудио теперь кодируется в 6.25 токена вместо 12.5
🛠 Расширенные возможности настройки — новые скрипты для LoRA и полного fine-tuning позволяют адаптировать модель под голосовые проекты
📈 Стабильность на длинных аудио — меньше артефактов и провалов при генерации
Ссылки для изучения и тестов:
HuggingFace: huggingface.co/openbmb/VoxCPM1.5
GitHub: github.com/OpenBMB/VoxCPM
#VoxCPM #TTS #AI #OpenSource
📌 Новое исследование показывает: AI-статьи, финансируемые Big Tech, получают больше цитирований, чаще цитируют “своих” и сильнее ориентируются на свежие результаты.
Ключевые факты:
🔹 Всего около 10% статей имеют финансирование Big Tech, но ~12% из них попадают в число наиболее цитируемых.
🔹 Анализировали ~50K работ из топ-конференций, классифицируя их по благодарностям: Big Tech, другое финансирование или без него.
🔹 За 20 лет доля Big Tech выросла с примерно 0 до ~10% всех топ-публикаций.
🔹 Чтобы оценить влияние, сравнили “сколько статьи публикуют” vs “сколько их цитируют”:
• статьи Big Tech цитируются больше, чем можно ожидать по их доле;
• нерефинансируемые - меньше.
🔹 Каждая группа чаще цитирует “своих”, но Big Tech особенно склонна ссылаться на другие Big Tech работы.
🔹 По возрасту ссылок — Big Tech публикует статьи, которые сильнее ориентированы на совсем свежие исследования, а значит такие деньги частично формируют, какие идеи и старые результаты AI-сообщество не забывает и к чему возвращается.
arxiv.org/abs/2512.05714
🚀Релиз HY World 1.5 (WorldPlay)
Команда Tencent Hunyuan открыла исходный код HY World 1.5 (WorldPlay) - одного из самых продвинутых и фреймворков для интерактивного моделирования миров в реальном времени.
В версии 1.5 представлен WorldPlay - стриминговая video diffusion-модель, позволяющая создавать и исследовать интерактивные 3D-миры с долгосрочной геометрической согласованностью.
3D-миры можно создавать по тексту или изображениям, свободно перемещаться по ним, осматриваться и взаимодействовать с окружением, как в видеоигре.
Ключевые особенности:
- Реальное время
Генерация длинных видеопотоков со скоростью 24 FPS с высокой стабильностью сцен.
- Геометрическая согласованность
Используется механизм Reconstituted Context Memory, который динамически пересобирает контекст из предыдущих кадров и предотвращает деградацию памяти.
- Точное и устойчивое управление
Dual Action Representation обеспечивает корректную реакцию на ввод с клавиатуры и мыши.
- Широкие сценарии применения
Поддержка вида от первого и третьего лица, событий, управляемых промптом, и бесконечного расширения мира.
Проект полностью открыт.
▪Попробовать: https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay
▪Проект Page: https://3d-models.hunyuan.tencent.com/world/
▪ GitHub: https://github.com/Tencent-Hunyuan/HY-WorldPlay
▪Hugging Face: https://huggingface.co/tencent/HY-WorldPlay
Technical Report: https://3d-models.hunyuan.tencent.com/world/world1_5/HYWorld_1.5_Tech_Report.pdf
@data_analysis_ml
Приглашаем в телеграм-канал AI Inside
Канал для тех, кто смотрит на искусственный интеллект не как на хайп, а как на рабочий инструмент.
Здесь нет абстрактных теорий — только прикладные решения.
Что вас ждет:
- Технологии: расскажем, как ИИ решает реальные бизнес-задачи — от автоматизации до аналитики.
- Кейсы: покажем успешные примеры внедрения и использования ИИ-инструментов.
- Экспертиза: объясним сложные технологии простым языком с фокусом на практическую пользу.
Наша цель - дать конкретные идеи и инсайты, которые можно применить уже сегодня.
Присоединяйтесь к сообществу практиков!
Узнать больше
#реклама 16+
О рекламодателе
⚡️ Большинство быстрых text-to-speech моделей звучат роботизировано.
Большинство качественных - слишком медленные.
И почти ни одна не решает вопрос аутентичности аудио на уровне архитектуры.
Resemble AI закрыли все три проблемы сразу.
Chatterbox Turbo 0 это:
🟢 <150 мс до первого звука
🟢 Качество уровня SOTA - превосходит более крупные проприетарные модели
🟢 Естественные, программируемые эмоции и интонации
🟢 Zero-shot клонирование голоса всего по 5 секундам аудио
🟢 PerTh watermarking - проверяемое и аутентифицированное аудио
🟢 Полностью open source, никакой «чёрной магии»
Редкий пример, когда скорость, качество и безопасность не идут на компромисс, а работают вместе.
HuggingFace: https://huggingface.co/spaces/ResembleAI/chatterbox-turbo-demo
⚡️ Обсуждение развития ИИ давно раскололось на несколько "лагерей"
Сегодня вокруг ИИ есть несколько устойчивых позиций:
- думеры, которые видят экзистенциальную угрозу
- этики, фокусирующиеся на рисках и регулировании
- билдеры, которые просто строят и запускают продукты
- прагматики, смотрящие на пользу здесь и сейчас
- скептики, считающие всё это переоценённым
Одни призывают срочно замедлить развитие.
Другие говорят, что LLM - всего лишь продвинутый автодополнитель текста.
Третьи уверены, что AGI практически неизбежен и близок.
При этом парадокс в том, что все наблюдают один и тот же технологический прогресс, одни и те же модели, графики и демо.Но выводы делают диаметрально противоположные.
Именно поэтому любой разговор об ИИ почти мгновенно скатывается в поляризацию, споры и идеологические войны, а не в спокойный анализ.
@data_analysis_ml
Не просто строить мультимодальные модели, а создавать мир завтрашнего дня.
//От модели данных до будущего — ближе, чем кажется.
В VK уже работают над этим. Узнайте, как команды создают технологии, которые определяют завтрашний день. Заходите по ссылке — смотрите, читайте, вдохновляйтесь.
🔊 Google представила обновления моделей Gemini 2.5 Flash и Pro для Text-to-Speech (TTS)
Что нового:
- Более гибкая передача эмоций и тональности
- Контекстно-зависимая настройка темпа речи
- Улучшенная работа с несколькими говорящими
Теперь разработчики получают куда больше контроля над тем, как именно модель озвучивает тексты - от эмоционального стиля до динамики повествования.
https://blog.google/technology/developers/gemini-2-5-text-to-speech/
@ai_machinelearning_big_data
#tts #Gemini #google
🚀 GLM-4.6V от Zai_org только что вышла на Chutes 🪂
- 106B параметров
- Контекст 128K
Нативный vision-driven function calling
GLM-4.6V умеет *действовать на основе увиденного*.
Возможности:
- точное, пиксель-в-пиксель восстановление HTML по изображению
- глубокое понимание сложных мультимодальных документов
- прямой вызов функций из визуального ввода
- связка «зрение → рассуждение → действие» без костылей
Попробовать модель:
https://chutes.ai/app/chute/8f2105c5-b200-5aa5-969f-0720f7690f3c?tab=api
💡 Google Переводчик запускает перевод речи в реальном времени прямо в беспроводные наушники - и да, подходят любые модели.
Функция работает на базе нейросети Gemini и уже проходит тестирование на Android в США, Индии и Мексике. Поддерживается более 70 языков, включая русский.
Как это выглядит на практике:
собеседник говорит - ты сразу слышишь перевод в наушниках. Без пауз, без необходимости смотреть на экран, без лишних действий.
Ключевое отличие от конкурентов - универсальность. Google не привязывает функцию к конкретному «железу» и не требует фирменных наушников. Это резко контрастирует с подходом Apple, где подобные возможности ограничены экосистемой AirPods.
По сути, Google делает перевод частью повседневного общения, а не отдельным режимом в приложении.
Глобальный релиз и версия для iOS ожидаются в 2026 году.
🚀 GPU для ИИ в периметре компании — MWS Cloud запускает новый сервис
MWS GPU on-premises решает задачу для тех, кому облако не подходит по требованиям безопасности. Серверы с передовыми графическими ускорителями разворачиваются на площадке предприятия, а команда MWS Cloud берёт на себя весь цикл — от подбора конфигурации до поддержки.
Почему это важно:
1. В России множество компаний, которые по закону могут разворачивать инфраструктуру только on-premises — теперь у них есть готовое решение.
2. Благодаря готовым конфигурациям запуск занимает дни, а не месяцы.
3. Аренда переводит капитальные затраты в операционные — не нужно замораживать бюджет на закупку железа.
4. Всего доступно 7 видов карт и более чем 20 конфигураций серверов.
«Инфраструктура может масштабироваться в зависимости от задач и объёмов вычислений. Это обеспечивает гибкость при расширении проектов», — отметил директор по новым облачным продуктам Алексей Кузнецов.
🚀 OpenAI официально запускает GPT-5.2!
Новая линейка моделей - Instant, Thinking и Pro - начинает раскатываться для пользователей Plus, Pro, Business и Enterprise. Завтра доступ получат Free и Go. Модели уже доступны и в API, включая режим Codex.
🧠 GPT-5.2 Thinking
Модель для сложной профессиональной работы.
— Sota результаты в рассуждении
— Существенный прогресс в создании и анализе таблиц
— Первые значимые улучшения в создании презентаций
На бенчмарке GDPval - тесте «зрелой» офисной работы для 44 профессий - это первая модель, достигшая уровня эксперта-человека.
⚡ GPT-5.2 Instant
Ориентирована на повседневную работу и обучение.
— Такой же разговорный стиль, как у 5.1
— Более чёткие объяснения темы
— Улучшенные пошаговые инструкции
— Сильное техническое письмо и перевод
🔬 GPT-5.2 Pro
Самая мощная модель для сложных вопросов.
— Лучшие результаты в программировании
— Лучшая модель для учёных и исследовательских команд
GPT-5.1 останется доступной платным пользователям ещё три месяца в статусе legacy.
https://openai.com/index/introducing-gpt-5-2/
@data_analysis_ml
🚀 Авито и getmatch запустили открытый тест для оценки уровня для DS-специалистов
Проект использует систему, на которой Авито проводит реальные интервью — с теми же принципами, форматами вопросов и логикой оценки 🧩
Что внутри:
📊 Определение уровня
Тест анализирует ответы и показывает предполагаемый грейд — от junior до senior — на основе компетенций и практических кейсов.
🧠 Разбор навыков
Даёт подсказки, какие области «проседают» и что стоит подтянуть, чтобы двигаться вверх по уровню.
💸 Ориентиры по рынку
Параллельно можно посмотреть, какие вилки сейчас встречаются у специалистов похожего уровня — это встроено через калькулятор getmatch.
Интересен сам формат: попытка собрать единый срез навыков и рыночных данных, но без собеседований, звонков и классического HR-скрининга.
➡️ Проверить свой уровень
🚀 Вышел Qwen-Image-i2L от DiffSynth-Studio - первый open-source инструмент, который умеет делать LoRA-модель из одной картинки. 🖼️➡️🧠
Что можно извлекать из изображения:
🎨 Style — только стиль и эстетика
🧩 Coarse — стиль + содержание сцены
✨ Fine — улучшение детализации 1024×1024 (используется вместе с Coarse)
⚖️ Bias — подстройка под фирменный визуальный почерк Qwen-Image
Модель построена на SigLIP2 + DINOv3 + Qwen-VL.
Итог — можно взять одну картинку и быстро натренировать под неё собственную LoRA, без больших датасетов.
🔗 ModelScope: modelscope.cn/models/DiffSynth-Studio/Qwen-Image-i2L/summary
💻 Код: github.com/modelscope/DiffSynth-Studio/blob/main/examples/qwen_image/model_inference_low_vram/Qwen-Image-i2L.py