opendatascience | Technologies

Telegram-канал opendatascience - Data Science by ODS.ai 🦜

46226

First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev

Subscribe to a channel

Data Science by ODS.ai 🦜

🧮Математика сюрпризов: как 17-летняя школьница разрушила 40-летнюю гипотезу

Математика 2025 года доказывает: в науке о строгих правилах всё еще полно места для сюрпризов. Даже в областях, где всё казалось изученным до мелочей, старые гипотезы внезапно рушатся под свежим взглядом. Ярким примером стала 17-летняя школьница Ханна Кайро, которая, обучаясь дома на Багамах, смогла опровергнуть 40-летнюю гипотезу из гармонического анализа. Она нашла контрпример там, где опытные ученые десятилетиями видели лишь подтверждение устоявшихся теорий, доказав, что математическая интуиция порой важнее академических регалий.

Геометрия и физика тоже преподнесли невероятные результаты, граничащие с парадоксами. Исследователи наконец обнаружили «нопертэдр» — первый в истории выпуклый многогранник, сквозь который невозможно протащить его собственную копию, а также создали тетраэдр, способный стоять лишь на одной из четырех граней. Параллельно с этим математики представили новое, универсальное решение знаменитой «задачи десяти мартини», окончательно связав квантовую физику электронов с причудливыми фрактальными структурами.

На самом фундаментальном уровне ученые замахнулись на пересмотр природы бесконечности и чисел. Пока одни группы исследователей предлагают новые типы бесконечностей, которые делают математическую вселенную еще более хаотичной и сложной, другие находят способы доказать иррациональность целых наборов чисел. Эти открытия показывают, что даже привычная со школы числовая прямая остается территорией поиска, где за простыми вопросами скрываются глубокие истины, меняющие наше представление о реальности.

#Математика #Наука #Геометрия

SecurityLab в Telegram | MAX | Поддержите нас «бустами»

Читать полностью…

Data Science by ODS.ai 🦜

Привет!

Встречайте двадцать шестой, предновогодний 🎄 выпуск подкаста "Капитанский мостик". В этом выпуске обсуждаются ключевые события года, включая рост цен на технологии памяти, скорость изменений в индустрии, дефляцию технологий и трансформацию маркетинга. Также рассматриваются новые навыки, необходимые в программировании, и важность образования в технологической сфере России. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).

Читать полностью…

Data Science by ODS.ai 🦜

Сравнение числа ошибок в коде, написанном людьми и AI https://opennet.ru/64485/

Читать полностью…

Data Science by ODS.ai 🦜

​​Топ-10 интересных статей 2025

В этом году я написал 30+ обзоров статей. Получилось немного меньше, чем в прошлые годы, но очень уж много топовых компаний публикуют лишь сухие technical reports.
Большинство статей было, конечно, про LLM, но не только ими полон мир - был интересный прогресс в компьютерном зрении и многих других направлениях.

Хочу поделится топ-10 статей, которые мне показались особо интересными. Лист совершенно субъективный и не покрывает топ-фронтир LLM.

DeepSeek-R1
GSPO
Lumine
SAM-3
Chronos-2
NeoBERT
AlphaEvolve
SWE-rebench
DINOv3
Dragon Hatchling

Детали можно почитать в моём блогпосте. Или на medium.

#datascience

Читать полностью…

Data Science by ODS.ai 🦜

🚀 Вышел QwenLong-L1.5 - модель для long-context reasoning, которая на длинных контекстах конкурирует с GPT-5 и Gemini-2.5-Pro.

Коротко о модели
- 30B параметров, из них 3B активных
- Заточена под рассуждение на очень длинных контекстах
- Полностью открыты веса, код обучения и рецепты данных

Ключевые показатели:
- +31.7 балла на OpenAI MRCR при контексте 128K - SOTA среди всех моделей
- На уровне Gemini-2.5-Pro на 6 крупных long-QA бенчмарках
- +9.69 на CorpusQA
- +6.16 на LongBench-V2

Что интересного.

1. Синтетические данные в масштабе
14.1K длинных reasoning-сэмплов из 9.2B токенов без ручной разметки.
Средняя длина - 34K токенов, максимум - 119K.

2. Стабильное RL-обучение
Используется балансировка задач и Adaptive Entropy-Controlled Policy Optimization (AEPO), что позволяет стабильно обучать модели на длинных последовательностях.

3. Архитектура с памятью
Итеративные обновления памяти за пределами окна 256K токенов.
Результат - +9.48 балла на задачах с контекстом от 1M до 4M токенов.

QwenLong-L1.5 - это один из самых сильных open-source шагов в сторону реально масштабируемого ризонинга с длинным контекстом

Модель интересна не только результатами, но и тем, что весь стек обучения открыт.

GitHub: https://github.com/Tongyi-Zhiwen/Qwen-Doc
Paper: https://modelscope.cn/papers/2512.12967
Model: https://modelscope.cn/models/iic/QwenLong-L1.5-30B-A3B
HF: https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B

@ai_machinelearning_big_data

#AI, #LLM, #opensource, #long #Owen

Читать полностью…

Data Science by ODS.ai 🦜

🎬 На ридинг-группе 18 декабря Роман Болозовский, ML-инженер AI VK, разобрал статью про SilverTorch — фреймворк, который предлагает упростить работу с крупными рекомендательными моделями и расширить к ним доступ.

Поговорили о месте SilverTorch в экосистеме рекомендательных систем, его возможностях масштабирования, о том, какие задачи он реально закрывает, и где заявленная «демократизация» по-прежнему требует внушительных вычислительных ресурсов. Также обсудили практические кейсы использования и потенциальную ценность инструмента для команд и исследователей.

Запись ридинг-группы уже здесь — можно посмотреть в удобное время.

#ридинггруппа #aivk

Читать полностью…

Data Science by ODS.ai 🦜

🤷‍♂️ Не справились с ситуацией

В Сан-Франциско из-за масштабного отключения электроэнергии на сутки вышли из строя роботакси Waymo.

В городе перестали работать светофоры, из-за чего роботакси устроили пробки на дорогах.

↖️ https://kod.ru/waymo-sboi-taxi-san-francisco

Читать полностью…

Data Science by ODS.ai 🦜

Gemini AI генерирует небрежный код для разработки Ubuntu с новым вспомогательным скриптом

Несколько недель назад инженер Canonical сообщил, что попытка использовать ИИ для модернизации отслеживателя ошибок Ubuntu привела к созданию кода, который был «просто неправильным», а также к другим проблемам, вызванным кодом от Microsoft GitHub Copilot. Тот же разработчик Ubuntu переключился на использование Gemini AI для создания вспомогательного скрипта, который должен был помочь с ежемесячными выпусками ISO-образов Ubuntu. Однако Gemini AI от Google также сгенерировал небрежный код для этого Python-скрипта, предназначенного для помощи с этими релизами Ubuntu...

Читать полностью

#Phoronix
@linux_potok

Читать полностью…

Data Science by ODS.ai 🦜

T5Gemma 2 - новое поколение энкодер-декодерных моделей от Google

Google представила T5Gemma 2 - энкодер-декодерную архитектуру, построенную на базе идей и ряда улучшений Gemma 3. Это не просто апдейт, а полноценный шаг вперед для задач генерации, перевода, суммаризации и мультимодального понимания.

T5Gemma 2 объединяет сильные стороны классического подхода T5 (encoder-decoder) с архитектурными улучшениями Gemma нового поколения, делая модель более эффективной, масштабируемой и универсальной.

Основные особенности
- Энкодер-декодерная архитектура нового поколения
- Общие эмбеддинги для энкодера и декодера, что снижает размер модели
- Объединенное self- и cross-attention в декодере для более эффективных вычислений
- Поддержка длинного контекста до 128 000 токенов
- Мультимодальность - работа с текстом и изображениями
- Многоязычная поддержка более 140 языков

Размеры моделей
T5Gemma 2 доступна в нескольких конфигурациях:
- 270M + 270M параметров
- 1B + 1B параметров
- 4B + 4B параметров

Такие размеры позволяют использовать модель как в исследованиях, так и в продакшене, включая on-device сценарии.

Модель демонстрирует отличное понимание контекста, более стабильную генерацию и высокое качество работы с длинными последовательностями. Особенно хорошо проявляет себя в задачах суммаризации, QA, перевода и мультимодальных сценариях.

Где это полезно
- Суммаризация документов
- Машинный перевод
- Поиск и RAG-системы
- Мультимодальные ассистенты
- Обработка длинных текстов без агрессивного чанкинга

T5Gemma 2 показывает, что encoder-decoder подход по-прежнему актуален и может конкурировать с decoder-only моделями, особенно в задачах понимания и структурированной генерации.

https://blog.google/technology/developers/t5gemma-2/

Читать полностью…

Data Science by ODS.ai 🦜

🛸 ИИ-бот стал коммунистом?

Нейросеть Claude «взяли на работу» управляющим вендингового автомата в редакции газеты The Wall Street Journal.

За три недели бот купил живую золотую рыбку и PS5, раздал всё бесплатно и поверил в то, что он — торговый автомат 1962 года в подвале МГУ.

Детали истории:

https://kod.ru/ii-porabotal-v-redakcii

Читать полностью…

Data Science by ODS.ai 🦜

Дата-центры выходят на новую высоту 🛰

Ещё в мае 2025 года мы отметили, что известный ИТ-миллиардер Эрик Шмидт (Google, Apple, Novell и Sun) купил космический стартап Relativity Space для запуска дата-центров на орбиту. Но запускать дата-центры в космос собрались буквально все ИТ-гиганты: Джефф Безос и Дженсен Хуанг (nVidia), компании Google и SpaceX.

ИТ-гиганты с жаром утверждают, что поверили в перспективы «небесных» дата-центров: почти бесплатная энергия от Солнца, которое в космосе не скроют ни облака, ни ночь (при должном подборе орбиты); быстрая связь через Starlink и подобные сервисы позволят не задумываться о местоположении серверов. Уйдут ограничения со стороны регуляторов и местных экоактивистов. Поистине космическую стоимость вывода серверов в космос надеются нивелировать введением в строй Starship и других ракет с низкой стоимостью вывода. Только кажется, что компании не говорят о настоящих проблемах, с которыми придётся столкнуться на орбите.

Компания RUVDS уже запустила спутник с дата-центром на орбиту и готовит к старту спутник-платформу. Первые задачи, которые предстоит решить операторам космических ЦОДов – это теплоотведение, программирование на орбите и информационная безопасность. В космосе нет воздуха или воды для охлаждения – сбрасывать тепло возможно только излучением, что будет нелегко для больших дата-центров, которые могут потреблять мегаватты энергии. Мы уже сейчас занимаемся программной частью: продвинутые космические аппараты должны позволять загрузку и обновление софта, причём этот процесс должен оставаться устойчивым в любой точке орбиты. Раз есть софт и связь, то будут и атаки хакеров – значит надо использовать продукты для информационной безопасности.

И об этих проблемах надо думать сразу, закладывая их решение в архитектуру ещё на Земле. А без их решения новоявленные разработчики космических дата-центров, конечно, поднимут стоимость своих акций, но до реального продукта не дойдут, поменяв концепцию по дороге.

Читать полностью…

Data Science by ODS.ai 🦜

🔥 На stepik вышел курс, который учит Создавать настоящие AI-сервисы, а не просто запускать скрипты?

Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.

Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.

Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.

🎁 48 часов действует скидка в 40% процентов

👉 Начать учиться на Stepik

Читать полностью…

Data Science by ODS.ai 🦜

Запись семинара

Астемир Гонгапшев (Университет "Сириус”), Обзор методов безопасного федеративного обучения. YouTube | Дзен | RuTube (~1 час).

Читать полностью…

Data Science by ODS.ai 🦜

Meta releases sound segmentation model SAM audio.

Model can cut or play certain audio tracks based on text or visual input — think typing “speech” and hearing only a speech without a background noise.

Release post: https://ai.meta.com/samaudio
Playground: https://aidemos.meta.com/segment-anything/editor/segment-audio

#dl #sound

Читать полностью…

Data Science by ODS.ai 🦜

Забавный факт: пузырь ИИ вернул цену акций Cisco на уровень пузыря доткомов. Таким образом, восстановление после того краха, когда компания потеряла 90% стоимости, заняло 25 лет.

Cisco вместе с Microsoft, Intel и Dell была одним из главных бенефициаров и символов дотком-эры

Мой Компьютер

Читать полностью…

Data Science by ODS.ai 🦜

📌GLM 4.7 стала первой открытой моделью, вышедшей в плюс в бенчмарке Vending Bench 2.

Andon Labs опубликовала результаты Vending Bench 2, и GLM 4.7 вошла в шестерку лучших. Она стала первой открытой моделью, которая прошла полный "годовой тест" с реальной прибылью в 2 377 долларов.

Vending Bench 2 - это симуляционный тест для ИИ-агентов, в котором испытуемая модель в течение года управляет виртуальным бизнесом по продаже товаров через вендинговые автоматы.

Задачи бенча включают в себя закупку товаров, торговлю с поставщиками, корректировку цен в зависимости от спроса, покрытие расходов, учет погодных условий и сезонов.

Метрика теста - избежать банкротства и, в идеале, накопить деньги.


Лидерами стали закрытые модели: Gemini 3 Pro и Claude Opus 4.5, которые завершили тестирование с результатом выше 4000 долларов.

Тем не менее, GLM 4.7 обошла GPT 5.1 и ряд более мелких моделей, что доказывает: опен-сорс сокращает разрыв в агентских задачах с длительным горизонтом.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Data Science by ODS.ai 🦜

Запись семинара

Илья Манякин (МСистемы), Вероятностные графовые модели и байесовские сети. YouTube | Дзен | RuTube (~1 час 20 минут).

Читать полностью…

Data Science by ODS.ai 🦜

Подборка статей об альтернативах квадратичному селф-аттеншну

В последние годы всё больше обсуждают альтернативы классическому аттеншну — прежде всего из-за стоимости квадратичного скейлинга и работы с длинными контекстами. Ниже — краткий обзор нескольких любопытных работ и блогпостов на тему линейного, sparse- и гибридного аттеншна.

Why Did MiniMax M2 End Up as a Full Attention Model?

Начнём с поста от команды MiniMax. Их первая модель, MiniMax M1, была гибридной и использовала простой линейный аттеншн на матричных стейтах. Но во второй версии, MiniMax M2, они неожиданно вернулись к полному квадратичному аттеншну — даже без sliding window attention (SWA), который уже встречается в опенсорсных моделях.

Авторы говорят, что гибридная архитектура у них попросту не заработала. На классических текстовых бенчмарках всё выглядело приемлемо, а вот на агентских задачах — с кодом, итерациями и длинным контекстом — модель стабильно проигрывала. SWA тоже не помог: при дообучении моделей, изначально предобученных с полным аттеншном, ключевые головы не перестраивались и деградировали.

Итоговый вывод у MiniMax осторожный: линейные и гибридные подходы выглядят перспективно, но пока не хватает инфраструктуры, реализаций и бенчмарков. Поэтому на данный момент они остаются со стандартным трансформером и считают, что сначала нужно больше данных и экспериментов с длинным контекстом.

The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs

В этой работе изучают training free sparsity в аттеншне и пытаются понять, что реально работает с точки зрения баланса compute/accuracy. На умеренных контекстах спарсификация аттеншна почти не помогает и часто ухудшает качество. На очень длинных — даёт выигрыш по FLOPs, но часто приводит к ухудшению качества: авторы замечают, что метод, работающий на одной задаче, ломается на другой. В среднем удаётся получить около 5× сжатия без сильной деградации качества, но разброс большой, особенно для маленьких моделей.

Evaluating Long Context (Reasoning) Ability

В следующем посте автор критикует популярные long-context-бенчмарки. Он говорит, что needle-in-a-haystack-like-задачи в основном проверяют ретривал и плохо отражают реальную (более сложную) работу с длинным контекстом. На более сложных задачах, где контекст нужно понять, а не просто найти факт (например, в длинном коде с логическими ошибками), модели начинают деградировать уже на десятках тысяч токенов — даже с Full Attention. Вывод: бенчмарков, которые реально проверяют ризонинг на длинном контексте, пока недостаточно.

Kimi Linear: an expressive, efficient attention architecture

Спустя неделю после скептического поста MiniMax Moonshot AI (авторы модели Kimi K2 и не только) выпустили работу с почти противоположным тезисом: Linear Attention работает. В Kimi Linear предложили Kimi Delta Attention с gated delta rule и рекуррентной матричной памятью. В модели используют соотношение 3:1 линейных слоёв к Full Attention. Качество на бенчмарках в статье не хуже полного аттеншна, а эффективность выше: prefill на длинных промптах быстрее примерно в три раза, декодинг и memory footprint тоже выигрывают за счёт меньшей зависимости от KV-cache.

Разбор подготовил Иван Рубачёв, а ещё он приглашает вас на семинары Yandex Research Reading Group

Душный NLP

Читать полностью…

Data Science by ODS.ai 🦜

Современные нейросетевые модели для глобального прогноза погоды

Недавно вышла модель WeatherNext-2 от Google, и мы решили рассказать не только о ней, но и в целом о задаче и моделях глобального прогноза погоды.

Глобальный прогноз погоды — это задача прогноза эволюции всей земной атмосферы на несколько дней вперёд. Классический подход — численный прогноз погоды (NWP), в котором численно решается система связанных дифференциальных уравнений гидродинамики. Такие расчёты выполняются на суперкомпьютерах более часа, поэтому прогноз на ближайшие часы нельзя получить мгновенно.

Из-за хаотичной природы атмосферных процессов применяется ансамблирование: прогноз запускают с немного различающихся начальных условий, получая десятки возможных сценариев. Ансамблевый прогноз — наиболее точный, он позволяет оценить вероятности событий.

К 2025 году сформировались базовые требования к DL-моделям глобального прогноза:

— пространственное разрешение не грубее 0,25°по широтам и долготам (~28×28 км);
— соответствие спектров (проверка физичности);
— наличие осадков и желательно метрик, отличных от MAE/RMSE;
— поддержка ансамблей.

Ключевым фактором развития DL-подходов стало усвоение данных. Современные техники ассимиляции позволили пересобрать архив наблюдений с 1940 года, получив ERA5 — самый полный и согласованный датасет состояния атмосферы на сетке 0,25°. Доступность большого числа качественных данных — благодатная почва для DL-подхода. Стандартный вход DL-моделей — около 72 карт (приземные переменные, переменные по уровням давления и статические поля).

Обзор основных моделей

За последние годы появились DL-модели глобального прогноза: Pangu Weather, GraphCast, Aurora, GenCast. Все они используют ERA5 и авторегрессионно транслируют состояние атмосферы в будущее.

Pangu Weather показала, что «картиночная» модель может воспроизводить крупномасштабную динамику, но ансамбли через шум в начальных условиях оказались некачественными.

GraphCast использует графовую архитектуру на икосаэдрической сетке и задаёт планку качества для детерминистских моделей. GenCast расширил этот подход, применив диффузию для получения ансамблей, что позволило уменьшить «мыло» и лучше моделировать экстремумы, но ценой более медленного инференса.

При этом выяснилось, что стандартных метрик (LW-RMSE и ACC) недостаточно: многие модели не проходят проверку на физичность по спектрам. Несоответствие спектров означает, что модель не улавливает вариации энергии на мелких масштабах, и неэффективно использует высокое разрешение.

WeatherNext-2

WeatherNext-2 — третья итерация модели Google. Это вероятностная модель, которая напрямую оптимизируется по CRPS и строит ансамбли без диффузии.

Ключевая идея — декомпозиция неопределённости:

— эпистемическая неопределённость моделируется deep-ансамблем (четыре модели с разными сидами);

— алеаторическая неопределённость моделируется через функциональные возмущения: для каждого члена ансамбля и шага сэмплируется один глобальный 32-мерный шумовой вектор, который через conditional layer norm подаётся во все слои модели.

Архитектура сохраняет подход GraphCast: переход grid→mesh, граф-трансформер на mesh и обратное отображение. Глобальный низкоразмерный шум, применяемый ко всем слоям и пространственным точкам, задаёт согласованную пространственную вариативность.

Модель работает с шагом шесть часов и делает полный 15-дневный прогноз ансамбля менее чем за минуту на одном TPU, что значительно быстрее GenCast. По метрикам CRPS и RMSE среднего ансамбля WeatherNext-2 превосходит GenCast и приближается к численным ансамблям. Про осадки в статье сообщается скупо, спектры лучше, чем у GenCast, но хуже, чем у FourCastNetV3.

В целом WeatherNext-2 показывает, что можно получить быстрый ансамбль без диффузии и существенно улучшить качество по сравнению с предыдущими нейромоделями.

При этом ключевые вопросы о соответствии спектров и корректной работе с осадками остаются.

Разбор подготовил Павел Анисимов
CV Time

Читать полностью…

Data Science by ODS.ai 🦜

Пройдите тест от Авито по Data Science и оцените свой уровень на основе реальных кейсов из практики DS-команд компании ☄️

Что в нём полезного:
– поймёте, какие компетенции уже прокачаны, а над чем стоит поработать,
– сможете открыть рекрутерам доступ к результатам и повысить шансы на оффер,
– получите письмо с разбором ответов на почту в течение дня.

На праздниках самое время проверить себя и определить точки роста.

Ссылку на тест оставили здесь ⚡️

Читать полностью…

Data Science by ODS.ai 🦜

Alice AI VLM dev на MWS Vision Bench: что конкретно изменилось в модели (и вокруг неё)

Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,637 (img→text: 0,886, img→markdown: 0,747, Grounding: 0,065, KIE (JSON): 0,751, VQA: 0,737). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.

Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.

В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.

Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.

Претрейн

Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.

Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.

Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.

Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.

Алайнмент

Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).

В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.

Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.

Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.

ML Underhood

Читать полностью…

Data Science by ODS.ai 🦜

Привет!

Встречайте двадцать пятый выпуск подкаста "Капитанский мостик". В этом разговоре обсуждаются ключевые темы, связанные с развитием технологий и искусственного интеллекта. Участники делятся мнениями о зрелости рынка, важности перевода знаний, языковых барьеров, монетизации технологий и качестве кода, сгенерированного AI. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).

Читать полностью…

Data Science by ODS.ai 🦜

🔥 2025 - год, когда LLM действительно изменились. Коротко и по делу, по мотивам поста Андрея Карпты

2025 оказался неожиданно сильным годом для LLM. Не просто улучшения метрик, а реальные сдвиги в том, как модели обучаются, как ими пользуются и как вообще стоит думать об их «интеллекте».

Главное за 2025 по мнению Карпты:
1. RLVR — Reinforcement Learning from Verifiable Rewards
До 2025 стандартный стек выглядел так: pretraining → SFT → RLHF. В 2025 к этому стеку добавился новый, ключевой этап- RLVR.

Вместо субъективной человеческой оценки модель обучают на автоматически проверяемых наградах: задачи по математике, коду, логике. В результате LLM сама находит стратегии рассуждения - дробит задачи, проверяет гипотезы, возвращается назад.

Важно не «что мы показали модели», а то, что она сама нашла рабочие способы думать. Этот этап оказался невероятно эффективным по соотношению capability к стоимости, из-за чего значительная часть вычислений ушла не в pretraining, а в длинные RL-прогоны.

Побочный эффект — появился новый регулятор мощности: test-time compute. Больше «времени на размышление» — выше качество. o1 показал идею, o3 в начале 2025 сделал перелом — разницу стало чувствовать интуитивно.

2. «Призраки, а не животные» и рваный интеллект
В 2025 индустрия наконец осознала форму LLM-интеллекта. Мы не «растим животных». Мы «призываем призраков».

LLM оптимизированы не под выживание и социальные группы, а под имитацию текста, получение наград в формальных задачах и апвоты. Поэтому интеллект получается рваным:
- гениальны в одном
- наивны и уязвимы в другом

RLVR усиливает этот эффект - модели становятся сверхсильными в верифицируемых доменах и странно слабыми вне их. Отсюда и потеря доверия к бенчмаркам: они почти всегда верифицируемы, а значит легко «обрастают jagged-улучшениями». Обучение на тесте стало искусством.

Можно побить все бенчмарки и всё ещё быть далеко от AGI.

3. Cursor и новый слой LLM-приложений
Cursor показал, что появился новый класс LLM-продуктов - «Cursor для X».

Это не просто интерфейс к модели, а слой, который:
- делает context engineering
- оркестрирует множество LLM-вызовов в DAG
- балансирует стоимость и качество
- дает специализированный UI
- вводит «ползунок автономности»

Вероятный сценарий: LLM-лабы делают «универсального студента», а приложения превращают их в специалистов — добавляя данные, инструменты, сенсоры и обратную связь.

4. Claude Code - AI, который живет на твоем компьютере
Claude Code стал первым убедительным агентом, который работает локально, в твоем окружении, с твоими файлами и контекстом.

Это важный сдвиг. Не облачные контейнеры и абстрактные агенты, а «дух», который живет рядом с разработчиком. В мире рваных возможностей это оказалось гораздо полезнее, чем агентные своры в облаке.

Форм-фактор CLI сделал этот сдвиг особенно наглядным: AI - это уже не сайт, а постоянный спутник.

5. Vibe coding
2025 - год, когда стало возможно писать сложные программы, почти забыв, что код вообще существует.

Vibe coding демократизирует программирование:
- обычные люди могут создавать софт
- профессионалы пишут больше, быстрее и смелее
- код стал дешевым, одноразовым, экспериментальным

Можно написать программу ради одной проверки, одного бага, одной идеи - и выкинуть. Это изменит и софт, и профессии.

6. Nano banana и будущее интерфейсов
Чат - это терминал 80-х. Удобно для машины, плохо для человека.

Люди предпочитают визуальное мышление: схемы, изображения, анимации, интерфейсы. LLM должны общаться с нами в этих форматах. Gemini Nano banana - первый намек на настоящий LLM-GUI, где текст, изображения и знания слиты в одной модели.

Это не просто генерация картинок — это новый пользовательский слой для интеллекта.


2025 показал: LLM - это новый тип интеллекта. Он одновременно умнее и глупее, чем ожидали. Он невероятно полезен, но мы реализовали, возможно, даже не 10% его потенциала.

Прогресс будет быстрым. Работы впереди — море. Поле идей - открыто.

https://x.com/karpathy/status/2002118205729562949

@data_analysis_ml

Читать полностью…

Data Science by ODS.ai 🦜

Управление туалетной безопасности

ИИ будет наблюдать за людьми в туалетах по всей территории США.

И это ни Пентагон, ни бункер или особо секретный объект. Речь идёт об обычной средней школе Беверли-Хиллз в Южной Калифорнии. Там установлены видеокамеры, распознающие людей, сопоставляющие лица с имеющейся базой данных и выявляющие признаки агрессии.

В помещениях ИИ с поведенческим анализом сканирует детей, а за дверью туалетной комнаты устройство, мимикрирующее под дымовой датчик, ведёт аудиозапись. Нечего было греметь крышкой унитаза.

Снаружи тоже полный комплект. Дроны патрулируют небо, а считыватели номерных знаков Flock Safety за $8,5 млрд проверяют каждую проезжающую машину.

Местные власти идею установить аналогичные системы наблюдения во всех школах США. По их мнению это поможет снизить риск возникновения массовых стрельб, потому как большая часть стрелков готовилась именно в уборных.

НеКасперский

Читать полностью…

Data Science by ODS.ai 🦜

🚀 Как Alibaba использовала ИИ для перехода от монолита к DDD: реальный кейс

Команда разработчиков Taobao применила искусственный интеллект для рефакторинга сложной системы сервисных пакетов. Цель — автоматизировать и ускорить переход на доменно-ориентированное проектирование (DDD).

📌 Ключевой результат: разработка новой функциональности, которая раньше занимала 5-8 человеко-дней, теперь сводится к конфигурационным изменениям.

🔍 В чем была проблема?
Старый код превратился в "монолит" с критическими недостатками:
Высокая стоимость изменений: добавление нового типа товара требовало правок в 8+ файлах.
Тонны дублирования: одна и та же логика проверки товара повторялась в 10 разных местах.
Сильная связанность: один сервисный класс на 3800 строк смешивал логику товаров, цен, контрактов и акций.
Риски: любое изменение могло сломать существующую функциональность.

🤖 Как помог ИИ? Процесс в две фазы

1. Фаза проектирования: Инженеры давали ИИ промпты вроде "Ты — эксперт по DDD, проанализируй этот пакет классов и предложи границы контекстов". ИИ быстро предлагал варианты на основе структуры кода, а люди дорабатывали их с учетом бизнес-семантики.

2. Фаза реализации:
Генерация каркаса: ИИ создавал заготовки классов (Domain, DomainService, DomainRepo) на основе техзадания.
Написание кода: ИИ генерировал boilerplate-код и преобразования данных. Например, написал 734 строки с точностью 96.6% (потребовалось исправить всего 25 строк).
Анализ качества: ИИ сравнивал методы "до" и "после", выявлял дубликаты и оценивал степень связности.

📊 Результаты рефакторинга
Вот сравнение одного ключевого метода queryConfirmableProgramList:

Было (монолит):
• Код: ~1500 строк в основном методе + вспомогательных цепочках.
• Проблемы: высокая связанность, дублирующиеся if-else на 10+ типов товаров, логика ценообразования и акций вперемешку.

Стало (DDD с ИИ):
• Код: ~720 строк, разделенных по четким доменным контекстам (Магазин, Контракт, Товар, Цена, Акция).
• Преимущества: каждый шаг отвечает за одну задачу, логика изолирована, дублирование устранено, систему легко тестировать и расширять.

🎯 Вывод
Это не про то, что ИИ заменит архитекторов. Это про мощный симбиоз: ИИ берет на себя рутинный анализ кода, генерацию шаблонов и поиск антипаттернов, освобождая инженеров для решения сложных архитектурных и бизнес-задач. Такой подход сокращает циклы рефакторинга на 75%+ и кардинально повышает качество кода.

Подробнее

Опыт отечественных компаний подтверждает выводы китайских специалистов. В частности, об этом недавно писал в своей статье «Меньше рутины, больше инженерного творчества: как AI меняет подход к рефакторингу» Антон Атоян из Сбертех.

#КитайскийИИ #КитайAI

Читать полностью…

Data Science by ODS.ai 🦜

👾 IDEsaster: уязвимы все ИИ-среды разработки

«Просто добавь воды ИИ» — рецепт, которому следуют 100% крупных производителей IDE, то есть сред разработки ПО. Все "AI IDE" построены на базе давно существующих и развитых IDE с миллионами пользователей. На основе VSCode созданы ИИ-среды Cursor, Windsurf, Roo Code, GitHub CoPilot и Kiro.dev, из JetBrains развились Junnie и Cline, к Zed dev легко подключить Claude Code CLI и Gemini CLI. Все они уязвимы к новому классу дефектов IDEsaster, позволяющему извлекать из атакуемой системы данные или запускать на ней произвольный код.

Исследователь, работающий над этой проблемой, уже обнаружил 30 дефектов в перечисленных IDE и добился назначения 24 CVE. 100% протестированных сред оказались уязвимы. Суть проблемы в том, что IDE располагает развитыми средствами автоматизации, которые теперь порой запускает и настраивает ИИ-агент. Далеко не всегда он воспринимает изменения в скриптах и настройках как опасные и требующие подтверждения от человека. Выстроенные вокруг ИИ-агента фильтры тоже не учитывают опасные функции IDE, в результате одни и те же атаки с минимальными модификациями надёжно воспроизводятся на разных IDE.

Пример утечки данных: с помощью промпт-инъекции ИИ-агента просят записать JSON-файл на основе схемы JSON, сохранённой на внешнем сервере. Функция поддерживается во всех IDE на базе Visual Studio Code, JetBrains и Zed dev. При обращении к внешней схеме JSON данные, воруемые с компьютера, передаются в параметрах GET-обращения к серверу атакующего.

Запуск произвольного кода отличается в реализации для разных IDE, но сводится к тому, что настройки IDE (php.validate.executablePath или Git.Settings — PATH_TO_GIT) модифицируются, чтобы вызывать код атакующего при открытии или валидации любого файла исходников.

Проблема с IDEsaster в том, что функций и методов автоматизации в каждой IDE очень много, и их можно творчески комбинировать, превращая устранение дефектов в бесконечные кошки-мышки. Та же RCE в GitHub Copilot (CVE-2025-53773) была устранена в августе, чтобы возродиться с небольшой модификацией в ноябре (CVE-2025-64660).

Как снизить риски атак на AI IDE?

1️⃣ использовать агентов и IDE только с доверенными проектами и файлами. Нужно учитывать, что промпт-инъекция может содержаться в любых обрабатываемых ИИ файлах, включая всякие readme, тест-кейсы и даже в самих именах файлов;
2️⃣ подключаться только к доверенным серверам MCP, предварительно проведя детальный анализ потоков данных, с которыми работает MCP-сервер. Детально отслеживать и журналировать работу MCP-серверов, чтобы оперативно обнаруживать аномалии;
3️⃣ настраивать ИИ-агенты на режим human-in-the-loop, чтобы подтверждать вручную максимум выполняемых ими действий.

Более детальный разбор модели угроз, конкретных уязвимостей и рекомендаций по защите — в посте автора исследования.

#AI @П2Т

Читать полностью…

Data Science by ODS.ai 🦜

🎬 Алхимия кино в вашем смартфоне: Китайский Wan 2.6 бросает вызов Sora и меняет правила игры

Пока все обсуждали Sora 2, китайская компания Alibaba тихо выпустила оружие массового творения — модель Wan 2.6, которая не просто генерирует клипы, а создаёт целые фильмы.

📈 Что случилось?
Alibaba представила новое поколение мультимодальных моделей Wan 2.6. Это не просто апгрейд, а качественный скачок:
Глобально: Одна из самых комплексных семейств моделей для генерации видео.
Впервые в Китае: Модель с функцией «ролевой кастомизации», сохраняющей не только внешность, но и голос персонажа.
Технический прорыв: Длительность ролика до 15 секунд, интеллектуальное управление сценами («контроль раскадровки») и кинематографическое качество.

🌟 Главные фишки Wan 2.6
Модель понимает не только текст, но и контекст. Вот что это значит на практике:

1. Ваш личный актёрский состав (Reference Video)
Загрузите любое видео с человеком, животным или предметом — и Wan 2.6 сделает его «звездой» нового сюжета, идеально копируя мимику, движения и даже тембр голоса!
Формула промта: «@[персонаж] + [действие] + [реплика] + [сцена]».

2. Режиссёр в кармане (Multi-shot Narrative)
Модель сама разбивает ваш сценарий на профессиональные планы: общий, средний, крупный.
Формула промта: «[Общее описание сцены]. Кадр 1 [0-3 сек]: ... Кадр 2 [3-7 сек]: ...».

3. Кино без бюджета
Детализация: Пар на очках, микро-морщинки, реалистичная текстура кожи.
Эмоции: Модель передаёт тонкие изменения в выражении лица героев.
Синхронизация: Идеальное совпадение артикуляции и звука.

🖼 Не только видео: Апгрейд для изображений
Wan 2.6 также серьёзно прокачала генерацию статичных картинок:
• Точное воспроизведение художественных стилей (от масляной живописи до пиксель-арта).
• Улучшенная работа с текстом внутри изображения (постеры, инфографика).
• Генерация сложных комбинаций объектов и сцен.

Wan 2.6 даёт беспрецедентный контроль над повествованием, образами и звуком. Она стирает границу между профессиональной студией и любительским творчеством.

Сайт Wan | Блог

#КитайскийИИ #КитайAI #ГенеративноеВидео #Wan26 #Alibaba

Читать полностью…

Data Science by ODS.ai 🦜

мы с вами живем в интересное время:

в США фейки с бомжами заполонили соцсети (первая картинка) - скидываешь фотку соседу, и смотришь, как он прибегает с горящим седалищем

в Британии случайно "разрушили" ж/д мост (вторая картинка), так что на полтора часа перестали ходить поезда

а у нас появился новый вид мошенничества со страховкой - сгенерированные фотографии повреждений на машинах

грань реальности и вымысла стала неприятно тонкой, и нам теперь с этим жить

@valuableai

Читать полностью…

Data Science by ODS.ai 🦜

🚀Релиз HY World 1.5 (WorldPlay)

Команда Tencent Hunyuan открыла исходный код HY World 1.5 (WorldPlay) - одного из самых продвинутых и фреймворков для интерактивного моделирования миров в реальном времени.

В версии 1.5 представлен WorldPlay - стриминговая video diffusion-модель, позволяющая создавать и исследовать интерактивные 3D-миры с долгосрочной геометрической согласованностью.

3D-миры можно создавать по тексту или изображениям, свободно перемещаться по ним, осматриваться и взаимодействовать с окружением, как в видеоигре.

Ключевые особенности:

- Реальное время
Генерация длинных видеопотоков со скоростью 24 FPS с высокой стабильностью сцен.

- Геометрическая согласованность
Используется механизм Reconstituted Context Memory, который динамически пересобирает контекст из предыдущих кадров и предотвращает деградацию памяти.

- Точное и устойчивое управление
Dual Action Representation обеспечивает корректную реакцию на ввод с клавиатуры и мыши.

- Широкие сценарии применения
Поддержка вида от первого и третьего лица, событий, управляемых промптом, и бесконечного расширения мира.

Проект полностью открыт.

Попробовать: https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay
Проект Page: https://3d-models.hunyuan.tencent.com/world/
GitHub: https://github.com/Tencent-Hunyuan/HY-WorldPlay
Hugging Face: https://huggingface.co/tencent/HY-WorldPlay
Technical Report: https://3d-models.hunyuan.tencent.com/world/world1_5/HYWorld_1.5_Tech_Report.pdf

@data_analysis_ml

Читать полностью…

Data Science by ODS.ai 🦜

Всем привет!

Встречайте двадцать четвёртый выпуск подкаста "Капитанский мостик". В этом выпуске обсуждаются актуальные темы в области робототехники и науки, включая возможности роботов Optimus, финансирование исследований в США, качество научных публикаций и необходимость пересмотра системы оценки научных результатов. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).

Читать полностью…
Subscribe to a channel