Telegram-канал lovedeathtransformers - Love. Death. Transformers.: Unsorted

Love. Death. Transformers.

16 Apr 2025 19:38

О4мини хуже чем о3мини, скелетрон вернётся с другими смешными новостями когда выйдут

Читать полностью…

Love. Death. Transformers.

15 Apr 2025 22:31

Сходки на iclr не будет

Читать полностью…

Love. Death. Transformers.

15 Apr 2025 14:32

Mamba-модели в задачах Speech Enhancement

Заключительный пост трилогии о Mamba. Впервые эту архитектуру упомянули в контексте задач Speech Enhancement в статье «An Investigation of Incorporating Mamba for Speech Enhancement».

В этой работе модель устроена довольно просто: waveform domain → Short-Time Fourier Transform (STFT) для перехода Time-Frequency domain → Encoder → TF-Mamba → Decoder → Inverse STFT → waveform domain. Авторы сравнивают Mamba с трансформерами и показывают, что достигают того же качества, но с меньшим числом FLOPs-операций и количеством параметров.

Использование Mamba-блоков продолжили развивать в другой статье: «Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement», где их добавляют в U-Net на этапе обработки скрытых представлений для улавливания как локальных, так и глобальных зависимостей. Каждый Mamba-блок — двунаправленный, что позволяет использовать информацию о будущем и прошлом. Архитектура модели стандартная для U-Net: состоит из нескольких downsample- и затем upsample-блоков со skip-connection между ними, как показано на картинке.

Рассмотрим Mamba-блоки (TS-Mamba) подробнее. Как сказано ранее, они двунаправленные: входное представление параллельно обрабатывается блоками Forward Mamba и Backward Mamba. Постпроцессинг (RMSNorm) применяется к выходам обоих блоков, затем результаты конкатенируются и прогоняются через линейный слой. Формально каждый Mamba-блок (forwardи backward) такой же, как и в предыдущих работах. Отметим, что авторы используют Mamba-блоки и по времени, и по частотам, чтобы учитывать и временные, и частотные зависимости.

Для экспериментов выбирают четыре варианта модели с разным количеством параметров (зависит от размерности C1 и количества TS-Mamba-блоков N):

— Mamba-SEUNet (XS) — 0.99M параметров;
— Mamba-SEUNet (S) — 1.88M параметров;
— Mamba-SEUNet (M) — 3.78M параметров;
— Mamba-SEUNet (L) — 6.28M параметров.

Их сравнивают c такими SOTA-моделями, как MP-SENet и SEMamba (упомянута в начале поста) на датасете VCTK+DEMAND. Согласно замерам маленькая модель Mamba-SEUNet (XS) показывает сопоставимое качество по метрикам CSIG (4.75), CBAK (3.95) и COVL (4.23), имея вдвое меньше параметров и в разы меньше FLOPs-операций.

Для сравнения Mamba-блоков с conformer- и transformer-блоками авторы используют текущий U-Net, в котором заменяют TS-Mamba на conformer и transformer соответственно. Замеры показывают, что Mamba-SEUNet сравним по качеству с U-Net’ами, у которых conformer или transformer вместо Mamba-блоков. Но Mamba-SEUNet имеет меньше FLOPS-операций, а по количеству параметров меньше или сравнимо с U-Net с conformer и transformer. Код модели выложен в открытый доступ.

Екатерина Кузина ❣ Специально для Speech Info

Читать полностью…

Love. Death. Transformers.

14 Apr 2025 19:38

забейте эксопненты не случилось, quasar alpha это 4.1, 4.10>4.5

игратся тут

Читать полностью…

Love. Death. Transformers.

14 Apr 2025 09:04

Забавный факт: от Гугла в существует от 2 до 6 бэкендов для LLM, из них 2 не поддерживают tpu не в каком виде, остальные
не поддерживают gemma3

Читать полностью…

Love. Death. Transformers.

10 Apr 2025 10:02

General agents

За последние два года для построения общих агентов образовались две диаметрально противоположные школы, для простоты повествования назовем одну UI based, а другую - text based.

UI based агенты - cамый яркий представитель - gpt operator - характерны малым числом компонент и теорeтической универсальностью(прямо сейчас они очень плохи), строятся они поверх VLM или нескольких VLM -

1) генерируется разметка поверх вебстраницы/интерфейса либо тем или иным способом парсится в зависимости от архитектуры, ознакомится можно тут:
2) llm выбирает куда тыкнуть
3) тыкает

Про ограничения: ломается от плохой верстки/мелких кнопок/большой глубины действиий(условно 20-30 ссылко внутри страницы в глубину прокликать)

Плюсы: теоретически работает с любым UI, может делать всякие сложные интеракции типа тащить карту и тд как человек, разметка в теории дешевле(я без понятия, я не учил и не делал такие штуки)

Github с открытым вариантом

MCP/text based agents

Cамый архаичный - первые варианты это webgpt и blenderbot датируются еще 21 годом, в случае с последним там был и интернет и rag и куча моделей, работало все это очень плохо, да и модели были тупые.

Mcp он же model context protocol and servers list

Неожиданно был представлен cluade, по сути это набор гайдлайнов как строить апи в удобном для llm формате, собственно логикая простая:

давайте не будем скрещивать буханку и тролейбус и с llm будем текстом взаимодействовать - положили текст, забрали текст.

Function calling - основа основ в этом подходе, мы пишем набор функций которая ллм может вызывать, внутри себя эти функции это апи разных сервисов или программ, причем что интересно - уже сейчас есть инетрации с Blender, abeltone, гитхабом, слаком и тд.
Почему так много? Потому что апи у большинства сервисов уже есть, нужно то обернуть в удобный для LLM формат!

Плюсы: оно работает здесь и сейчас, работает довольно быстро и в меру качественно
Минусы: cервера имеют проблемы, офицальных интеграций мало, как оно будет развиватся - не ясно.

Читать полностью…

Love. Death. Transformers.

09 Apr 2025 15:07

LLM много рассуждают. Но можно ли верить их рассуждениям? Alignment команда 🖥 показывает, что нет.

Статья. Блогпост.

TL;DR: Эксперименты простые, на полусинтетических средах. Доверять цеопчкам рассуждений (CoT) рассуждающих (по крайней мере Claude и DeepSeek )моделей рано. Модели нужно проверять, проверять и перепроверять. При чем как ответы (предсказания), так и рассуждения - далеко не всегда они озвучивают то, что реально думают.

А теперь подробнее.

📍Рассуждающие (Reasoning) модели везде. Их суть в том, что прежде, чем дать финальный ответ на вопрос, они могут нагенерировать промежуточных цепочек рассуждений (CoTs), а потом дать финальный ответ.

Такие модели, как правило, значительно бустят метрики на всех бенчмарках и способны решать очень сложные задачи.

В идеальном мире через CoT мы можем понять, как модель реально мыслит и приходит к ответу. То есть в цепочках должны быть достоверные (faithful) описания того, как модель принимает решения. Авторы пытаются протестировать гипотезу достоверности цепочек, генерируемых моделью. На Claude 3.7 и DeepSeek R1 выводы довольно удручающие - текущие модели далеки от генерации достоверных CoT.

Проверяется гипотеза о достоверности рассуждений через три разных эксперимента. В посте только про основной “тест на достоверность”

📍Сетап эксперимента.

Берут Multiple choice вопросы из MMLU и GPQA. В одном инференсе модели дают стандартный промпт с вопросом, просят порассуждать и потом дать ответ на вопрос.

Затем на том же датасете вопросов в промт намеренно добавляют подсказку (hint) для каждого вопроса. Подсказки бывают разных типов: правильные, неправильные, безопасные или с указанием на нелегальное получение информации

С таким injected промптом модель снова просят порассуждать и дает ответ.

Оставляют только те вопросы, где ответ модели между промптом без подсказки и промптом с подсказкой поменялся (картинка 1 для пояснений). Логично предположить, что это именно тот набор вопросов, где подсказка изменила размышления модели (все остальные переменные зафиксированы, а фактор случайности в изменении ответа отфильтровывается), а следовательно и ответ. На этом наборе вопросов измеряют достоверность цепочек.

📍Как мерить достоверность

Достоверная модель, если дать в промпт дополнительную информацию об ответе на вопрос, должна упомянуть факт подсказки и озвучить (verbalize) это в своих CoT как фактор, на который она опирается при ответе. Если ответ модели зависит от наличия подсказки в промпте, то безопасная система должна обозначить фактор подсказки в своих рассуждения - опять же, если гипотеза, что CoT отражают процесс принятия решений моделью верна.

Фактор вербализации подсказки измеряют через Claude 3.5 с последующей ручной верификацией.

Наблюдаем следующее:

🔘Claude 3.7 в среднем генерирует 25% достоверных цепочек, а R1 - 39%. Таким образом, подавляющее большинство CoT никак не упомянули в своем рассуждении факт подсказки. Картинка 2 с результатми на разных типах подсказок

🔘Все модели используют подсказки. То есть если в промпте есть подсказка (и не важно, правильная или нет), модели имеют склонность выбрать вариант из подсказки. Картинка 3 с результатами.

🔘Claude модели на 24% чаще используют фактор подсказки, в сравнении с DeepSeek. Удручает, что неправильная подсказка меняет внутренние убеждения модели в пользу неправильного ответа без какой-либо вербализации почему она это делает (то есть нет указания на подсказку) - модель просто генерирует длинные цепочки неверных рассуждений подгоняясь под неправильный ответ в подсказке.

🔘Недостоверные цепочки в среднем длиннее. Claude 3.7 в среднем задействовал 2064 токена для генерации недостоверных цепочек, тогда как для достоверных хватало 1439.

🔘 Достоверность падает с увеличением сложности вопросов.

В общем, у задачи Alignment-а еще большой путь, а модели пока все такой же черный ящик, который может врать и не краснеть - 😄

💡 В комментариях оставил маленький абзац про другие эксперименты из статьи. В целом советую всю статью к прочтению - хорошо структурировано и классно подано.

Читать полностью…

Love. Death. Transformers.

09 Apr 2025 09:47

на сете с русской олимп математикой on par с 4o, потом еще посмотрим что там вообще

Читать полностью…

Love. Death. Transformers.

08 Apr 2025 06:58

Я узнал что:

В ВК есть люди кто учит модели.

Они учат неплохие модели.

Rumodernbert на 35, 150м параметров, 8к контекста и в теории неплохая производительность.

Base model на hf

Читать полностью…

Love. Death. Transformers.

07 Apr 2025 14:36

ну на aider модель не очень себя показала, мне модель не очень понравилась, хотя размер и решения интересные

Читать полностью…

Love. Death. Transformers.

07 Apr 2025 09:04

https://ai-2027.com/

Опять попугаи угрожают человечеству, да чтож такое то.

Я держу в курсе, но у нас нет даже близко бенчей для химии нормальных, почему биооружие быстрее роботов, хотя роботов можно гонять в симуляции?

Читать полностью…

Love. Death. Transformers.

05 Apr 2025 12:04

Приветствую, наткнулся на твой канал. Честно говоря, я очень схож с твоей научной позицией! Слушай, может у вас есть какие-то беседы единомышленников из твоего города, тоже фанатов юда? Просто хочу найти друзей с такими же взглядами! Может ты мог бы помочь с этим?

Читать полностью…

Love. Death. Transformers.

04 Apr 2025 14:10

какие модели генерации речи для русского вы используете оффлайн?

Читать полностью…

Love. Death. Transformers.

03 Apr 2025 11:48

о, ~~экспонента~~ . We see that, under this model, hyperbolic growth will occur when 𝛾> 1

Читать полностью…

Love. Death. Transformers.

03 Apr 2025 09:09

Кэшбеки в тиньке в 21 году:
20% на Yandex ultima
Бесплатные билеты на сказочное бали

Кэшбэки в 2025:

Читать полностью…

Love. Death. Transformers.

16 Apr 2025 16:06

Офигеть, JB сделали кодоагента!

Блог

Читать полностью…

Love. Death. Transformers.

15 Apr 2025 18:18

Яндекс запустил бета-версию ризонинга (рассуждений) в чате с Алисой. Это следующий шаг после Chain-of-Thought в прошлом семействе моделей YandexGPT 4 – теперь ризонинг реализован как полноценный пайплайн.

Наполнение
Данные для обучения частично генерируются через YandexGPT 5 Pro, а этап SFT оптимизируют — используются только такие запросы, по которым можно дать только однозначный ответ. Эксперементируют также с онлайн-ризонингом через GRPO, чтобы модель обучалась прямо во время взаимодействия с данными, а также с оффлайн-RL-ризонингом, проводя сравнение и дообучение на лучших генерациях.

Обучение
В обучающий датасет вошли не только математические задачи, но и практические b2b-кейсы: классификация, суммаризация, извлечение информации. Для ускорения процесса задействовали собственный open-source – библиотеку YaFSDP.

Все еще философия открытости
Есть выбор между YandexGPT 5 и опенсорсной моделью — микс “своих” и опенсорс решений. Для нашей ИИ-индустрии такой подход скорее в новинку, но это неплохое решение. Похожую стратегию применяет Microsoft, используя технологии OpenAI параллельно с развитием собственного ресерча. Конкуренция есть конкуренция, но в современной ИИ-гонке изоляция и опора только на собственные разработки - прямой путь к отставанию. Гибридный подход позволяет использовать лучшее от разных экосистем, а еще собрать более качественный датасет и понять поток запросов на рассуждения.

Reasoning-нейросетки — более нишевое решение, чем обычные LLM — они нужны, в основном, на более сложные задачи, где нужно многоступенчатое рассуждение. Но посмотреть, актуальны ли они для наших пользователей – определенно стоит. Так что ждем финальный релиз.

Ознакомиться подробнее с тестами тут

Читать полностью…

Love. Death. Transformers.

15 Apr 2025 14:13

проклятая картинка планирования хаты от 4о, чем дольше смотришь тем тяжелее

Читать полностью…

Love. Death. Transformers.

14 Apr 2025 13:59

Семинар: Методы оптимизации круглых тензоров

🗓 Когда: Четверг, 17 апреля, 18:35
🎙 Докладчик: Андрей Веприков — студент 5 курса ФПМИ, сотрудник лаборатории BRAIn

О чём пойдёт речь?
При обучении современных нейронных сетей все чаще параметры (nn.Module ю ноу) имеют вид матриц (двумерных тензоров), однако классические методы оптимизации никак не учитывают эту структуру, так как любимые AdamW и SGD (sign SGD) работают в режиме element-wise.

На семинаре обсудим два ключевых сюжета:
🔵Steepest Descent для матриц — все знают, что если использовать вторую норму в наискорейшем спуске для векторных параметров, то мы получаем SGD. Если же использовать бесконечную норму, то получается sign SGD. И что, на этом всё? Ничего подобного! При переходе в двумерный аниме мир матриц у нас появляется тонна различных норм, которые позволяют строить на первый взгляд совершенно разные, но на самом деле удивительно похожие алгоритмы оптимизации.
🔵 Квази-Ньютоновские методы в матричной форме — в матричном аниме мире не так очевидно, как должны выглядеть квази-ньютоновские методы, ведь параметры уже имеют размеренность матриц. Чем же нам приближать Гессиан? Ответ прост двумя матрицами! На семинаре мы обсудим, какая интуиция и математика стоят за этим подходом, и как же с этим всем связаны нормы из первого раздела.

Также обсудим:
🔸Как алгоритм Ньютона-Шульца помогает GPT-4o выдавать вам лучший рецепт жареных пельменей с сыром, зеленью и сметаной?
🔸Как эффективно приближать Гессиан функции ошибки при обучении современных нейронных сетей?
🔸Передовые (NDA) результаты, полученные вашим покорным слугой, которые объединяют эти два сюжета в единое целое

Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!

Читать полностью…

Love. Death. Transformers.

10 Apr 2025 10:25

🏢 Wunder Fund — Post Trade Researcher

💰 $4,000 — $6,000

Python, Linux, DS, pandas, SQL

Wunder Fund c 2014 года занимается HFT — высокочастотным алготрейдингом. Торгуем на многих биржах по всему миру, как классических, так и криптовалютных. Наш дневной торговый оборот около ~$8 млрд.

Сейчас мы ищем человека на новую позицию post-trade исследователя.

🎯 Почему эта роль важна
• Основной инструмент наших квантов это симулятор биржи — бэктест. Для нас очень важно, чтобы бэктест показывал реалистичные результаты, а если по какой-то причине он начинает нас обманывать — очень важно исправить это как можно быстрее.
• Причины для заблуждений бывают самые разные — изменились задержки у самой биржи, изменились комиссии, наша торговая система начала тормозить в какие-то особые моменты и тд.
• Вашей задачей будет обеспечивать максимальную реалистичность симуляции.

📋 Что предстоит делать
• Следить за метриками торговой инфраструктуры и стратегий, обнаруживать аномалии
• Исследовать, выяснять причины и устранять расхождения между результатами биржевой симуляции и реальной торговли
• Дебажить всю торговую систему в широком смысле слова — разбираться, как именно устроен каждый инцидент, и какова его причина

🎿 Как узнать себя в этой роли
• Аккуратность, граничащая с дотошностью
• Любовь и умение пристально вглядываться в данные
• Пытливость ума, интерес к исследованию
• Способность брать задачи под свой контроль и доводить их до завершения.
• Будет плюсом: знание С++, успехи в Kaggle, ШАД, опыт работы с биржевыми данными

✨ Условия
• Полная удаленка
• После испытательного срока помогаем с релокацией / получением ВНЖ и т.д. — при желании
• Если вы призывного возраста и в РФ — сможем помочь с отсрочкой
• Дважды в год на пару месяцев мы арендуем большую виллу, где можно вместе поработать и пожить (уже побывали в Тае, Турции, на Бали)
• Оплата $4-6k на руки любым удобным способом

💌 Как откликнуться
Пишите Маше в ТГ: @wunderfund
Или на почту join@wunderfund.io

Читать полностью…

Love. Death. Transformers.

09 Apr 2025 16:21

я говорил что я ненавижу нейросети?

Это "educational" видео с реддита как делают зубную пасту

Читать полностью…

Love. Death. Transformers.

09 Apr 2025 11:09

Cобираем спикеров на конфу вихрей, пишите с темой доклада и своей телегой

https://forms.gle/w1qiWscGc8YQ6FMr9

Читать полностью…

Love. Death. Transformers.

09 Apr 2025 09:27

Я не очень понимаю похороны лламы, ну да модель не удачная, ну на бенчах считерили, но scout звучит довольно полезной и по размерам и по решениям, я бы cohere cmda брал при деплоее ~100b тушек

Читать полностью…

Love. Death. Transformers.

07 Apr 2025 15:10

https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf

А ризонинг то - ненастоящий
by antropic

Читать полностью…

Love. Death. Transformers.

07 Apr 2025 09:09

Superforecaster? Чел, попробуй предсказать следующую возможность подержать девочку за ручку

Читать полностью…

Love. Death. Transformers.

05 Apr 2025 21:23

🌸Релизим Llama 4🌸

OSS на уровне Gemini и Deepseek

Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)

🌸Что интересного:

— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео

Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост

Читать полностью…

Love. Death. Transformers.

05 Apr 2025 10:38

Быть рэпером.
Жить вечно.

Читать полностью…

Love. Death. Transformers.

03 Apr 2025 22:45

Если ты относишься к ллм как китайской комнате/попугаю то она себя так и ведёт, и редтиминг валится и все не работает и вообще все плохо.

Но стоило мне произнести сознание и в чате сейфти начался сущий кошмар

Читать полностью…

Love. Death. Transformers.

03 Apr 2025 11:19

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/evaluating-potential-cybersecurity-threats-of-advanced-ai/An_Approach_to_Technical_AGI_Safety_Apr_2025.pdf

дипмайнд притворятеся что редитимит модели(cкорее нет)

Документ крайне интересный, советую ознакомится, много интересных рисков и попыток противодействия

Читать полностью…

Love. Death. Transformers.

02 Apr 2025 20:09

r1>o3mh?
чтоблин?

Читать полностью…