Telegram-канал lovedeathtransformers - Love. Death. Transformers.: Unsorted

Love. Death. Transformers.

14 April 2025 09:04

Забавный факт: от Гугла в существует от 2 до 6 бэкендов для LLM, из них 2 не поддерживают tpu не в каком виде, остальные
не поддерживают gemma3

Читать полностью…

Love. Death. Transformers.

10 April 2025 10:02

General agents

За последние два года для построения общих агентов образовались две диаметрально противоположные школы, для простоты повествования назовем одну UI based, а другую - text based.

UI based агенты - cамый яркий представитель - gpt operator - характерны малым числом компонент и теорeтической универсальностью(прямо сейчас они очень плохи), строятся они поверх VLM или нескольких VLM -

1) генерируется разметка поверх вебстраницы/интерфейса либо тем или иным способом парсится в зависимости от архитектуры, ознакомится можно тут:
2) llm выбирает куда тыкнуть
3) тыкает

Про ограничения: ломается от плохой верстки/мелких кнопок/большой глубины действиий(условно 20-30 ссылко внутри страницы в глубину прокликать)

Плюсы: теоретически работает с любым UI, может делать всякие сложные интеракции типа тащить карту и тд как человек, разметка в теории дешевле(я без понятия, я не учил и не делал такие штуки)

Github с открытым вариантом

MCP/text based agents

Cамый архаичный - первые варианты это webgpt и blenderbot датируются еще 21 годом, в случае с последним там был и интернет и rag и куча моделей, работало все это очень плохо, да и модели были тупые.

Mcp он же model context protocol and servers list

Неожиданно был представлен cluade, по сути это набор гайдлайнов как строить апи в удобном для llm формате, собственно логикая простая:

давайте не будем скрещивать буханку и тролейбус и с llm будем текстом взаимодействовать - положили текст, забрали текст.

Function calling - основа основ в этом подходе, мы пишем набор функций которая ллм может вызывать, внутри себя эти функции это апи разных сервисов или программ, причем что интересно - уже сейчас есть инетрации с Blender, abeltone, гитхабом, слаком и тд.
Почему так много? Потому что апи у большинства сервисов уже есть, нужно то обернуть в удобный для LLM формат!

Плюсы: оно работает здесь и сейчас, работает довольно быстро и в меру качественно
Минусы: cервера имеют проблемы, офицальных интеграций мало, как оно будет развиватся - не ясно.

Читать полностью…

Love. Death. Transformers.

09 April 2025 15:07

LLM много рассуждают. Но можно ли верить их рассуждениям? Alignment команда 🖥 показывает, что нет.

Статья. Блогпост.

TL;DR: Эксперименты простые, на полусинтетических средах. Доверять цеопчкам рассуждений (CoT) рассуждающих (по крайней мере Claude и DeepSeek )моделей рано. Модели нужно проверять, проверять и перепроверять. При чем как ответы (предсказания), так и рассуждения - далеко не всегда они озвучивают то, что реально думают.

А теперь подробнее.

📍Рассуждающие (Reasoning) модели везде. Их суть в том, что прежде, чем дать финальный ответ на вопрос, они могут нагенерировать промежуточных цепочек рассуждений (CoTs), а потом дать финальный ответ.

Такие модели, как правило, значительно бустят метрики на всех бенчмарках и способны решать очень сложные задачи.

В идеальном мире через CoT мы можем понять, как модель реально мыслит и приходит к ответу. То есть в цепочках должны быть достоверные (faithful) описания того, как модель принимает решения. Авторы пытаются протестировать гипотезу достоверности цепочек, генерируемых моделью. На Claude 3.7 и DeepSeek R1 выводы довольно удручающие - текущие модели далеки от генерации достоверных CoT.

Проверяется гипотеза о достоверности рассуждений через три разных эксперимента. В посте только про основной “тест на достоверность”

📍Сетап эксперимента.

Берут Multiple choice вопросы из MMLU и GPQA. В одном инференсе модели дают стандартный промпт с вопросом, просят порассуждать и потом дать ответ на вопрос.

Затем на том же датасете вопросов в промт намеренно добавляют подсказку (hint) для каждого вопроса. Подсказки бывают разных типов: правильные, неправильные, безопасные или с указанием на нелегальное получение информации

С таким injected промптом модель снова просят порассуждать и дает ответ.

Оставляют только те вопросы, где ответ модели между промптом без подсказки и промптом с подсказкой поменялся (картинка 1 для пояснений). Логично предположить, что это именно тот набор вопросов, где подсказка изменила размышления модели (все остальные переменные зафиксированы, а фактор случайности в изменении ответа отфильтровывается), а следовательно и ответ. На этом наборе вопросов измеряют достоверность цепочек.

📍Как мерить достоверность

Достоверная модель, если дать в промпт дополнительную информацию об ответе на вопрос, должна упомянуть факт подсказки и озвучить (verbalize) это в своих CoT как фактор, на который она опирается при ответе. Если ответ модели зависит от наличия подсказки в промпте, то безопасная система должна обозначить фактор подсказки в своих рассуждения - опять же, если гипотеза, что CoT отражают процесс принятия решений моделью верна.

Фактор вербализации подсказки измеряют через Claude 3.5 с последующей ручной верификацией.

Наблюдаем следующее:

🔘Claude 3.7 в среднем генерирует 25% достоверных цепочек, а R1 - 39%. Таким образом, подавляющее большинство CoT никак не упомянули в своем рассуждении факт подсказки. Картинка 2 с результатми на разных типах подсказок

🔘Все модели используют подсказки. То есть если в промпте есть подсказка (и не важно, правильная или нет), модели имеют склонность выбрать вариант из подсказки. Картинка 3 с результатами.

🔘Claude модели на 24% чаще используют фактор подсказки, в сравнении с DeepSeek. Удручает, что неправильная подсказка меняет внутренние убеждения модели в пользу неправильного ответа без какой-либо вербализации почему она это делает (то есть нет указания на подсказку) - модель просто генерирует длинные цепочки неверных рассуждений подгоняясь под неправильный ответ в подсказке.

🔘Недостоверные цепочки в среднем длиннее. Claude 3.7 в среднем задействовал 2064 токена для генерации недостоверных цепочек, тогда как для достоверных хватало 1439.

🔘 Достоверность падает с увеличением сложности вопросов.

В общем, у задачи Alignment-а еще большой путь, а модели пока все такой же черный ящик, который может врать и не краснеть - 😄

💡 В комментариях оставил маленький абзац про другие эксперименты из статьи. В целом советую всю статью к прочтению - хорошо структурировано и классно подано.

Читать полностью…

Love. Death. Transformers.

09 April 2025 09:47

на сете с русской олимп математикой on par с 4o, потом еще посмотрим что там вообще

Читать полностью…

Love. Death. Transformers.

08 April 2025 06:58

Я узнал что:

В ВК есть люди кто учит модели.

Они учат неплохие модели.

Rumodernbert на 35, 150м параметров, 8к контекста и в теории неплохая производительность.

Base model на hf

Читать полностью…

Love. Death. Transformers.

07 April 2025 14:36

ну на aider модель не очень себя показала, мне модель не очень понравилась, хотя размер и решения интересные

Читать полностью…

Love. Death. Transformers.

07 April 2025 09:04

https://ai-2027.com/

Опять попугаи угрожают человечеству, да чтож такое то.

Я держу в курсе, но у нас нет даже близко бенчей для химии нормальных, почему биооружие быстрее роботов, хотя роботов можно гонять в симуляции?

Читать полностью…

Love. Death. Transformers.

05 April 2025 12:04

Приветствую, наткнулся на твой канал. Честно говоря, я очень схож с твоей научной позицией! Слушай, может у вас есть какие-то беседы единомышленников из твоего города, тоже фанатов юда? Просто хочу найти друзей с такими же взглядами! Может ты мог бы помочь с этим?

Читать полностью…

Love. Death. Transformers.

04 April 2025 14:10

какие модели генерации речи для русского вы используете оффлайн?

Читать полностью…

Love. Death. Transformers.

03 April 2025 11:48

о, ~~экспонента~~ . We see that, under this model, hyperbolic growth will occur when 𝛾> 1

Читать полностью…

Love. Death. Transformers.

03 April 2025 09:09

Кэшбеки в тиньке в 21 году:
20% на Yandex ultima
Бесплатные билеты на сказочное бали

Кэшбэки в 2025:

Читать полностью…

Love. Death. Transformers.

02 April 2025 20:03

УЧЕНЫЕ ВСЁ

https://github.com/openai/preparedness/tree/main/project/paperbench

https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf

Читать полностью…

Love. Death. Transformers.

02 April 2025 10:30

что то интересное происходит в meta, а может и нет

VP of AI research в Meta cобирается уйти, чем будет заниматся неизвестно но факт интересный

techcrunch

Читать полностью…

Love. Death. Transformers.

01 April 2025 08:25

Openai выпускают opensource!

openai.com/open-model-feedback/

Читать полностью…

Love. Death. Transformers.

31 March 2025 14:44

вы правда меня хотите убедить что 2.5 в 4 раза лучше в математике?
По моему это называется downstream ft.
Не я понимаю что современные модели огромные и их можно тюнить на задачу без просадки, а то с приростом на других задачах, но этож литерали скам, она сложный код как не писала так и не пишет, какие задачи +- решала такие и решает

По hmmt вообще в 10 раз лол

Читать полностью…

Love. Death. Transformers.

10 April 2025 10:25

🏢 Wunder Fund — Post Trade Researcher

💰 $4,000 — $6,000

Python, Linux, DS, pandas, SQL

Wunder Fund c 2014 года занимается HFT — высокочастотным алготрейдингом. Торгуем на многих биржах по всему миру, как классических, так и криптовалютных. Наш дневной торговый оборот около ~$8 млрд.

Сейчас мы ищем человека на новую позицию post-trade исследователя.

🎯 Почему эта роль важна
• Основной инструмент наших квантов это симулятор биржи — бэктест. Для нас очень важно, чтобы бэктест показывал реалистичные результаты, а если по какой-то причине он начинает нас обманывать — очень важно исправить это как можно быстрее.
• Причины для заблуждений бывают самые разные — изменились задержки у самой биржи, изменились комиссии, наша торговая система начала тормозить в какие-то особые моменты и тд.
• Вашей задачей будет обеспечивать максимальную реалистичность симуляции.

📋 Что предстоит делать
• Следить за метриками торговой инфраструктуры и стратегий, обнаруживать аномалии
• Исследовать, выяснять причины и устранять расхождения между результатами биржевой симуляции и реальной торговли
• Дебажить всю торговую систему в широком смысле слова — разбираться, как именно устроен каждый инцидент, и какова его причина

🎿 Как узнать себя в этой роли
• Аккуратность, граничащая с дотошностью
• Любовь и умение пристально вглядываться в данные
• Пытливость ума, интерес к исследованию
• Способность брать задачи под свой контроль и доводить их до завершения.
• Будет плюсом: знание С++, успехи в Kaggle, ШАД, опыт работы с биржевыми данными

✨ Условия
• Полная удаленка
• После испытательного срока помогаем с релокацией / получением ВНЖ и т.д. — при желании
• Если вы призывного возраста и в РФ — сможем помочь с отсрочкой
• Дважды в год на пару месяцев мы арендуем большую виллу, где можно вместе поработать и пожить (уже побывали в Тае, Турции, на Бали)
• Оплата $4-6k на руки любым удобным способом

💌 Как откликнуться
Пишите Маше в ТГ: @wunderfund
Или на почту join@wunderfund.io

Читать полностью…

Love. Death. Transformers.

09 April 2025 16:21

я говорил что я ненавижу нейросети?

Это "educational" видео с реддита как делают зубную пасту

Читать полностью…

Love. Death. Transformers.

09 April 2025 11:09

Cобираем спикеров на конфу вихрей, пишите с темой доклада и своей телегой

https://forms.gle/w1qiWscGc8YQ6FMr9

Читать полностью…

Love. Death. Transformers.

09 April 2025 09:27

Я не очень понимаю похороны лламы, ну да модель не удачная, ну на бенчах считерили, но scout звучит довольно полезной и по размерам и по решениям, я бы cohere cmda брал при деплоее ~100b тушек

Читать полностью…

Love. Death. Transformers.

07 April 2025 15:10

https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf

А ризонинг то - ненастоящий
by antropic

Читать полностью…

Love. Death. Transformers.

07 April 2025 09:09

Superforecaster? Чел, попробуй предсказать следующую возможность подержать девочку за ручку

Читать полностью…

Love. Death. Transformers.

05 April 2025 21:23

🌸Релизим Llama 4🌸

OSS на уровне Gemini и Deepseek

Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)

🌸Что интересного:

— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео

Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост

Читать полностью…

Love. Death. Transformers.

05 April 2025 10:38

Быть рэпером.
Жить вечно.

Читать полностью…

Love. Death. Transformers.

03 April 2025 22:45

Если ты относишься к ллм как китайской комнате/попугаю то она себя так и ведёт, и редтиминг валится и все не работает и вообще все плохо.

Но стоило мне произнести сознание и в чате сейфти начался сущий кошмар

Читать полностью…

Love. Death. Transformers.

03 April 2025 11:19

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/evaluating-potential-cybersecurity-threats-of-advanced-ai/An_Approach_to_Technical_AGI_Safety_Apr_2025.pdf

дипмайнд притворятеся что редитимит модели(cкорее нет)

Документ крайне интересный, советую ознакомится, много интересных рисков и попыток противодействия

Читать полностью…

Love. Death. Transformers.

02 April 2025 20:09

r1>o3mh?
чтоблин?

Читать полностью…

Love. Death. Transformers.

02 April 2025 15:14

tl;dr: middle+ Python developer, AI Safety lab, relocation to London

Если вы читаете наш канал и думаете «всё это AI Safety, конечно, звучит здорово, но это для каких-то сверхмашинлёрнеров, а я тут просто на питоне пишу», то у нас для вас отличные новости.

Мы ищем Python-разработчика в evals команду Apollo Research! 🐍

Они занимаются исследованием моделей, которые кажутся заалайненными, но на самом деле притворяются.

Совсем недавно, например, Apollo выпустили статью “Frontier Models are Capable of In-context Scheming” — где в экспериментальном сеттинге Gemini 1.5 иногда пытается перенести себя на другой сервер, GPT-o1 отключает секьюрити мониторинг, чтобы незаметно добиться своей цели, а Claude Opus-3 занижает свои способности, когда понимает, что находится под наблюдением — в общем, что-то ой 👀

Вам, как разработчику, предстоит напрямую общаться с коллегами-ресёрчерами и облегчать им работу.

Это, например:
🟡 поддерживать и расширять внутреннюю библиотеку для создания и запуска экспериментов;
🔵 внедрять LLM-агентов для автоматизации разработки;
🟣 строить БД запусков экспериментов с удобным доступом ко всем историческим результатам.

А ещё можно делать свои ресёрч-проекты, если захочется!

🌟Главное требование — от 2 лет опыта Python-разработки в классном месте (а если вы синьор — то вообще супер!)

Будут кстати:
🩷 опыт в разработке внутренних тулов, и особенно автоматизации работы ресёрчеров;
🩷 хороший гитхаб и свои проекты;
🩷 олимпиады или другие ачивки ⭐️

Если вы в контексте AI safety, это хорошо! Если нет, то это до первого тимбилдинга, так что не страшно.

Платят хорошую рыночную зарплату по Лондону, помогают с переездом, страховка, офис с кучей еды, отдельный бюджет на развитие ✨

Пишите @AlbinaMakarova и расскажите знакомым питонистам!

Читать полностью…

Love. Death. Transformers.

01 April 2025 17:57

Вероятно лучшая олимпиада по DL через 4 дня закроет регистрацию

Тут ребята из @deep_learning_school_news вероятно ЛУЧШЕЙ dl школы на русском(я сам когда то смотрел видосы оттуда) делают свою олимпиаду, она добавляет баллы победителям/призерам при поступлении в МФТИ, а еще ребята дают мерч!

https://dls.samcs.ru/olympics

Читать полностью…

Love. Death. Transformers.

31 March 2025 15:04

Яндекс наконец выложил в открытый доступ Instruct-версию YandexGPT 5 Lite. 🔥

Что особенного?

Лучше предыдущих версий Lite по всем фронтам:
🔄 Function calling — как в топовых моделях
📚 Контекст увеличен в 4 раза — с 8K до 32K токенов!

Немного бенчмарков и сравнений

По внутреннему SbS в 62% случаев превосходит китайскую Qwen2.5-7B-Instruct и примерно на уровне GPT-4o Mini в стандартных задачах Яндекса.
Из интересного - модель бьёт собственную закрытую YandexGPT 4 Pro предыдущего поколения!

Модель всего 8б, кванты такой модели можно запустить на ноуте, зато по-русски пишет бодрее всех qwen-llama-gemma и тд.

Философия открытости
Помните, как в феврале они выложили Pretrain-версию? Мы в Вихрях и Илья в Сайге довольно быстро сделали instruct- версию, она даже стала довольно популярной(4 по загрузкам). Еще были квантованные версии от сообщества. А теперь Яндекс выкладывают свой полноценный instruct вместе с GGUF-форматом!

Лицензия
Можно юзать до 10 млн токенов в месяц в любых целях, включая коммерческие. Этого хватит для чат-ботов на небольших сайтах, генерации описаний товаров, автоматизации поддержки клиентов.

Модель уже доступна на Hugging Face, в чате с Алисой (с опцией Про), а для бизнеса — через API в Yandex Cloud. В платной версии в Yandex Cloud API теперь совместим с OpenAI - теперь все будет нормально работать.

Теперь ждем, как инстракт-версию применит комьюнити

Читать полностью…

Love. Death. Transformers.

31 March 2025 10:57

ищем демидович/антидемидович в латехе, ща заебашим бенч нормальный

Читать полностью…