4257
❤️☠️🤗 идейная миграция небытия
Забавный факт: от Гугла в существует от 2 до 6 бэкендов для LLM, из них 2 не поддерживают tpu не в каком виде, остальные
не поддерживают gemma3
General agents
За последние два года для построения общих агентов образовались две диаметрально противоположные школы, для простоты повествования назовем одну UI based, а другую - text based.
UI based агенты - cамый яркий представитель - gpt operator - характерны малым числом компонент и теорeтической универсальностью(прямо сейчас они очень плохи), строятся они поверх VLM или нескольких VLM -
1) генерируется разметка поверх вебстраницы/интерфейса либо тем или иным способом парсится в зависимости от архитектуры, ознакомится можно тут:
2) llm выбирает куда тыкнуть
3) тыкает
Про ограничения: ломается от плохой верстки/мелких кнопок/большой глубины действиий(условно 20-30 ссылко внутри страницы в глубину прокликать)
Плюсы: теоретически работает с любым UI, может делать всякие сложные интеракции типа тащить карту и тд как человек, разметка в теории дешевле(я без понятия, я не учил и не делал такие штуки)
Github с открытым вариантом
MCP/text based agents
Cамый архаичный - первые варианты это webgpt и blenderbot датируются еще 21 годом, в случае с последним там был и интернет и rag и куча моделей, работало все это очень плохо, да и модели были тупые.
Mcp он же model context protocol and servers list
Неожиданно был представлен cluade, по сути это набор гайдлайнов как строить апи в удобном для llm формате, собственно логикая простая:
давайте не будем скрещивать буханку и тролейбус и с llm будем текстом взаимодействовать - положили текст, забрали текст.
Function calling - основа основ в этом подходе, мы пишем набор функций которая ллм может вызывать, внутри себя эти функции это апи разных сервисов или программ, причем что интересно - уже сейчас есть инетрации с Blender, abeltone, гитхабом, слаком и тд.
Почему так много? Потому что апи у большинства сервисов уже есть, нужно то обернуть в удобный для LLM формат!
Плюсы: оно работает здесь и сейчас, работает довольно быстро и в меру качественно
Минусы: cервера имеют проблемы, офицальных интеграций мало, как оно будет развиватся - не ясно.
LLM много рассуждают. Но можно ли верить их рассуждениям? Alignment команда 🖥 показывает, что нет.
Статья. Блогпост.
TL;DR: Эксперименты простые, на полусинтетических средах. Доверять цеопчкам рассуждений (CoT) рассуждающих (по крайней мере Claude и DeepSeek )моделей рано. Модели нужно проверять, проверять и перепроверять. При чем как ответы (предсказания), так и рассуждения - далеко не всегда они озвучивают то, что реально думают.
А теперь подробнее.
📍Рассуждающие (Reasoning) модели везде. Их суть в том, что прежде, чем дать финальный ответ на вопрос, они могут нагенерировать промежуточных цепочек рассуждений (CoTs), а потом дать финальный ответ.
Такие модели, как правило, значительно бустят метрики на всех бенчмарках и способны решать очень сложные задачи.
В идеальном мире через CoT мы можем понять, как модель реально мыслит и приходит к ответу. То есть в цепочках должны быть достоверные (faithful) описания того, как модель принимает решения. Авторы пытаются протестировать гипотезу достоверности цепочек, генерируемых моделью. На Claude 3.7 и DeepSeek R1 выводы довольно удручающие - текущие модели далеки от генерации достоверных CoT.
Проверяется гипотеза о достоверности рассуждений через три разных эксперимента. В посте только про основной “тест на достоверность”
📍Сетап эксперимента.
Берут Multiple choice вопросы из MMLU и GPQA. В одном инференсе модели дают стандартный промпт с вопросом, просят порассуждать и потом дать ответ на вопрос.
Затем на том же датасете вопросов в промт намеренно добавляют подсказку (hint) для каждого вопроса. Подсказки бывают разных типов: правильные, неправильные, безопасные или с указанием на нелегальное получение информации
С таким injected промптом модель снова просят порассуждать и дает ответ.
Оставляют только те вопросы, где ответ модели между промптом без подсказки и промптом с подсказкой поменялся (картинка 1 для пояснений). Логично предположить, что это именно тот набор вопросов, где подсказка изменила размышления модели (все остальные переменные зафиксированы, а фактор случайности в изменении ответа отфильтровывается), а следовательно и ответ. На этом наборе вопросов измеряют достоверность цепочек.
📍Как мерить достоверность
Достоверная модель, если дать в промпт дополнительную информацию об ответе на вопрос, должна упомянуть факт подсказки и озвучить (verbalize) это в своих CoT как фактор, на который она опирается при ответе. Если ответ модели зависит от наличия подсказки в промпте, то безопасная система должна обозначить фактор подсказки в своих рассуждения - опять же, если гипотеза, что CoT отражают процесс принятия решений моделью верна.
Фактор вербализации подсказки измеряют через Claude 3.5 с последующей ручной верификацией.
Наблюдаем следующее:
🔘Claude 3.7 в среднем генерирует 25% достоверных цепочек, а R1 - 39%. Таким образом, подавляющее большинство CoT никак не упомянули в своем рассуждении факт подсказки. Картинка 2 с результатми на разных типах подсказок
🔘Все модели используют подсказки. То есть если в промпте есть подсказка (и не важно, правильная или нет), модели имеют склонность выбрать вариант из подсказки. Картинка 3 с результатами.
🔘Claude модели на 24% чаще используют фактор подсказки, в сравнении с DeepSeek. Удручает, что неправильная подсказка меняет внутренние убеждения модели в пользу неправильного ответа без какой-либо вербализации почему она это делает (то есть нет указания на подсказку) - модель просто генерирует длинные цепочки неверных рассуждений подгоняясь под неправильный ответ в подсказке.
🔘Недостоверные цепочки в среднем длиннее. Claude 3.7 в среднем задействовал 2064 токена для генерации недостоверных цепочек, тогда как для достоверных хватало 1439.
🔘 Достоверность падает с увеличением сложности вопросов.
В общем, у задачи Alignment-а еще большой путь, а модели пока все такой же черный ящик, который может врать и не краснеть - 😄
💡 В комментариях оставил маленький абзац про другие эксперименты из статьи. В целом советую всю статью к прочтению - хорошо структурировано и классно подано.
на сете с русской олимп математикой on par с 4o, потом еще посмотрим что там вообще
Читать полностью…
Я узнал что:
В ВК есть люди кто учит модели.
Они учат неплохие модели.
Rumodernbert на 35, 150м параметров, 8к контекста и в теории неплохая производительность.
Base model на hf
ну на aider модель не очень себя показала, мне модель не очень понравилась, хотя размер и решения интересные
Читать полностью…
https://ai-2027.com/
Опять попугаи угрожают человечеству, да чтож такое то.
Я держу в курсе, но у нас нет даже близко бенчей для химии нормальных, почему биооружие быстрее роботов, хотя роботов можно гонять в симуляции?
Приветствую, наткнулся на твой канал. Честно говоря, я очень схож с твоей научной позицией! Слушай, может у вас есть какие-то беседы единомышленников из твоего города, тоже фанатов юда? Просто хочу найти друзей с такими же взглядами! Может ты мог бы помочь с этим?
Читать полностью…
какие модели генерации речи для русского вы используете оффлайн?
Читать полностью…
о, экспонента . We see that, under this model, hyperbolic growth will occur when 𝛾> 1
Кэшбеки в тиньке в 21 году:
20% на Yandex ultima
Бесплатные билеты на сказочное бали
Кэшбэки в 2025:
УЧЕНЫЕ ВСЁ
https://github.com/openai/preparedness/tree/main/project/paperbench
https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
что то интересное происходит в meta, а может и нет
VP of AI research в Meta cобирается уйти, чем будет заниматся неизвестно но факт интересный
techcrunch
Openai выпускают opensource!
openai.com/open-model-feedback/
вы правда меня хотите убедить что 2.5 в 4 раза лучше в математике?
По моему это называется downstream ft.
Не я понимаю что современные модели огромные и их можно тюнить на задачу без просадки, а то с приростом на других задачах, но этож литерали скам, она сложный код как не писала так и не пишет, какие задачи +- решала такие и решает
По hmmt вообще в 10 раз лол
🏢 Wunder Fund — Post Trade Researcher
💰 $4,000 — $6,000Python, Linux, DS, pandas, SQL
Wunder Fund c 2014 года занимается HFT — высокочастотным алготрейдингом. Торгуем на многих биржах по всему миру, как классических, так и криптовалютных. Наш дневной торговый оборот около ~$8 млрд.
Сейчас мы ищем человека на новую позицию post-trade исследователя.
🎯 Почему эта роль важна
• Основной инструмент наших квантов это симулятор биржи — бэктест. Для нас очень важно, чтобы бэктест показывал реалистичные результаты, а если по какой-то причине он начинает нас обманывать — очень важно исправить это как можно быстрее.
• Причины для заблуждений бывают самые разные — изменились задержки у самой биржи, изменились комиссии, наша торговая система начала тормозить в какие-то особые моменты и тд.
• Вашей задачей будет обеспечивать максимальную реалистичность симуляции.
📋 Что предстоит делать
• Следить за метриками торговой инфраструктуры и стратегий, обнаруживать аномалии
• Исследовать, выяснять причины и устранять расхождения между результатами биржевой симуляции и реальной торговли
• Дебажить всю торговую систему в широком смысле слова — разбираться, как именно устроен каждый инцидент, и какова его причина
🎿 Как узнать себя в этой роли
• Аккуратность, граничащая с дотошностью
• Любовь и умение пристально вглядываться в данные
• Пытливость ума, интерес к исследованию
• Способность брать задачи под свой контроль и доводить их до завершения.
• Будет плюсом: знание С++, успехи в Kaggle, ШАД, опыт работы с биржевыми данными
✨ Условия
• Полная удаленка
• После испытательного срока помогаем с релокацией / получением ВНЖ и т.д. — при желании
• Если вы призывного возраста и в РФ — сможем помочь с отсрочкой
• Дважды в год на пару месяцев мы арендуем большую виллу, где можно вместе поработать и пожить (уже побывали в Тае, Турции, на Бали)
• Оплата $4-6k на руки любым удобным способом
💌 Как откликнуться
Пишите Маше в ТГ: @wunderfund
Или на почту join@wunderfund.io
я говорил что я ненавижу нейросети?
Это "educational" видео с реддита как делают зубную пасту
Cобираем спикеров на конфу вихрей, пишите с темой доклада и своей телегой
https://forms.gle/w1qiWscGc8YQ6FMr9
Я не очень понимаю похороны лламы, ну да модель не удачная, ну на бенчах считерили, но scout звучит довольно полезной и по размерам и по решениям, я бы cohere cmda брал при деплоее ~100b тушек
Читать полностью…
https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf
А ризонинг то - ненастоящий
by antropic
Superforecaster? Чел, попробуй предсказать следующую возможность подержать девочку за ручку
Читать полностью…
🌸Релизим Llama 4🌸
OSS на уровне Gemini и Deepseek
Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)
🌸Что интересного:
— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео
Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост
Если ты относишься к ллм как китайской комнате/попугаю то она себя так и ведёт, и редтиминг валится и все не работает и вообще все плохо.
Но стоило мне произнести сознание и в чате сейфти начался сущий кошмар
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/evaluating-potential-cybersecurity-threats-of-advanced-ai/An_Approach_to_Technical_AGI_Safety_Apr_2025.pdf
дипмайнд притворятеся что редитимит модели(cкорее нет)
Документ крайне интересный, советую ознакомится, много интересных рисков и попыток противодействия
tl;dr: middle+ Python developer, AI Safety lab, relocation to London
Если вы читаете наш канал и думаете «всё это AI Safety, конечно, звучит здорово, но это для каких-то сверхмашинлёрнеров, а я тут просто на питоне пишу», то у нас для вас отличные новости.
Мы ищем Python-разработчика в evals команду Apollo Research! 🐍
Они занимаются исследованием моделей, которые кажутся заалайненными, но на самом деле притворяются.
Совсем недавно, например, Apollo выпустили статью “Frontier Models are Capable of In-context Scheming” — где в экспериментальном сеттинге Gemini 1.5 иногда пытается перенести себя на другой сервер, GPT-o1 отключает секьюрити мониторинг, чтобы незаметно добиться своей цели, а Claude Opus-3 занижает свои способности, когда понимает, что находится под наблюдением — в общем, что-то ой 👀
Вам, как разработчику, предстоит напрямую общаться с коллегами-ресёрчерами и облегчать им работу.
Это, например:
🟡 поддерживать и расширять внутреннюю библиотеку для создания и запуска экспериментов;
🔵 внедрять LLM-агентов для автоматизации разработки;
🟣 строить БД запусков экспериментов с удобным доступом ко всем историческим результатам.
А ещё можно делать свои ресёрч-проекты, если захочется!
🌟Главное требование — от 2 лет опыта Python-разработки в классном месте (а если вы синьор — то вообще супер!)
Будут кстати:
🩷 опыт в разработке внутренних тулов, и особенно автоматизации работы ресёрчеров;
🩷 хороший гитхаб и свои проекты;
🩷 олимпиады или другие ачивки ⭐️
Если вы в контексте AI safety, это хорошо! Если нет, то это до первого тимбилдинга, так что не страшно.
Платят хорошую рыночную зарплату по Лондону, помогают с переездом, страховка, офис с кучей еды, отдельный бюджет на развитие ✨
Пишите @AlbinaMakarova и расскажите знакомым питонистам!
Вероятно лучшая олимпиада по DL через 4 дня закроет регистрацию
Тут ребята из @deep_learning_school_news вероятно ЛУЧШЕЙ dl школы на русском(я сам когда то смотрел видосы оттуда) делают свою олимпиаду, она добавляет баллы победителям/призерам при поступлении в МФТИ, а еще ребята дают мерч!
https://dls.samcs.ru/olympics
Яндекс наконец выложил в открытый доступ Instruct-версию YandexGPT 5 Lite. 🔥
Что особенного?
Лучше предыдущих версий Lite по всем фронтам:
🔄 Function calling — как в топовых моделях
📚 Контекст увеличен в 4 раза — с 8K до 32K токенов!
Немного бенчмарков и сравнений
По внутреннему SbS в 62% случаев превосходит китайскую Qwen2.5-7B-Instruct и примерно на уровне GPT-4o Mini в стандартных задачах Яндекса.
Из интересного - модель бьёт собственную закрытую YandexGPT 4 Pro предыдущего поколения!
Модель всего 8б, кванты такой модели можно запустить на ноуте, зато по-русски пишет бодрее всех qwen-llama-gemma и тд.
Философия открытости
Помните, как в феврале они выложили Pretrain-версию? Мы в Вихрях и Илья в Сайге довольно быстро сделали instruct- версию, она даже стала довольно популярной(4 по загрузкам). Еще были квантованные версии от сообщества. А теперь Яндекс выкладывают свой полноценный instruct вместе с GGUF-форматом!
Лицензия
Можно юзать до 10 млн токенов в месяц в любых целях, включая коммерческие. Этого хватит для чат-ботов на небольших сайтах, генерации описаний товаров, автоматизации поддержки клиентов.
Модель уже доступна на Hugging Face, в чате с Алисой (с опцией Про), а для бизнеса — через API в Yandex Cloud. В платной версии в Yandex Cloud API теперь совместим с OpenAI - теперь все будет нормально работать.
Теперь ждем, как инстракт-версию применит комьюнити
ищем демидович/антидемидович в латехе, ща заебашим бенч нормальный
Читать полностью…