❤️☠️🤗 идейная миграция небытия
на сете с русской олимп математикой on par с 4o, потом еще посмотрим что там вообще
Читать полностью…Я узнал что:
В ВК есть люди кто учит модели.
Они учат неплохие модели.
Rumodernbert на 35, 150м параметров, 8к контекста и в теории неплохая производительность.
Base model на hf
ну на aider модель не очень себя показала, мне модель не очень понравилась, хотя размер и решения интересные
Читать полностью…https://ai-2027.com/
Опять попугаи угрожают человечеству, да чтож такое то.
Я держу в курсе, но у нас нет даже близко бенчей для химии нормальных, почему биооружие быстрее роботов, хотя роботов можно гонять в симуляции?
Приветствую, наткнулся на твой канал. Честно говоря, я очень схож с твоей научной позицией! Слушай, может у вас есть какие-то беседы единомышленников из твоего города, тоже фанатов юда? Просто хочу найти друзей с такими же взглядами! Может ты мог бы помочь с этим?
Читать полностью…какие модели генерации речи для русского вы используете оффлайн?
Читать полностью…о, экспонента . We see that, under this model, hyperbolic growth will occur when 𝛾> 1
Кэшбеки в тиньке в 21 году:
20% на Yandex ultima
Бесплатные билеты на сказочное бали
Кэшбэки в 2025:
УЧЕНЫЕ ВСЁ
https://github.com/openai/preparedness/tree/main/project/paperbench
https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
что то интересное происходит в meta, а может и нет
VP of AI research в Meta cобирается уйти, чем будет заниматся неизвестно но факт интересный
techcrunch
Openai выпускают opensource!
openai.com/open-model-feedback/
вы правда меня хотите убедить что 2.5 в 4 раза лучше в математике?
По моему это называется downstream ft.
Не я понимаю что современные модели огромные и их можно тюнить на задачу без просадки, а то с приростом на других задачах, но этож литерали скам, она сложный код как не писала так и не пишет, какие задачи +- решала такие и решает
По hmmt вообще в 10 раз лол
пожалуйста обьясните популярноcть aime как бенчмарка, этож типовые задачи в которых есть пара сотен идей которые зубрятся?
с учетом того что llm неплохо выучивает стандартные идеи, а задачи качуют из года в год, а всего задач всего десяток тысяч то выучить идеи не выглядит большой проблемой для любой модели. Или вы реально верите что 1.5b модель может ризонить чо то там на уровне gpt4 двух летней давности?
ура, товарищи всё-таки выложили в hf русско чувашский корпус!
https://huggingface.co/datasets/alexantonov/chuvash_russian_parallel
https://huggingface.co/datasets/alexantonov/chuvash_voice
Чем больше я смотрю вопросы в lmsys тем меньше верю в бога.
Читать полностью…Я не очень понимаю похороны лламы, ну да модель не удачная, ну на бенчах считерили, но scout звучит довольно полезной и по размерам и по решениям, я бы cohere cmda брал при деплоее ~100b тушек
Читать полностью…https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf
А ризонинг то - ненастоящий
by antropic
Superforecaster? Чел, попробуй предсказать следующую возможность подержать девочку за ручку
Читать полностью…🌸Релизим Llama 4🌸
OSS на уровне Gemini и Deepseek
Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)
🌸Что интересного:
— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео
Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост
Если ты относишься к ллм как китайской комнате/попугаю то она себя так и ведёт, и редтиминг валится и все не работает и вообще все плохо.
Но стоило мне произнести сознание и в чате сейфти начался сущий кошмар
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/evaluating-potential-cybersecurity-threats-of-advanced-ai/An_Approach_to_Technical_AGI_Safety_Apr_2025.pdf
дипмайнд притворятеся что редитимит модели(cкорее нет)
Документ крайне интересный, советую ознакомится, много интересных рисков и попыток противодействия
tl;dr: middle+ Python developer, AI Safety lab, relocation to London
Если вы читаете наш канал и думаете «всё это AI Safety, конечно, звучит здорово, но это для каких-то сверхмашинлёрнеров, а я тут просто на питоне пишу», то у нас для вас отличные новости.
Мы ищем Python-разработчика в evals команду Apollo Research! 🐍
Они занимаются исследованием моделей, которые кажутся заалайненными, но на самом деле притворяются.
Совсем недавно, например, Apollo выпустили статью “Frontier Models are Capable of In-context Scheming” — где в экспериментальном сеттинге Gemini 1.5 иногда пытается перенести себя на другой сервер, GPT-o1 отключает секьюрити мониторинг, чтобы незаметно добиться своей цели, а Claude Opus-3 занижает свои способности, когда понимает, что находится под наблюдением — в общем, что-то ой 👀
Вам, как разработчику, предстоит напрямую общаться с коллегами-ресёрчерами и облегчать им работу.
Это, например:
🟡 поддерживать и расширять внутреннюю библиотеку для создания и запуска экспериментов;
🔵 внедрять LLM-агентов для автоматизации разработки;
🟣 строить БД запусков экспериментов с удобным доступом ко всем историческим результатам.
А ещё можно делать свои ресёрч-проекты, если захочется!
🌟Главное требование — от 2 лет опыта Python-разработки в классном месте (а если вы синьор — то вообще супер!)
Будут кстати:
🩷 опыт в разработке внутренних тулов, и особенно автоматизации работы ресёрчеров;
🩷 хороший гитхаб и свои проекты;
🩷 олимпиады или другие ачивки ⭐️
Если вы в контексте AI safety, это хорошо! Если нет, то это до первого тимбилдинга, так что не страшно.
Платят хорошую рыночную зарплату по Лондону, помогают с переездом, страховка, офис с кучей еды, отдельный бюджет на развитие ✨
Пишите @AlbinaMakarova и расскажите знакомым питонистам!
Вероятно лучшая олимпиада по DL через 4 дня закроет регистрацию
Тут ребята из @deep_learning_school_news вероятно ЛУЧШЕЙ dl школы на русском(я сам когда то смотрел видосы оттуда) делают свою олимпиаду, она добавляет баллы победителям/призерам при поступлении в МФТИ, а еще ребята дают мерч!
https://dls.samcs.ru/olympics
Яндекс наконец выложил в открытый доступ Instruct-версию YandexGPT 5 Lite. 🔥
Что особенного?
Лучше предыдущих версий Lite по всем фронтам:
🔄 Function calling — как в топовых моделях
📚 Контекст увеличен в 4 раза — с 8K до 32K токенов!
Немного бенчмарков и сравнений
По внутреннему SbS в 62% случаев превосходит китайскую Qwen2.5-7B-Instruct и примерно на уровне GPT-4o Mini в стандартных задачах Яндекса.
Из интересного - модель бьёт собственную закрытую YandexGPT 4 Pro предыдущего поколения!
Модель всего 8б, кванты такой модели можно запустить на ноуте, зато по-русски пишет бодрее всех qwen-llama-gemma и тд.
Философия открытости
Помните, как в феврале они выложили Pretrain-версию? Мы в Вихрях и Илья в Сайге довольно быстро сделали instruct- версию, она даже стала довольно популярной(4 по загрузкам). Еще были квантованные версии от сообщества. А теперь Яндекс выкладывают свой полноценный instruct вместе с GGUF-форматом!
Лицензия
Можно юзать до 10 млн токенов в месяц в любых целях, включая коммерческие. Этого хватит для чат-ботов на небольших сайтах, генерации описаний товаров, автоматизации поддержки клиентов.
Модель уже доступна на Hugging Face, в чате с Алисой (с опцией Про), а для бизнеса — через API в Yandex Cloud. В платной версии в Yandex Cloud API теперь совместим с OpenAI - теперь все будет нормально работать.
Теперь ждем, как инстракт-версию применит комьюнити
ищем демидович/антидемидович в латехе, ща заебашим бенч нормальный
Читать полностью…🌸METRики хайпа: найти экспонентциальный рост любой ценой🌸
#nlp #про_nlp #nlp_papers
На прошлой неделе вышел анализ от METR (Model Evaluation & Threat Research) — независимой организации оценки способностей и рисков ИИ систем.
🌸TLDR: предлагается измерять производительность ИИ с точки зрения продолжительности задач, которые могут выполнить агенты.
При этом вводится новый бенчмарк и показывается, что продолжительность решаемых задач постоянно экспоненциально растет в течение последних 6 лет, и удваивается примерно раз в 7 месяцев. Экстраполяция этой тенденции предсказывает, что менее чем через пять лет мы увидим агентов, которые смогут самостоятельно выполнять большую часть программных задач, на которые в настоящее время у людей уходят дни или недели.
Для точности вводится новая метрика: учитывается время, которое обычно требуется людям для выполнения задач, которые модели ИИ могут выполнить с 50%-ным успехом.
У Claude 3.7 Sonnet, например, этот временной горизонт около 50 минут.
Красивая экспонента и оценки будущих горизонтов агентов уже ушли в заголовки.
🌸А теперь самое интересное: на чем меряем?
На немотивированно странном подмножестве бенчмарков.
— 97 задач из HCAST: инженерные задачи от 30 сек до 30 минут
— 7 сложных ML задач из RE-Bench по 8 часов каждая
— 66 очень простых софтверных задач от 1 до 30 секунд (новый бенчмарк, Software atomic actions, SWAA)
— 1 (одна, Карл!) задача из GAIA
🌸Что не так с такими оценками?
— если бы это было так просто, новую метрику бы вводить в целом не потребовалось, можно было бы взять 100+, а то и 1000+ задач предыдущих лет (у нас что, дефицит бенчмарков??) и спокойно построить результат. К сожалению, так не получилось, поэтому пришлось черри-пикать задачи и даже придумывать новые, которые бы дали нужную картину.
— сложность и время выполнения задачи — не одно и то же, можно придумать много долгих тупых задач;
— даже если считать, что в целом это правда, что мы постепенно научились автоматизировать более сложные задачи (конечно), то давайте прямо скажем, что улучшение качества происходит за счет разных компонент прогресса: доступности обучающих данных, бюджета на разметку, вычислительного бюджета на масштабирование модели, и самое интересное — за счет алгоритмической новизны. Все эти факторы имеют совершенно разный вес в каждой из приведенных задач. Соотношение этих факторов во многом для closed source моделей нам совершенно не известно. Смысла искать в них общую экспоненциальную тенденцию немного.
— компьют и данные не скейлятся по экспоненте, при этом только их вклад является наиболее предсказуемым; а алгоритмические улучшения отдельно без скейлинга трудно прогнозировать.
В общем и целом, перебор результатов, чтобы найти экспоненту — это уже самостоятельная бизнес-модель и вообще, залог будущих инвестиций.
Ну и напоследок, результаты опроса AAAI 2025 :"Большинство респондентов (76%) утверждают, что «масштабирование текущих подходов к ИИ» для создания AGI «маловероятно» или «крайне маловероятно» приведет к успеху, что вызывает сомнения относительно того, достаточны ли текущие парадигмы машинного обучения для достижения AGI."
🟣Пост METR
🟣Arxiv
Ресерчил тут идеи опенаи, как насчёт убивать синов которые много выебываются?
Читать полностью…Кстати, генерация картинок в Sora тоже доступна...
Читать полностью…