❤️☠️🤗 идейная миграция небытия
что то интересное происходит в meta, а может и нет
VP of AI research в Meta cобирается уйти, чем будет заниматся неизвестно но факт интересный
techcrunch
Openai выпускают opensource!
openai.com/open-model-feedback/
вы правда меня хотите убедить что 2.5 в 4 раза лучше в математике?
По моему это называется downstream ft.
Не я понимаю что современные модели огромные и их можно тюнить на задачу без просадки, а то с приростом на других задачах, но этож литерали скам, она сложный код как не писала так и не пишет, какие задачи +- решала такие и решает
По hmmt вообще в 10 раз лол
пожалуйста обьясните популярноcть aime как бенчмарка, этож типовые задачи в которых есть пара сотен идей которые зубрятся?
с учетом того что llm неплохо выучивает стандартные идеи, а задачи качуют из года в год, а всего задач всего десяток тысяч то выучить идеи не выглядит большой проблемой для любой модели. Или вы реально верите что 1.5b модель может ризонить чо то там на уровне gpt4 двух летней давности?
ура, товарищи всё-таки выложили в hf русско чувашский корпус!
https://huggingface.co/datasets/alexantonov/chuvash_russian_parallel
https://huggingface.co/datasets/alexantonov/chuvash_voice
Чем больше я смотрю вопросы в lmsys тем меньше верю в бога.
Читать полностью…https://arxiv.org/abs/2503.20314 папир выложили
архитектурно все это уже было, но сделали sota vae, cобрали небольшой бенч и очень чистый датасет
буквально первый релиз со времен dalle2 когда я В ВОСТОРГЕ
Читать полностью…https://huggingface.co/Djrango/Qwen2vl-Flux
Полистайте на досуге, любыпотнвя штука. Не утверждаю что у oai что то такое, но посмотреть что сделают в opensource интересно. Простые штуки типа blending, restyle и прочее оно умеет делать.
Вихревых релизов на эту тему не будет.
Deepseek V3 0324
По бенчам сопоставимо с r1/sonnet3.7/4.5, но стоит понимать что на аренах вероятно будет ниже и есть куча кейсов где эти бенчи не будут иметь значения.
model
Коллеги из https://llmarena.ru/ не забрасывают проект, продолжают добавлять новые модели и функционал. Наконец заехала фича которую я давно просил - тг версия, даже в виде красивого UI!
tg app
Scale-wise Distillation of Diffusion Models
[Статья] [Демка] [Код soon]
Введение
Диффузионные модели на протяжении последних несколько лет удерживают пальму первенства среди семейств генеративных моделей во многих приложениях. Однако их фундаментальным ограничением является многошаговое сэмплирование, из-за чего генерация занимает много времени.
Научное сообщество предложило вагон и маленькую тележку различных процедур дистилляции многошаговых моделей в малошаговые. Но при приближении количества шагов к 1-му качество неизбежно просаживается даже для самых продвинутых подходов.
Отсюда мысль 🤔 - а что если ускорить генерацию за счет удешевления шагов сэмплирования?
Мы с коллегами из Yandex Research предложили метод дистилляции в несколько-шаговую генерацию, где разрешение изображения увеличивается постепенно, на каждом шаге генерации (SwD). За счет этого удается достичь более чем 2х кратного ускорения по сравнению с эквивалентной дистилляцией в фиксированном разрешении.
Привет, слышал вы там нейросетями занимаетесь, тема перспективная есть, можете сделать чтобы вот прям как человек общалась?
Читать полностью…крайне любопытные эвалы от Саши Кукушкина, например оказывается что ребята из ruadapt победили почти всех в номинации "как затюнить qwen 32b и не просадить", а yandex gpt мы в вихрях затюнили хуже чем Илья(что тоже любопытно)
Полистайте репозиторий, крайне любопытно
Вероятно лучшая олимпиада по DL через 4 дня закроет регистрацию
Тут ребята из @deep_learning_school_news вероятно ЛУЧШЕЙ dl школы на русском(я сам когда то смотрел видосы оттуда) делают свою олимпиаду, она добавляет баллы победителям/призерам при поступлении в МФТИ, а еще ребята дают мерч!
https://dls.samcs.ru/olympics
Яндекс наконец выложил в открытый доступ Instruct-версию YandexGPT 5 Lite. 🔥
Что особенного?
Лучше предыдущих версий Lite по всем фронтам:
🔄 Function calling — как в топовых моделях
📚 Контекст увеличен в 4 раза — с 8K до 32K токенов!
Немного бенчмарков и сравнений
По внутреннему SbS в 62% случаев превосходит китайскую Qwen2.5-7B-Instruct и примерно на уровне GPT-4o Mini в стандартных задачах Яндекса.
Из интересного - модель бьёт собственную закрытую YandexGPT 4 Pro предыдущего поколения!
Модель всего 8б, кванты такой модели можно запустить на ноуте, зато по-русски пишет бодрее всех qwen-llama-gemma и тд.
Философия открытости
Помните, как в феврале они выложили Pretrain-версию? Мы в Вихрях и Илья в Сайге довольно быстро сделали instruct- версию, она даже стала довольно популярной(4 по загрузкам). Еще были квантованные версии от сообщества. А теперь Яндекс выкладывают свой полноценный instruct вместе с GGUF-форматом!
Лицензия
Можно юзать до 10 млн токенов в месяц в любых целях, включая коммерческие. Этого хватит для чат-ботов на небольших сайтах, генерации описаний товаров, автоматизации поддержки клиентов.
Модель уже доступна на Hugging Face, в чате с Алисой (с опцией Про), а для бизнеса — через API в Yandex Cloud. В платной версии в Yandex Cloud API теперь совместим с OpenAI - теперь все будет нормально работать.
Теперь ждем, как инстракт-версию применит комьюнити
ищем демидович/антидемидович в латехе, ща заебашим бенч нормальный
Читать полностью…🌸METRики хайпа: найти экспонентциальный рост любой ценой🌸
#nlp #про_nlp #nlp_papers
На прошлой неделе вышел анализ от METR (Model Evaluation & Threat Research) — независимой организации оценки способностей и рисков ИИ систем.
🌸TLDR: предлагается измерять производительность ИИ с точки зрения продолжительности задач, которые могут выполнить агенты.
При этом вводится новый бенчмарк и показывается, что продолжительность решаемых задач постоянно экспоненциально растет в течение последних 6 лет, и удваивается примерно раз в 7 месяцев. Экстраполяция этой тенденции предсказывает, что менее чем через пять лет мы увидим агентов, которые смогут самостоятельно выполнять большую часть программных задач, на которые в настоящее время у людей уходят дни или недели.
Для точности вводится новая метрика: учитывается время, которое обычно требуется людям для выполнения задач, которые модели ИИ могут выполнить с 50%-ным успехом.
У Claude 3.7 Sonnet, например, этот временной горизонт около 50 минут.
Красивая экспонента и оценки будущих горизонтов агентов уже ушли в заголовки.
🌸А теперь самое интересное: на чем меряем?
На немотивированно странном подмножестве бенчмарков.
— 97 задач из HCAST: инженерные задачи от 30 сек до 30 минут
— 7 сложных ML задач из RE-Bench по 8 часов каждая
— 66 очень простых софтверных задач от 1 до 30 секунд (новый бенчмарк, Software atomic actions, SWAA)
— 1 (одна, Карл!) задача из GAIA
🌸Что не так с такими оценками?
— если бы это было так просто, новую метрику бы вводить в целом не потребовалось, можно было бы взять 100+, а то и 1000+ задач предыдущих лет (у нас что, дефицит бенчмарков??) и спокойно построить результат. К сожалению, так не получилось, поэтому пришлось черри-пикать задачи и даже придумывать новые, которые бы дали нужную картину.
— сложность и время выполнения задачи — не одно и то же, можно придумать много долгих тупых задач;
— даже если считать, что в целом это правда, что мы постепенно научились автоматизировать более сложные задачи (конечно), то давайте прямо скажем, что улучшение качества происходит за счет разных компонент прогресса: доступности обучающих данных, бюджета на разметку, вычислительного бюджета на масштабирование модели, и самое интересное — за счет алгоритмической новизны. Все эти факторы имеют совершенно разный вес в каждой из приведенных задач. Соотношение этих факторов во многом для closed source моделей нам совершенно не известно. Смысла искать в них общую экспоненциальную тенденцию немного.
— компьют и данные не скейлятся по экспоненте, при этом только их вклад является наиболее предсказуемым; а алгоритмические улучшения отдельно без скейлинга трудно прогнозировать.
В общем и целом, перебор результатов, чтобы найти экспоненту — это уже самостоятельная бизнес-модель и вообще, залог будущих инвестиций.
Ну и напоследок, результаты опроса AAAI 2025 :"Большинство респондентов (76%) утверждают, что «масштабирование текущих подходов к ИИ» для создания AGI «маловероятно» или «крайне маловероятно» приведет к успеху, что вызывает сомнения относительно того, достаточны ли текущие парадигмы машинного обучения для достижения AGI."
🟣Пост METR
🟣Arxiv
Ресерчил тут идеи опенаи, как насчёт убивать синов которые много выебываются?
Читать полностью…Кстати, генерация картинок в Sora тоже доступна...
Читать полностью…Готов увидеть будущее искусственного интеллекта? 🧠
GoCloud — масштабная конференция про облака и AI. Здесь ML-инженеры, дата сайентисты, разработчики и архитекторы обмениваются лучшими практиками и знаниями.
В программе:
▫ презентация платформы для работы с AI&ML — от идеи до результата
▫ анонс новых сервисов для работы с GenAI
▫ реальный кейс трансформации клиентского сервиса с помощью AI
▫ анонс сервиса для простого и быстрого запуска ML-моделей в облаке
30+ докладов, нетворкинг с экспертами и live-демо сервисов ждут тебя 10 апреля.
Регистрация по ссылке 👈
🥇 Первое место на NeurIPS Lux AI 3
За первое место соперничали в основном только три тпоовые команды. Давайте разберем ключевые решения победителей соревы:
Массовый фичинжиниринг
• Создали более 1000+ признаков для каждого тайла (напомню, их размер — 24×24)
•Сами написали PPO с V-trace на PyTorch
• Тоже двухголовая архитектура. Одна голова выбирает действие, а вторая определяет, куда стрелять, если действие связано с выстрелом
• Приделали еще и голову, которая предсказывает, куда шагнут враги в следующий момент, даже если враг не наблюдается. Таким образом, модель научилась стрелять «вслепую» 👀
• Обучались в формате bfloat16 на 1.5 млрд матчей. Всего за всю соревновательную сессию сыграли около 20 млрд матчей ⚡
Все другие секреты PPO уже разобраны, поэтому давайте сосредоточимся на поистине уникальном приеме команды:
🔥 Противодействие Imitation Learning
• С первого люкса команда понимала, что многие полагаются на imitation learning, и решила активно противодействовать этому.
• Были обучены две модели — слабая и сильная (предыдущая лучшая и текущая) — с рандомным выбором, какая из них будет играть во время инференса.
• Сильная модель работала всего в 15% случаев, но писала об этом в логи игры, позволяя после матча распарсить и понять какая модель играла и замерять эффект. Все остальное время учили IL оппонентов плохому
• Анализ логов после матчей позволял точно оценить преимущества сильной модели относительно предыдущей. К тому же, топовые команды генерировали около 1000 матчей в день (из них ~150 с сильной моделью), так что можно было проверить статзначимость улучшения.
• Под конец модель настолько раздулась, что две модели не помещались в сабмишн, так что пришлось оставить только одну и добавить к её атрибутам шум для того, чтобы портить трейн сет всем подражателям
#lux
К слову о вакансиях — вероятно, про Лунапарк вы все тут и так знаете, но всё же.
Плюсы: высокие вилки, технические рекрутеры, вакансии в новые интересные стартапы — например, через них можно было зайти в Perplexity на очень ранней стадии. Смешно пишут, топят за сейфети.
Минусы: немного дрочат на олимпиадников, топят за сейфети 🌚
Прямо сейчас есть из ML / ресёрча:
➡️ ML инженеры и инфра в Tzafon.
$150k-500k, SF (ну или Тель-Авив).
➡️ Research Scientist в HeyGen.
$180k-350k в год + доля, но если вы гений, то можно больше. Виза в США без лотереи.
➡️ AI Infrastructure Engineer в HeyGen, всё то же самое.
➡️ Ресёрчеры в Tilde.
$150k-220k + щедро доли, США или удалёнка.
Interpretability от челов из Стэнфорда, ранняя стадия.
➡️ ML Engineer в Atla. $135k-400k + доля, Лондон.
Evals стартап.
➡️ ML инженеры и ресёрчеры в METR.
$150k-365k, Беркли без лотереи.
Evals лаба по рисованию экспоненты, если вы такое любите.
➡️ Кванты: раз, два, три.
➡️ Что-то ещё регулярно появляется в канале.
Подаваться через рекрутеров в контактах скорее повышает ваши шансы, чем понижает. Заодно они попинают нанимающего менеджера и расскажут о ваших достоинствах, нормально передадут вам фидбек и при желании предложат другие неочевидные вакансии под ваш профиль
И Грег который это постил уже не работает ещё работает, и половина команды, но наконец то завозят картинки в 4o!
There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study
TLDR:
1) qwen_ы из коробки умеют соблюдать чат темплей и генерировать aha moment, а llama нет
2) без r1 systemprompt получается лучше
3) у авторов скор на бенче не корелировал с длинной ответа
Что это значит для нас? То что мы опять не понимаем RL что то докидывает кроме метрик на математике или нет.
blog
Чёт сегодня пять человек пришло в личку с рассказами про сокращения.
Cvшники,nlpшники и прочие ищут работу, пишите в @transformerslovedeatch если у вас есть вакансии в Европе/с удаленкой по миру/в России
В х5 ищут cv-nlp-audio ребята
@loalkota
Рсхб ищут всех-всех-всех nlpшников, а так же cvшников genai и тд @sharthZ23
Дорогие читатели, а во сколько лет вы перестали верить в то, что если строить российские LLM по рецепту "мы сделаем то же самое, только своё", то это позволит нашей науке обогнать запад?
Пишите ваши ответы в комментарии
@globminsearch
>ну помимо охлажденного напитка на выбор и оральных ласок под столом во время ожидания, должна как минимум воспроизводить сама себя, искать китайский кластер, заработать на претрейн и отправить по почте жёсткий диск с чекпоинтами
А эта ваша наука точно не магия?
(Часть 4)