lovedeathtransformers | Unsorted

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4253

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

🌸METRики хайпа: найти экспонентциальный рост любой ценой🌸
#nlp #про_nlp #nlp_papers

На прошлой неделе вышел анализ от METR (Model Evaluation & Threat Research) — независимой организации оценки способностей и рисков ИИ систем.

🌸TLDR: предлагается измерять производительность ИИ с точки зрения продолжительности задач, которые могут выполнить агенты.
При этом вводится новый бенчмарк и показывается, что продолжительность решаемых задач постоянно экспоненциально растет в течение последних 6 лет, и удваивается примерно раз в 7 месяцев. Экстраполяция этой тенденции предсказывает, что менее чем через пять лет мы увидим агентов, которые смогут самостоятельно выполнять большую часть программных задач, на которые в настоящее время у людей уходят дни или недели.

Для точности вводится новая метрика: учитывается время, которое обычно требуется людям для выполнения задач, которые модели ИИ могут выполнить с 50%-ным успехом.
У Claude 3.7 Sonnet, например, этот временной горизонт около 50 минут.

Красивая экспонента и оценки будущих горизонтов агентов уже ушли в заголовки.

🌸А теперь самое интересное: на чем меряем?

На немотивированно странном подмножестве бенчмарков.
— 97 задач из HCAST: инженерные задачи от 30 сек до 30 минут
— 7 сложных ML задач из RE-Bench по 8 часов каждая
— 66 очень простых софтверных задач от 1 до 30 секунд (новый бенчмарк, Software atomic actions, SWAA)
— 1 (одна, Карл!) задача из GAIA

🌸Что не так с такими оценками?

— если бы это было так просто, новую метрику бы вводить в целом не потребовалось, можно было бы взять 100+, а то и 1000+ задач предыдущих лет (у нас что, дефицит бенчмарков??) и спокойно построить результат. К сожалению, так не получилось, поэтому пришлось черри-пикать задачи и даже придумывать новые, которые бы дали нужную картину.

— сложность и время выполнения задачи — не одно и то же, можно придумать много долгих тупых задач;

— даже если считать, что в целом это правда, что мы постепенно научились автоматизировать более сложные задачи (конечно), то давайте прямо скажем, что улучшение качества происходит за счет разных компонент прогресса: доступности обучающих данных, бюджета на разметку, вычислительного бюджета на масштабирование модели, и самое интересное — за счет алгоритмической новизны. Все эти факторы имеют совершенно разный вес в каждой из приведенных задач. Соотношение этих факторов во многом для closed source моделей нам совершенно не известно. Смысла искать в них общую экспоненциальную тенденцию немного.

— компьют и данные не скейлятся по экспоненте, при этом только их вклад является наиболее предсказуемым; а алгоритмические улучшения отдельно без скейлинга трудно прогнозировать.

В общем и целом, перебор результатов, чтобы найти экспоненту — это уже самостоятельная бизнес-модель и вообще, залог будущих инвестиций.

Ну и напоследок, результаты опроса AAAI 2025 :"Большинство респондентов (76%) утверждают, что «масштабирование текущих подходов к ИИ» для создания AGI «маловероятно» или «крайне маловероятно» приведет к успеху, что вызывает сомнения относительно того, достаточны ли текущие парадигмы машинного обучения для достижения AGI."

🟣Пост METR
🟣Arxiv

Читать полностью…

Love. Death. Transformers.

Ресерчил тут идеи опенаи, как насчёт убивать синов которые много выебываются?

Читать полностью…

Love. Death. Transformers.

Кстати, генерация картинок в Sora тоже доступна...

Читать полностью…

Love. Death. Transformers.

Готов увидеть будущее искусственного интеллекта? 🧠

GoCloud — масштабная конференция про облака и AI. Здесь ML-инженеры, дата сайентисты, разработчики и архитекторы обмениваются лучшими практиками и знаниями.

В программе:
презентация платформы для работы с AI&ML — от идеи до результата
анонс новых сервисов для работы с GenAI
реальный кейс трансформации клиентского сервиса с помощью AI
анонс сервиса для простого и быстрого запуска ML-моделей в облаке

30+ докладов, нетворкинг с экспертами и live-демо сервисов ждут тебя 10 апреля.
Регистрация по ссылке 👈

Читать полностью…

Love. Death. Transformers.

🥇 Первое место на NeurIPS Lux AI 3

За первое место соперничали в основном только три тпоовые команды. Давайте разберем ключевые решения победителей соревы:

Массовый фичинжиниринг
• Создали более 1000+ признаков для каждого тайла (напомню, их размер — 24×24)
•Сами написали PPO с V-trace на PyTorch
• Тоже двухголовая архитектура. Одна голова выбирает действие, а вторая определяет, куда стрелять, если действие связано с выстрелом
• Приделали еще и голову, которая предсказывает, куда шагнут враги в следующий момент, даже если враг не наблюдается. Таким образом, модель научилась стрелять «вслепую» 👀
• Обучались в формате bfloat16 на 1.5 млрд матчей. Всего за всю соревновательную сессию сыграли около 20 млрд матчей ⚡

Все другие секреты PPO уже разобраны, поэтому давайте сосредоточимся на поистине уникальном приеме команды:

🔥 Противодействие Imitation Learning
• С первого люкса команда понимала, что многие полагаются на imitation learning, и решила активно противодействовать этому.
• Были обучены две модели — слабая и сильная (предыдущая лучшая и текущая) — с рандомным выбором, какая из них будет играть во время инференса.
• Сильная модель работала всего в 15% случаев, но писала об этом в логи игры, позволяя после матча распарсить и понять какая модель играла и замерять эффект. Все остальное время учили IL оппонентов плохому
• Анализ логов после матчей позволял точно оценить преимущества сильной модели относительно предыдущей. К тому же, топовые команды генерировали около 1000 матчей в день (из них ~150 с сильной моделью), так что можно было проверить статзначимость улучшения.
• Под конец модель настолько раздулась, что две модели не помещались в сабмишн, так что пришлось оставить только одну и добавить к её атрибутам шум для того, чтобы портить трейн сет всем подражателям
#lux

Читать полностью…

Love. Death. Transformers.

К слову о вакансиях — вероятно, про Лунапарк вы все тут и так знаете, но всё же.

Плюсы: высокие вилки, технические рекрутеры, вакансии в новые интересные стартапы — например, через них можно было зайти в Perplexity на очень ранней стадии. Смешно пишут, топят за сейфети.

Минусы: немного дрочат на олимпиадников, топят за сейфети 🌚

Прямо сейчас есть из ML / ресёрча:
➡️ ML инженеры и инфра в Tzafon.
$150k-500k, SF (ну или Тель-Авив).

➡️ Research Scientist в HeyGen.
$180k-350k в год + доля, но если вы гений, то можно больше. Виза в США без лотереи.

➡️ AI Infrastructure Engineer в HeyGen, всё то же самое.

➡️ Ресёрчеры в Tilde.
$150k-220k + щедро доли, США или удалёнка.
Interpretability от челов из Стэнфорда, ранняя стадия.

➡️ ML Engineer в Atla. $135k-400k + доля, Лондон.
Evals стартап.

➡️ ML инженеры и ресёрчеры в METR.
$150k-365k, Беркли без лотереи.
Evals лаба по рисованию экспоненты, если вы такое любите.

➡️ Кванты: раз, два, три.

➡️ Что-то ещё регулярно появляется в канале.

Подаваться через рекрутеров в контактах скорее повышает ваши шансы, чем понижает. Заодно они попинают нанимающего менеджера и расскажут о ваших достоинствах, нормально передадут вам фидбек и при желании предложат другие неочевидные вакансии под ваш профиль

Читать полностью…

Love. Death. Transformers.

И Грег который это постил уже не работает ещё работает, и половина команды, но наконец то завозят картинки в 4o!

Читать полностью…

Love. Death. Transformers.

There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study
TLDR:

1) qwen_ы из коробки умеют соблюдать чат темплей и генерировать aha moment, а llama нет
2) без r1 systemprompt получается лучше
3) у авторов скор на бенче не корелировал с длинной ответа

Что это значит для нас? То что мы опять не понимаем RL что то докидывает кроме метрик на математике или нет.

blog

Читать полностью…

Love. Death. Transformers.

Чёт сегодня пять человек пришло в личку с рассказами про сокращения.

Cvшники,nlpшники и прочие ищут работу, пишите в @transformerslovedeatch если у вас есть вакансии в Европе/с удаленкой по миру/в России


В х5 ищут cv-nlp-audio ребята
@loalkota

Рсхб ищут всех-всех-всех nlpшников, а так же cvшников genai и тд @sharthZ23

Читать полностью…

Love. Death. Transformers.

Дорогие читатели, а во сколько лет вы перестали верить в то, что если строить российские LLM по рецепту "мы сделаем то же самое, только своё", то это позволит нашей науке обогнать запад?

Пишите ваши ответы в комментарии

Читать полностью…

Love. Death. Transformers.

@globminsearch
>ну помимо охлажденного напитка на выбор и оральных ласок под столом во время ожидания, должна как минимум воспроизводить сама себя, искать китайский кластер, заработать на претрейн и отправить по почте жёсткий диск с чекпоинтами

Читать полностью…

Love. Death. Transformers.

А эта ваша наука точно не магия?

(Часть 4)

Читать полностью…

Love. Death. Transformers.

Стартап по рисованию экспоненты, прочитал все статьи Metr - стабильное ощущение что челы ищут задачи где можно показать прирост/само осознанность. Помнится одно время искали у gpt4 sparks of agi, прошло два года, ищут у 4.5, а она в среднем не умнее.

Читать полностью…

Love. Death. Transformers.

Смешнее с каждым разом, на этот раз тест от Николоса Карлини, он работал над кучей вещей связанных с Ai safety до того как это стало Ai safety

https://nicholas.carlini.com/writing/2025/thoughts-on-future-ai.html

Читать полностью…

Love. Death. Transformers.

челы из seasame labs сделали CSM -

Архитектурно это Llama с нюансами - теперь строят text+audio семантические токены, а чтобы генерировать аудио используют тонкую Decoder надстройку которая генерирует акустические токены. В страших версиях прям сота сота, еще и очень быстро и вероятно будет очень дешево.

blog
model

Читать полностью…

Love. Death. Transformers.

ура, товарищи всё-таки выложили в hf русско чувашский корпус!

https://huggingface.co/datasets/alexantonov/chuvash_russian_parallel
https://huggingface.co/datasets/alexantonov/chuvash_voice

Читать полностью…

Love. Death. Transformers.

Чем больше я смотрю вопросы в lmsys тем меньше верю в бога.

Читать полностью…

Love. Death. Transformers.

https://arxiv.org/abs/2503.20314 папир выложили

архитектурно все это уже было, но сделали sota vae, cобрали небольшой бенч и очень чистый датасет

Читать полностью…

Love. Death. Transformers.

буквально первый релиз со времен dalle2 когда я В ВОСТОРГЕ

Читать полностью…

Love. Death. Transformers.

новая 4о чертовски веселая

Читать полностью…

Love. Death. Transformers.

https://huggingface.co/Djrango/Qwen2vl-Flux

Полистайте на досуге, любыпотнвя штука. Не утверждаю что у oai что то такое, но посмотреть что сделают в opensource интересно. Простые штуки типа blending, restyle и прочее оно умеет делать.

Вихревых релизов на эту тему не будет.

Читать полностью…

Love. Death. Transformers.

Deepseek V3 0324

По бенчам сопоставимо с r1/sonnet3.7/4.5, но стоит понимать что на аренах вероятно будет ниже и есть куча кейсов где эти бенчи не будут иметь значения.


model

Читать полностью…

Love. Death. Transformers.

Коллеги из https://llmarena.ru/ не забрасывают проект, продолжают добавлять новые модели и функционал. Наконец заехала фича которую я давно просил - тг версия, даже в виде красивого UI!


tg app

Читать полностью…

Love. Death. Transformers.

Scale-wise Distillation of Diffusion Models
[Статья] [Демка] [Код soon]

Введение

Диффузионные модели на протяжении последних несколько лет удерживают пальму первенства среди семейств генеративных моделей во многих приложениях. Однако их фундаментальным ограничением является многошаговое сэмплирование, из-за чего генерация занимает много времени.

Научное сообщество предложило вагон и маленькую тележку различных процедур дистилляции многошаговых моделей в малошаговые. Но при приближении количества шагов к 1-му качество неизбежно просаживается даже для самых продвинутых подходов.

Отсюда мысль 🤔 - а что если ускорить генерацию за счет удешевления шагов сэмплирования?

Мы с коллегами из Yandex Research предложили метод дистилляции в несколько-шаговую генерацию, где разрешение изображения увеличивается постепенно, на каждом шаге генерации (SwD). За счет этого удается достичь более чем 2х кратного ускорения по сравнению с эквивалентной дистилляцией в фиксированном разрешении.

Читать полностью…

Love. Death. Transformers.

Привет, слышал вы там нейросетями занимаетесь, тема перспективная есть, можете сделать чтобы вот прям как человек общалась?

Читать полностью…

Love. Death. Transformers.

крайне любопытные эвалы от Саши Кукушкина, например оказывается что ребята из ruadapt победили почти всех в номинации "как затюнить qwen 32b и не просадить", а yandex gpt мы в вихрях затюнили хуже чем Илья(что тоже любопытно)

Полистайте репозиторий, крайне любопытно

Читать полностью…

Love. Death. Transformers.

Что должна уметь модель за 150/600 I/o?

Пишите промпты погоняю с утра самые интересные

Читать полностью…

Love. Death. Transformers.

*швыряю деньги в монитор, в надежде получить такого же*

Читать полностью…

Love. Death. Transformers.

Языковая 3Д-генерация.

У нас есть некоторое количество сервисов для 3Д-генерации, о которых я неоднократно писал.
Проблема там в основном в топологии (каша) и в качестве текстур. Плюс в ограниченности сцены - как правило это один объект.

Уже неделю как интернет бомбит от связки Блендора и Клода 3.7 через MCP, о которой я тоже писал.
Ну и действительно, поглядите на пример.

Все, что потребовалось здесь, это сгенерировать картинку, а потом сказать Клюду:
"Recognize any elements of this scene individually. Describe them precisely, then build them in a scene."

"Распознай все элементы этой сцены по отдельности. Опишите их точно, а затем сделай из них сцену".

"Традиционные" 3Д-генераторы тоже пытаются распознать картинку, потом сгенерить ее с разных ракурсов, а потом восстановить 3Д из нескольких картинок. А Клод пытается "собрать\отрендерить сцену" с помощью, грубо говоря, скриптов для Блендора - запуская разные команды, о которых он в курсе. Процедурное моделирование на стрероидах LLM.

Понятно, что пока довольно примитивные сцены, понятно, что замоделить голову неведомого ему персонажа будет сложновато, но дайте время.

Интересно подумать, над специальным файнтюном как для распознавания картинок, так и для (и особенно) для Блендора. Файнтьюн, который обучен на последовательностях действий и сценах.

Просто сцены, которые генерит Клод, отлично редактируются, анимируются - это нормальная геометрия, а не обмылки из 3Д-генераторов.

Интересно, посмотреть, что будет дальше.

@cgevent

Читать полностью…

Love. Death. Transformers.

Окей парни, вайбтестим реактор

...5 минут спустя

Cntrl z5 раз нажали, почему не работает???

Читать полностью…
Subscribe to a channel