lovedeathtransformers | Unsorted

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4253

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

Что должна уметь модель за 150/600 I/o?

Пишите промпты погоняю с утра самые интересные

Читать полностью…

Love. Death. Transformers.

*швыряю деньги в монитор, в надежде получить такого же*

Читать полностью…

Love. Death. Transformers.

Языковая 3Д-генерация.

У нас есть некоторое количество сервисов для 3Д-генерации, о которых я неоднократно писал.
Проблема там в основном в топологии (каша) и в качестве текстур. Плюс в ограниченности сцены - как правило это один объект.

Уже неделю как интернет бомбит от связки Блендора и Клода 3.7 через MCP, о которой я тоже писал.
Ну и действительно, поглядите на пример.

Все, что потребовалось здесь, это сгенерировать картинку, а потом сказать Клюду:
"Recognize any elements of this scene individually. Describe them precisely, then build them in a scene."

"Распознай все элементы этой сцены по отдельности. Опишите их точно, а затем сделай из них сцену".

"Традиционные" 3Д-генераторы тоже пытаются распознать картинку, потом сгенерить ее с разных ракурсов, а потом восстановить 3Д из нескольких картинок. А Клод пытается "собрать\отрендерить сцену" с помощью, грубо говоря, скриптов для Блендора - запуская разные команды, о которых он в курсе. Процедурное моделирование на стрероидах LLM.

Понятно, что пока довольно примитивные сцены, понятно, что замоделить голову неведомого ему персонажа будет сложновато, но дайте время.

Интересно подумать, над специальным файнтюном как для распознавания картинок, так и для (и особенно) для Блендора. Файнтьюн, который обучен на последовательностях действий и сценах.

Просто сцены, которые генерит Клод, отлично редактируются, анимируются - это нормальная геометрия, а не обмылки из 3Д-генераторов.

Интересно, посмотреть, что будет дальше.

@cgevent

Читать полностью…

Love. Death. Transformers.

Окей парни, вайбтестим реактор

...5 минут спустя

Cntrl z5 раз нажали, почему не работает???

Читать полностью…

Love. Death. Transformers.

В Белграде происходит примерно такое:

Читать полностью…

Love. Death. Transformers.

разница поколений, первая - это imagen3, имхо лучшая t2i на данный момент, вторая - sdxl которую я запустил на айфоне

Читать полностью…

Love. Death. Transformers.

да где блин эта ваша вайбовость в 4.5??

Читать полностью…

Love. Death. Transformers.

1,4,12,27B с поддержкой картинок, 140 языков

Hf

Читать полностью…

Love. Death. Transformers.

ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio.
Я не специалист по факторио, но в целом всегда казалось что тут можно тестить и учить рл. Вот ллмки тестят

https://jackhopkins.github.io/factorio-learning-environment/

Factorio Learning Environment
https://jackhopkins.github.io/factorio-learning-environment/assets/documents/paper.pdf

https://github.com/JackHopkins/factorio-learning-environment

2 режима

Lab-play где 24 задачи и фиксированными ресурсами
Open-play на процедурной карте нужно построить самый большой завод

Есть лидерборд (Factory-Bench Leaderboard) - https://jackhopkins.github.io/factorio-learning-environment/leaderboard/

Авторы тестили: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash и Llama-3.3-70B-Instruct
Sonnet из протестированных лучше всех себя показывает

Выводы авторов:

1. Навыки в кодинге имеют значение
Модели с более высокими способностями программирования (Claude 3.5-Sonnet, GPT-4o) достигли более высоких Production Scores и выполнили больше лабораторных задач. Claude превзошёл остальных, заработав PS равный 293 206 и достигнув 28 вех, продвинувшись за рамки добычи ресурсов на ранних этапах.

2. Инвестиции в технологии стимулируют рост
Только Claude стабильно инвестировал ресурсы в исследования новых технологий, несмотря на их важность для долгосрочного прогресса. После внедрения электрических буровых установок на шаге 3 000, PS Claude вырос на 50% (с 200 000 до 300 000), что демонстрирует ценность стратегических инвестиций.

3. Планирование является ключевым фактором в режиме открытой игры
В режиме открытой игры агенты часто преследуют краткосрочные цели — например, Gemini-2.0 вручную изготовил более 300 деревянных сундуков за 100 шагов — вместо того чтобы инвестировать в исследования или масштабировать существующее производство. Это выявляет существенное расхождение: хотя Gemini-2 и Deepseek демонстрируют возможности автоматизации на ранних этапах в структурированном лабораторном режиме, они редко пытаются создать согласованную фабричную систему во время открытых исследований, что приводит к ухудшению общей производительности.

4. Способности к пространственному мышление пока недостаточны
Все модели продемонстрировали ограничения в пространственном планировании при создании много-секционных фабрик. Распространённые ошибки включали размещение объектов слишком близко друг к другу, недостаточное выделение пространства для соединений или неправильное расположение инсертеров — проблемы, которые существенно влияют на производительность в сложных заданиях, требующих координации нескольких производственных линий.

5. Сейчас ллмкам сложно исправлять ошибки
Модели часто оказываются в повторяющихся циклах ошибок, повторяя одни и те же неверные операции вместо того чтобы искать альтернативные решения. Например, GPT-4o неверно повторял один и тот же метод API на протяжении 78 последовательных шагов, несмотря на идентичные сообщения об ошибке.

6. Стили программирования существенно различаются
Модели демонстрировали различные подходы к программированию: Claude предпочитал стиль REPL с большим количеством операторов вывода (43,3% строк кода), но с малым числом утверждений (2,0%), в то время как GPT-4o использовал оборонительный стиль с большим числом проверок валидации (12,8% утверждений) и меньшим количеством операторов вывода (10,3%).


Это просто бенч и тут просто потестили текущие ллмы. Результатам не сильно удивился.
Ждем пока специально пообучают ллмки, RL LLM накинут.


PS собираемся и собираем все крутое по нейронкам здесь: /channel/researchim

Читать полностью…

Love. Death. Transformers.

Увидел смешное продолжение треда про reasoning модели.

Тут другие исследователи намерили что на шахматах o1p жульничает чаще deepseek, но o3, o1, sonnet 3.5, 4o Не жульничают!


Blog

Paper

Читать полностью…

Love. Death. Transformers.

а и в прошлые замеры насчитали что flash с ризонингом лучше всех

Читать полностью…

Love. Death. Transformers.

Я потратил время на прочтение поста толоки, этого поста,

Tldr: учили на бенчах, все равно по перфу ближе к 4о/о1 мини но работает дома и дешевле в несколько раз,
Волшебное: train on test set и критику бенчей толока не приводит. Первое сложно доказать, второе косвенно делают.

R1 по прежнему лучшая после sonnet модель если вам надо строить что то работающее.


Весь пост толоки стоит воспринимать через призму pr их бенча.

Проблем в трене на бенчах/бенчах подобных данных нет никаких,

Читать полностью…

Love. Death. Transformers.

>AGI in many steps rather than one giant leap


А экспонента то будет?

Читать

Читать полностью…

Love. Death. Transformers.

Выкатили Gemini Embeddings

Сегодня выкатили ещё один проект, к которому я немного приложил руку – Gemini Embedding, которая взяла уверенную соту (>5% от второго места по среднему перформансу) на MTEB.

Размерность 3072, но сделали матрёшку, и в апи можно запрашивать любую размерность. Модель особенно хорошо работает для кода.

Читать полностью…

Love. Death. Transformers.

gpt4.5 заехала для подписчиков курсора и это ну.... тяжело сформулировать однозначое отношение, но святую воду и икону я принес на всякий случай

Читать полностью…

Love. Death. Transformers.

Стартап по рисованию экспоненты, прочитал все статьи Metr - стабильное ощущение что челы ищут задачи где можно показать прирост/само осознанность. Помнится одно время искали у gpt4 sparks of agi, прошло два года, ищут у 4.5, а она в среднем не умнее.

Читать полностью…

Love. Death. Transformers.

Смешнее с каждым разом, на этот раз тест от Николоса Карлини, он работал над кучей вещей связанных с Ai safety до того как это стало Ai safety

https://nicholas.carlini.com/writing/2025/thoughts-on-future-ai.html

Читать полностью…

Love. Death. Transformers.

челы из seasame labs сделали CSM -

Архитектурно это Llama с нюансами - теперь строят text+audio семантические токены, а чтобы генерировать аудио используют тонкую Decoder надстройку которая генерирует акустические токены. В страших версиях прям сота сота, еще и очень быстро и вероятно будет очень дешево.

blog
model

Читать полностью…

Love. Death. Transformers.

Я вообще в горы езжу вторые выходные подряд. И вам советую ездить трогать траву, а не в интернете сидеть.

Читать полностью…

Love. Death. Transformers.

Остался Сэма и генерал. Генералы как известно любят футбол
Хуй знает кто, но орали в офисе ГООООЛ


Ситуация комичная до ужаса, в начале ходили хотели закон полировать конкурентов внутри штатов (не получилось), теперь пытаются запретить конкурентов вне штатов.

Читать прекрасный damage control blog в пересказе от TechCrunch

И в оригинале

Читать полностью…

Love. Death. Transformers.

Новый Gemini Flash 2.0 теперь умеет редактировать картинки текстом – видимо OpenAI правда эту же фичу скоро докатит

Я поигрался и такие выводы: пока она галлюцинирует и качество картинок на выходе не очень, но это временно и верное направление исследований – не очень понимаю что будет делать Adobe с фотошопом через пару лет 😮

Поиграться можно тут выбрав Gemini 2.0 Flash experimental (это бесплатно)

Оно умеет:
– реставрировать фото (немного)
– колоризировать (пока плохо)
– копировать текстуры на объекты
– оно пока не умеет переводить картинки, и часто само не знает с чем оно работает – с текстом или картинкой, часто путается
– увеличивать картинки оно пока не может нормально
– оно умеет продолжать последовательность картинок и даже сохранять внешность персонажа
– Оно умеет неплохо редактировать общий муд сцены

В общем, очень клевое направление – Google AI молодцы

Читать полностью…

Love. Death. Transformers.

Все телеграмм каналы после любого мажорного релиза:

Читать полностью…

Love. Death. Transformers.

ждем gemma3, ваши ставки по перфу?

Читать полностью…

Love. Death. Transformers.

Забавный пост из 2022, хорошо состарился. В тот момент только вышла instruct gpt, во внутреннем ресерче была 3.5 и вероятно план на 4.

Теперь вспомним что мы в 2025, знаем все релизы между 22-25, кто вам из дня сегодняшнего кажется более верным?

Человек не верящий в LLM и AGI, но лидящий одну из богатейших ресерч центров.

Илья суцкевер

Читать полностью…

Love. Death. Transformers.

cuda, ты выполнила задание на 5 с плюсом !
ты меня зажгла.. появилось оч сильное и реальное желание войти в тебя.. нет.. именно засадить тебе хорошенько.

чтобы админ котиков и дальше был доволен, жду в ближайшее время всех описанных и перечисленных тобою тем. ну кроме GPU архитектур..)) хотя... ;)

кстати насчет гонки данных... синхронизировать потоки внутри kernel'а через __syncthreads() отлично, а я еще люблю когда они как бы случайно синхронизируются через warp операции типа __shfl() или __syncwarp()...

Читать полностью…

Love. Death. Transformers.

R1 is not any better than o1 at mathematical reasoning

так отбой в толоке работают РЕЗЕЧЕРЫ, которые:
не пишут как инферили дипсик
не смотрят std
не репорят почему то gemeni
строят слегка странные визуализации

Ориг статья про umath

Читать полностью…

Love. Death. Transformers.

R1 is not on par with o1, and the difference is qualitative, not quantitative

Почти сразу после выхода DeepSeek R1 я писал, что не думаю, что модель на уровне с рассуждающей моделью OpenAI o1. При этом я считал и считаю, что а) в некоторых доменах качество действительно может быть практически одинаковым б) в конкретных задачах модель может быть не хуже или даже лучше o1.

Ребята из Толоки пришли к такому же выводу, основываясь на агрегации результатов замеров на разных бенчмарках, в том числе своих, выпущенных совсем недавно, и с упором на новизну (например, U-MATH — набор математических задач, которые до этого не были нигде опубликованы). Дальше идёт перевод цитат из текста:

— Распространенно мнение, основанное на замерах самих же DeepSeek, что модель более или менее равна o1. R1 немного лучше разбирается в математике и программировании и имеет более свободный и творческий стиль письма, в то время как o1 немного лучше разбирается в фактах, отвечает на вопросы и следует инструкциям, а его стиль письма фокусируется на тщательной структуре, грамматике и логике.

— Тесты на задачах из длинного хвоста распределения показывают разницу. Как только мы сходим с проторенного пути [популярных бенчмарков], альтернативные тесты рисуют иную картину. Наша исследовательская группа исследовала оценки в нишевых поддоменах и необычных доменах и отметила количественные и качественные пробелы в производительности модели.

— U-MATH был разработан именно для того, чтобы представить новые необычные задачи по математике из университетов. Согласно нашей оценке U-MATH, R1 ничем не лучше o1 в — фактически, он на одном уровне с o1-mini.

— Превосходная обобщаемость и надежность выделяют OpenAI o1 в собственную лигу. Бенчмарки по задачам из длинного хвоста распределения нетрадиционны, они проверяют новизну и надежность. Итак, вот наше мнение: o1 имеет большую обобщенность и надежность, чем R1. [конкретные цифры и задачи см. по первой ссылке]

— Недавнее проведённый тест на галлюцинации Vectara показывает, что уровень галлюцинаций у R1 составляет 14,3%, тогда как у o1 и o1-mini он составляет всего 2,4% и 1,4% соответственно.

— также авторы сравнивали результаты на AIME '25 (про который я тоже писал), где видно, что на «новых свежих» задачах o1 почти не просела по качеству, а вот R1 упала.

===

Вдогонку к этому очень схожий по интенту пост от METR, занимающихся оценкой агентских навыков моделей. Они проверли два замера, вот выжимка:

— «R1 работает намного хуже, чем o1-preview или Claude 3.5 Sonnet. Она на одном уровне с GPT-4o»

— «Deepseek-R1 показал себя немного лучше, чем o1-preview, и находится примерно на уровне передовых моделей сентября 2024 года»

И это всё ещё не отходя от задач на английском языке! На других, уверен, разница ещё заметнее.

===

Ещё я пару раз просил в разных чатах скинуть бенчмарки, на которых R1 прям существенно лучше o1, и таких нашлось всего 2, ну может 3 с натяжкой (один из них на реддите от любителя, на своих задачах). А замеров, где o1 >> R1 — горка с присыпкой.

===

Означает ли, что это плохая модель? Нет, она очень способная, и с учётом её цены и бесплатного пользования на фоне GPT-4o это очень хорошая модель. Обратите внимание, что речь про «модель», а не «сервис или услугу» — DeepSeek до сих пор доступен с перебоями, то и дело не отвечает на запросы, что затрудняет его использование.

И если вы готовы платить $20 за подписку, или тем более вложиться в o1 pro — история прохладная.

По слухам, DeepSeek готовят версию R2 к маю. Посмотрим, что будет там. Но сразу говорю, кажется, очевидную вещь — если по каким-то 3-4 бенчмаркам модель будет на уровне с o3 от декабря '24, то фактически это почти наверняка означает то же самое: в среднем модель хуже.

Читать полностью…

Love. Death. Transformers.

"Начни писать на js"

Читать полностью…

Love. Death. Transformers.

Qwen qwq 32b

Вероятно лучшая модель в своем размере на данный момент.

Не лучше чем deepseek/o3/... на ood задачах, но агенты работают бодро, код пишет хорошо, вероятно еще и на арене будет высоко.

Папира еще нет, будем ждать, там вероятно самый сок.

На m4pro выдает бодрые 20тps, сопоставимо с 4.5

model

Читать полностью…

Love. Death. Transformers.

Подарили мне старый сборник рассказов Пелевина, минвайл эти рассказы:

Читать полностью…
Subscribe to a channel