(это flux redux)
А теперь представьте что в опенсурсе без цензуры с этим натворят? Будущее прекрасно
Любая задача это рексис, LLM это задача рекомендации следующего токена. Жаль не все понимают 😬
Читать полностью…#от_подписчика
Студент, который пытается совмещать учёбу, исследовательскую деятельность и личную жизнь, попутно работая официантом:
https://huggingface.co/Efficient-Large-Model/Sana_1600M_512px
вышла
демо: https://nv-sana.mit.edu/
😮 R1-Lite - бесплатный конкурент o1, который скоро релизнут в опенсорс
Китайцы из DeepSeek, несмотря на крайне ограниченные ресурсы, продолжают выдавать охренительные модели мирового уровня. Их новая модель, R1-Lite, очень близка по бенчмаркам к o1-preview, где-то даже превосходит. Она также может тратить десятки тысяч токенов на размышления, при этом чем больше токенов, тем лучше результаты. DeepSeek говорят, что это только начало и тизерят модели ещё мощнее.
По бенчмаркам модель лучше o1-preview в кодинге и математике, но отстаёт в остальных задачах. С o1-mini, которая как раз в кодинге и математике сильнее, чем o1-preview (не спрашивайте), на графиках не сравнивают. Для примера, по бенчам OpenAI, у o1-preview Elo на Codeforces 1258, у o1-mini и полноценной o1 - 1650 и 1673 соответственно. По моим личным тестам, R1-Lite тоже отстаёт от моделей OpenAI.
Но насколько лучше или хуже R1-Lite, чем разные версии o1, это не так важно, ведь изначальная моделька сильно меньше и хуже. Важно, что inference time scaling заставили работать за пределами OpenAI, причём без дурацких ограничений - в отличие от o1, DeepSeek дают полный доступ к размышлениям модели. К тому же скоро обещают API и опенсорс-релиз, к которым будет прилагаться Technical Report о тренировке, а они у DeepSeek очень детальные. То есть даже если другие лабы не смогли воспроизвести inference time scaling самостоятельно, через пару месяцев свой o1 будет у всех. Вместе с base и instruct весами будут релизить ещё и reasoner.
Ещё один нюанс - DeepSeek всё ещё отрабатывают рецепт тюна на маленькой модели, перед тем как потратить заметные ресурсы на тюн большой. Отсюда и Lite в названии модели. Не факт, что она основана на DeepSeek V2 Lite, но скорее всего её смогут запустить простые смертные. Полноценный R1 будет гораздо умнее.
Попробовать можно на их сайте, включив «Deep Think». Дают 50 сообщений в день, причём абсолютно бесплатно.
chat.deepseek.com
@ai_newz
Интересно кстати к чему полезному можно приложить такую скорость. Для groq не придумали, но там и ллама всего 70б была. Посмотрим что будет тут.
Читать полностью…К сожалению произошла техническая накладка и не все смогли зайти. Выкладываем слайды и запись лекции.
YouTube
Slides
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:
“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”
Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
Мистраль забили(?) окупать le platform и дропнули large модели на хф тоже
модель
А еще выложили ОГРОМНЫЙ(120+b) pixtral lol который скорее всего сопостовим по качеству с molmo
В метриках "забыли" molmo и qwen
gpt5, 3 opus, gemini 2 задерживаются, выходят какие то минорные релизы типа 4o, o1(соре я не решаю каждый день школьную матешу), а сми пишут про scaling is hitting wall. Опять зима, agi 2027 не будет?
- 4о, sonnet 3.5 и прочее учились на сопостовимом с прошлым поколением компьюте, потому что...
- текущее поколение nvidia банально не доехало до основных потребителей)))) Проще говоря все учат на н100, h200 и b100 нет почти не у кого(google, nebius в этом квартале ограниченно их выдают).
Размер кластера который вы можете использовать с эффективной сетевой задержкой вообще то не бесконечен. А еще обучение не бесконечно масштабируется по эффективности(читать подробно)
- FP8 пока что пиздец какой маркетинг, учить(претренить на nvidia) в нем никто не умеет без потерь
- Магические железки есть только у гугла, но они не значительно помогают.
- жить на своих железках ОЧЕНЬ И ОЧЕНЬ сложно, без поддержки комьюнити - нереально
- Данные у всех примерно одинаковые, разница между закрытыми данными у oss и закрытых моделей вероятно минимальна(не считая синты)
- Новых (стоящих) архитектур пока все еще нет, стоящих работ пока все еще нет
- Agentов учатся учить с sft степа, пока что ничего дельного не выходит, думаю вопрос нормальной синты(ее все еще нет, потому что нет нормальных env, а нормальных env нет потому что вебмакаки не умеют в perfomance и эти ваши multi cpu)
- Мы не увидим значимых шагов качества базовых моделей еще от трех месяцев до года.
- Китайские компании вероятно выкатят еще больше годноты. kling, qwen - только начало.
- ебучих копий o1 и cot/mcts/долгих генераций будет ОЧЕНЬ много
- bitter lesson придет за всеми кто его не усвоил.
А, чо там по качеству фотомоделей? cигмоиду достигли уже? пальцы починились?)
Собственно качество фотомоделей пришло к тому что уже не понятно - где mj, flux и тд. Разница есть но ее надо искать под микроскопом, raw режим flux пробил фото реализм и теперь генерации дейстивительно не отличимы от фото, но размер простыни промпта для такого качества абсолютно неадекватен.
Вы правда думаете что с текстом будет по другому?
https://m.tb.cn/h.TYeNYaV?tk=hs1E3sdmmkX
3400 usd за 48гб карту, которая быстрее чем а6000 и кажется быстрее l40s
Триллионный диффузионный МОЕ мультимодальный трансформер на KAN и обучением на flowmatching для задачи рекомендаций
Читать полностью…https://fxtwitter.com/yoavhacohen/status/1859962825709601035
Дожили🥹
blog не о чем, но.
Black Forest дропнули toolы для flux и они прекрасны!
Ipa ака redux
Canny edges cn
Fill для inpaint и outpaint
https://thematrix1999.github.io/
Ни дня без world models. Теперь вместо Майнкрафта обучили на видосах из forza
Кода и демо пока нет.
Любопытное наблюдение: tech-компании теряют до 60+ часов в месяц на расчёты с удаленными сотрудниками…
Стандартная ситуация: компания на Кипре или в Сербии, а команду разбросало по миру. Со всеми нужно заключить договоры, а потом каждый месяц вручную готовить закрывающие документы и отправлять деньги в десятки и сотни разных банков.
Так бумажный процесс превращается в неприятную рутину и затягивается на десятки часов. Тут нужен огромный ресурс фаундера или целая финансовая команда, чтобы платить всем вовремя. В итоге бизнес перегружается операционкой и теряет фокус с реального развития.
Но с платформой 4dev.com всё гораздо проще!
⭐ 4dev.com позволяет платить сотням сотрудникам в любой точке мира и автоматически получать закрывающие документы по каждому платежу. Нужно подписать всего 1 оферту с 4dev.com вместо 100+ договоров с исполнителями!
- мгновенно получайте закрывающие документы по каждой выплате
- все закрывающие документы соответствуют международным стандартам (МСФО)
- свободно платите в крипте, USD, EUR или других валютах
- одной головной болью станет меньше — и вы уделите больше времени развитию бизнеса
Запишитесь на демо в 1 клик. Погрузимся в ваши задачи и поможем найти решение именно для вашего бизнеса!
Ресерчам приходится делать ОТВРАТИТЕЛЬНЫЕ вещи когда скейлинг не работает, вот примеры:
- ПОСМОТРЕТЬ данные руками
- открыть помимо конфига обучения ещё и код(ваще мясо)
- перестать придумывать свои велосипеды когда фреймворк перестал работать
- скачать ВСЕ страницы документации pytorch lighting, потому что открывается только из под впна
- выкинуть любимый скрипт на torch lighting для обучения
- обновить transformers
- ПОСМОТРЕТЬ ДОКУМЕНТАЦИЮ
- Закрыть х, реддит, доту и отменить предзаказ на turms
Мы достигли лимита по юзерам, чтож, спасибо Яндекс телемост за 40 юзеров в звонке и спасибо что явно упомянули это, выложим запись!
Читать полностью…cобственно мы наблюдаем это в том числе по mmlu(бенч говно, но на остальных будут очень похожие картинки)
Oss большие тушки стали не значительно хуже закрытых, но для открытых сильно больше инфры, так что вопрос времени когда на агентских бенчах и прочем oss обгонет cls.
Ну и кажется aren_а доломали, теперь она окончательно сломана. по другому обьяснить gemeni на 1 месте не могу.