#от_подписчика
Студент, который пытается совмещать учёбу, исследовательскую деятельность и личную жизнь, попутно работая официантом:
https://huggingface.co/Efficient-Large-Model/Sana_1600M_512px
вышла
демо: https://nv-sana.mit.edu/
😮 R1-Lite - бесплатный конкурент o1, который скоро релизнут в опенсорс
Китайцы из DeepSeek, несмотря на крайне ограниченные ресурсы, продолжают выдавать охренительные модели мирового уровня. Их новая модель, R1-Lite, очень близка по бенчмаркам к o1-preview, где-то даже превосходит. Она также может тратить десятки тысяч токенов на размышления, при этом чем больше токенов, тем лучше результаты. DeepSeek говорят, что это только начало и тизерят модели ещё мощнее.
По бенчмаркам модель лучше o1-preview в кодинге и математике, но отстаёт в остальных задачах. С o1-mini, которая как раз в кодинге и математике сильнее, чем o1-preview (не спрашивайте), на графиках не сравнивают. Для примера, по бенчам OpenAI, у o1-preview Elo на Codeforces 1258, у o1-mini и полноценной o1 - 1650 и 1673 соответственно. По моим личным тестам, R1-Lite тоже отстаёт от моделей OpenAI.
Но насколько лучше или хуже R1-Lite, чем разные версии o1, это не так важно, ведь изначальная моделька сильно меньше и хуже. Важно, что inference time scaling заставили работать за пределами OpenAI, причём без дурацких ограничений - в отличие от o1, DeepSeek дают полный доступ к размышлениям модели. К тому же скоро обещают API и опенсорс-релиз, к которым будет прилагаться Technical Report о тренировке, а они у DeepSeek очень детальные. То есть даже если другие лабы не смогли воспроизвести inference time scaling самостоятельно, через пару месяцев свой o1 будет у всех. Вместе с base и instruct весами будут релизить ещё и reasoner.
Ещё один нюанс - DeepSeek всё ещё отрабатывают рецепт тюна на маленькой модели, перед тем как потратить заметные ресурсы на тюн большой. Отсюда и Lite в названии модели. Не факт, что она основана на DeepSeek V2 Lite, но скорее всего её смогут запустить простые смертные. Полноценный R1 будет гораздо умнее.
Попробовать можно на их сайте, включив «Deep Think». Дают 50 сообщений в день, причём абсолютно бесплатно.
chat.deepseek.com
@ai_newz
Интересно кстати к чему полезному можно приложить такую скорость. Для groq не придумали, но там и ллама всего 70б была. Посмотрим что будет тут.
Читать полностью…К сожалению произошла техническая накладка и не все смогли зайти. Выкладываем слайды и запись лекции.
YouTube
Slides
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:
“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”
Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
Мистраль забили(?) окупать le platform и дропнули large модели на хф тоже
модель
А еще выложили ОГРОМНЫЙ(120+b) pixtral lol который скорее всего сопостовим по качеству с molmo
В метриках "забыли" molmo и qwen
gpt5, 3 opus, gemini 2 задерживаются, выходят какие то минорные релизы типа 4o, o1(соре я не решаю каждый день школьную матешу), а сми пишут про scaling is hitting wall. Опять зима, agi 2027 не будет?
- 4о, sonnet 3.5 и прочее учились на сопостовимом с прошлым поколением компьюте, потому что...
- текущее поколение nvidia банально не доехало до основных потребителей)))) Проще говоря все учат на н100, h200 и b100 нет почти не у кого(google, nebius в этом квартале ограниченно их выдают).
Размер кластера который вы можете использовать с эффективной сетевой задержкой вообще то не бесконечен. А еще обучение не бесконечно масштабируется по эффективности(читать подробно)
- FP8 пока что пиздец какой маркетинг, учить(претренить на nvidia) в нем никто не умеет без потерь
- Магические железки есть только у гугла, но они не значительно помогают.
- жить на своих железках ОЧЕНЬ И ОЧЕНЬ сложно, без поддержки комьюнити - нереально
- Данные у всех примерно одинаковые, разница между закрытыми данными у oss и закрытых моделей вероятно минимальна(не считая синты)
- Новых (стоящих) архитектур пока все еще нет, стоящих работ пока все еще нет
- Agentов учатся учить с sft степа, пока что ничего дельного не выходит, думаю вопрос нормальной синты(ее все еще нет, потому что нет нормальных env, а нормальных env нет потому что вебмакаки не умеют в perfomance и эти ваши multi cpu)
- Мы не увидим значимых шагов качества базовых моделей еще от трех месяцев до года.
- Китайские компании вероятно выкатят еще больше годноты. kling, qwen - только начало.
- ебучих копий o1 и cot/mcts/долгих генераций будет ОЧЕНЬ много
- bitter lesson придет за всеми кто его не усвоил.
А, чо там по качеству фотомоделей? cигмоиду достигли уже? пальцы починились?)
Собственно качество фотомоделей пришло к тому что уже не понятно - где mj, flux и тд. Разница есть но ее надо искать под микроскопом, raw режим flux пробил фото реализм и теперь генерации дейстивительно не отличимы от фото, но размер простыни промпта для такого качества абсолютно неадекватен.
Вы правда думаете что с текстом будет по другому?
https://m.tb.cn/h.TYeNYaV?tk=hs1E3sdmmkX
3400 usd за 48гб карту, которая быстрее чем а6000 и кажется быстрее l40s
Многие спрашивают почему мне не пофиг на использование AI. Отвечаю – я их ненавижу. Они ублюдки и выродки. Они хотят смерти нам, резерчерам.
Читать полностью…TDPO — потокенный DPO или просто регуляризация?
Авторы сегодняшней статьи предлагают метод потокенного Direct Preference Optimization (DPO), который на бумаге должен исправить некоторые проблемы оффлайн-обучения с подкреплением. Но на деле все оказывается не так просто.
DPO — метод обучения, не полагающийся на reward-модель. Здесь применяют датасет с размеченными парами запросов и ответов, чтобы натренировать генератор на контрастный лосс.
Проблема в том, что в случае с DPO мы работаем с вероятностями последовательностей целиком. Метод ограниченно контролирует поведение модели на уровне отдельных токенов. Это приводит к тому, что модель может ошибочно сильно повышать или понижать вероятность отдельных токенов значительно после совершенных ошибок.
Эту проблему можно нивелировать, если сделать DPO потокенным. Авторы статьи пытаются добиться этого.
Для начала они предлагают ввести необычное ограничение — сделать так, чтобы сумма наград всех токенов-продолжений для произвольного префикса была равна 0. Это довольно сильное допущение: например, если мы решаем задачу копирования какого-то куска текста, то будем сильно штрафовать модель за любое отклонение. Как результат — награда за правильный токен окажется очень большой. В этом случае, если при выборе между длинной и короткой строкой, модель будет склоняться к длинной строке.
Такое ограничение позволило авторам в их расчётах лосса избавиться от нормировочной константы вероятностного распределения. Чтобы ее вычислить, нужно суммировать награду по всем возможным ответам, а это невозможно, поэтому от константы при расчётах избавляются. В DPO нормировочная константа одинакова для победившего и проигравшего ответов, поэтому она сокращается в лоссе, но авторы статьи сделали это несколько иначе.
Из их математической модели выводится функция, которая очень похожа на DPO. Но в отличие от DPO, авторы вычитают из неё разницу между SeqKL проигравшего и победившего ответа. Этот метод, названный Token-level Direct Preference Optimization (TDPO), обеспечил незначительное улучшение по сравнению с обычным DPO. На датасете Anthropic HH точность увеличилась всего на 0,65%.
Далее авторы предлагают умножить на дополнительный коэффициент разницу SeqKL и не пропускать градиенты для победившего варианта. Это можно трактовать так: при росте SeqKL проигравшего ответа всегда увеличивается лосс, в то время, как при росте SeqKL победившего — лосс уменьшается. Получается, что добавка к DPO, после остановки градиента для её части, по сути работает, как регуляризация.
С ней метод получил название TDPO2 и он действительно неплохо улучшает показатели. На том же Anthropic HH прирост по сравнению с DPO составил уже не 0,65%, а 7,9%.
Авторы действительно предложили лучшее решение. Но возникает вопрос: насколько здесь велик вклад выведенной математической модели. По факту, авторы сильно меняют основные моменты в этой модели, а то, что остается, очень похоже на простую потокенную регуляризацию. Но её идея не нова: часто к DPO добавляют negative log likelihood loss — например, при DPO-обучении Llama 3.1, — что тоже является вариантом потокенной регуляризации. Мы склоняемся к тому, что научный вклад этой статьи невелик, а ключевые выводы — ошибочны.
Разбор подготовил ❣ Михаил Хрущев
Душный NLP
https://www.producthunt.com/posts/futudo
Какой то чувак вместо того чтобы написать в личку и попросить репостнуть решил поспамить в Мейн чат. А жаль, полезный проект, вот бы какой нибудь блогер читал и такой: о прикольно.
Потыкайтесь в ph что ли.
https://thematrix1999.github.io/
Ни дня без world models. Теперь вместо Майнкрафта обучили на видосах из forza
Кода и демо пока нет.
Любопытное наблюдение: tech-компании теряют до 60+ часов в месяц на расчёты с удаленными сотрудниками…
Стандартная ситуация: компания на Кипре или в Сербии, а команду разбросало по миру. Со всеми нужно заключить договоры, а потом каждый месяц вручную готовить закрывающие документы и отправлять деньги в десятки и сотни разных банков.
Так бумажный процесс превращается в неприятную рутину и затягивается на десятки часов. Тут нужен огромный ресурс фаундера или целая финансовая команда, чтобы платить всем вовремя. В итоге бизнес перегружается операционкой и теряет фокус с реального развития.
Но с платформой 4dev.com всё гораздо проще!
⭐ 4dev.com позволяет платить сотням сотрудникам в любой точке мира и автоматически получать закрывающие документы по каждому платежу. Нужно подписать всего 1 оферту с 4dev.com вместо 100+ договоров с исполнителями!
- мгновенно получайте закрывающие документы по каждой выплате
- все закрывающие документы соответствуют международным стандартам (МСФО)
- свободно платите в крипте, USD, EUR или других валютах
- одной головной болью станет меньше — и вы уделите больше времени развитию бизнеса
Запишитесь на демо в 1 клик. Погрузимся в ваши задачи и поможем найти решение именно для вашего бизнеса!
Ресерчам приходится делать ОТВРАТИТЕЛЬНЫЕ вещи когда скейлинг не работает, вот примеры:
- ПОСМОТРЕТЬ данные руками
- открыть помимо конфига обучения ещё и код(ваще мясо)
- перестать придумывать свои велосипеды когда фреймворк перестал работать
- скачать ВСЕ страницы документации pytorch lighting, потому что открывается только из под впна
- выкинуть любимый скрипт на torch lighting для обучения
- обновить transformers
- ПОСМОТРЕТЬ ДОКУМЕНТАЦИЮ
- Закрыть х, реддит, доту и отменить предзаказ на turms
Мы достигли лимита по юзерам, чтож, спасибо Яндекс телемост за 40 юзеров в звонке и спасибо что явно упомянули это, выложим запись!
Читать полностью…cобственно мы наблюдаем это в том числе по mmlu(бенч говно, но на остальных будут очень похожие картинки)
Oss большие тушки стали не значительно хуже закрытых, но для открытых сильно больше инфры, так что вопрос времени когда на агентских бенчах и прочем oss обгонет cls.
Ну и кажется aren_а доломали, теперь она окончательно сломана. по другому обьяснить gemeni на 1 месте не могу.
Как добавить платежи в AI-агентов с помощью Stripe
Походит к концу мой первый месяц в Страйпе, и про это я напишу отдельно. А пока, hot of the press, расскажу вам про нашу новинку.
Представьте, что у вас есть умный цифровой помощник, который может не только отвечать на вопросы, но и выполнять реальные действия. Например, вы пишете: "Найди билет из Нью-Йорка в Сан-Франциско за 500 долларов", и AI-агент:
1. Понимает ваш запрос и выделяет важные детали
2. Ищет подходящие варианты
3. Показывает вам лучшие предложения
4. И теперь — может даже купить билет!
Stripe выпустил специальный набор инструментов (Agent Toolkit), который работает с популярными AI-фреймворками:
- Vercel AI SDK
- LangChain
- CrewAI
Что это даёт вашему AI-агенту:
- Возможность создавать платежные ссылки
- Выставлять счета клиентам
- Генерировать виртуальные карты для покупок
- Отслеживать все финансовые операции
Пример кода для выставления счета:
from stripe_agent_toolkit import StripeAgentToolkit
# Подключаем Stripe к агенту
toolkit = StripeAgentToolkit(
secret_key="sk_test_123",
configuration={
"actions": {
"invoices": {"create": True},
"customers": {"create": True}
}
}
)
# Теперь агент может выставлять счета
agent.invoke("Выставить счет клиенту example@mail.com на $100")