lovedeathtransformers | Unsorted

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4254

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

Люблю этот график, 10^6 компьюта это рост за сколько лет?

Читать полностью…

Love. Death. Transformers.

cобственно мы наблюдаем это в том числе по mmlu(бенч говно, но на остальных будут очень похожие картинки)
Oss большие тушки стали не значительно хуже закрытых, но для открытых сильно больше инфры, так что вопрос времени когда на агентских бенчах и прочем oss обгонет cls.

Ну и кажется aren_а доломали, теперь она окончательно сломана. по другому обьяснить gemeni на 1 месте не могу.

Читать полностью…

Love. Death. Transformers.

... они стояли в очереди за латте сингапур

книжка хороша, почитать тут платно

Читать полностью…

Love. Death. Transformers.

Довольно любопытная документалка про то как строили half-life

Ознакомиться

Читать полностью…

Love. Death. Transformers.

Ставь лайк если тоже не смотришь датасеты

Читать полностью…

Love. Death. Transformers.

Как добавить платежи в AI-агентов с помощью Stripe

Походит к концу мой первый месяц в Страйпе, и про это я напишу отдельно. А пока, hot of the press, расскажу вам про нашу новинку.

Представьте, что у вас есть умный цифровой помощник, который может не только отвечать на вопросы, но и выполнять реальные действия. Например, вы пишете: "Найди билет из Нью-Йорка в Сан-Франциско за 500 долларов", и AI-агент:

1. Понимает ваш запрос и выделяет важные детали
2. Ищет подходящие варианты
3. Показывает вам лучшие предложения
4. И теперь — может даже купить билет!

Stripe выпустил специальный набор инструментов (Agent Toolkit), который работает с популярными AI-фреймворками:
- Vercel AI SDK
- LangChain
- CrewAI

Что это даёт вашему AI-агенту:
- Возможность создавать платежные ссылки
- Выставлять счета клиентам
- Генерировать виртуальные карты для покупок
- Отслеживать все финансовые операции

Пример кода для выставления счета:

from stripe_agent_toolkit import StripeAgentToolkit

# Подключаем Stripe к агенту
toolkit = StripeAgentToolkit(
secret_key="sk_test_123",
configuration={
"actions": {
"invoices": {"create": True},
"customers": {"create": True}
}
}
)

# Теперь агент может выставлять счета
agent.invoke("Выставить счет клиенту example@mail.com на $100")


Что может делать AI-агент с платежами:

🛍️ Умный шоппинг
- Поиск товаров по вашим критериям
- Сравнение цен
- Безопасная оплата через виртуальные карты
- Контроль бюджета

💼 Бизнес-операции
- Автоматическое выставление счетов
- Отслеживание платежей
- Управление подписками
- Контроль расходов

Stripe Agent Toolkit — это мост между AI и реальными финансовыми операциями. Теперь ваши AI-агенты могут не только думать, но и действовать с деньгами — безопасно и эффективно.

Пробуйте и делитесь фидбеком! Все передам ответственной команде

🐸 Блог-пост
🦾 Agent Toolkit документация
🖥 Git

Читать полностью…

Love. Death. Transformers.

Знаете как я понимаю что скоро новый релиз опенаи? Модели тупеют и ОЧЕНЬ значимо

Читать полностью…

Love. Death. Transformers.

https://www.arxiv.org/pdf/2408.03047

Мда.

Читать полностью…

Love. Death. Transformers.

Кстати еще есть футболки чтобы тебя не замечали женщины, тред в коментах!

Читать полностью…

Love. Death. Transformers.

Qwen2.5-Coder
- 23T токенов в претрене
- 23Т токенов пролито через 0.5b модель и она приросла по метрикам до уровня gemma2b которая как llama2 7b. Чтож.
- Добавили Math данных из Qwen Math
- В SandBox проверяли код на компилируемость
- Учили на FileLevel - те внутрь контекста складывали файл кода целиком
- Учили с <FILL IN THE MIDDLE> ака MLM таской - это важно для решения разных бенчей

<|repo_name|>{repo_name}
<|file_sep|>{file_path1}
{file_content1}
<|file_sep|>{file_path2}
{file_content2}
<|file_sep|>{file_path3}
<|fim_prefix|>{code_pre}<|fim_suffix|>{code_suf}<|fim_middle|>{code_fim}<|endoftext|>

вот в таком виде учили на ЦЕЛЫХ РЕПОЗИТОРИЯХ!!

- Модель на большинстве оффлайн бенчмарков на уровне gpt4o/sonnet3.5. Имея 32b параметров. 32b.
- На скрине live code bench - датасет который обновляется PRами и на нем пока что не научились оверфитится, для контекста - sonnet 3.5 - от июня выдает 38.1

paper

Читать полностью…

Love. Death. Transformers.

англоязычное пространство: openai, antropic, google, meta, куча китайских лаб с сотнями сотрудников дерутся за лучшие претрены, и лучшие aligemntы, опенсурс делается на огромные гранты , гиганты выдают в опенсурс llama и gemma

русскоязычное пространство: э, ну у нас есть три команды энтузиастов которые на свои деньги что то делают.
Еще есть бигтехи со своими претренами, но туда мы не ходим, там 7б модели по 20usd/m токенов

Читать полностью…

Love. Death. Transformers.

Ищу денег на обучение Berta на 18т токенов, писать в лс @transformerslovedeatch

Читать полностью…

Love. Death. Transformers.

ну раз речь про диффузии пошла...

https://huggingface.co/learn/diffusion-course/unit0/1

- почему latent>pixel diffusion
- не велосипедный код, diffusers, torch и трансформерс - короче то что от вас будут реально ждать)))
- интуиция для аудио/видео + все нужные статьи и интуиция
- имплементация ddpm - уже не очень актуальная, но все еще необходимая
- что такое guidence, class сonditioned, improved diffusion models
- Что такое SD и с чем его едят, без этой инфорамации вас не возьмут никуда

Читать полностью…

Love. Death. Transformers.

Я в восторге от рекламы новых unitree, робособака с колесами выглядит как будущее

Читать полностью…

Love. Death. Transformers.

19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:

“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”

Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223

Читать полностью…

Love. Death. Transformers.

Мистраль забили(?) окупать le platform и дропнули large модели на хф тоже

модель

А еще выложили ОГРОМНЫЙ(120+b) pixtral lol который скорее всего сопостовим по качеству с molmo

В метриках "забыли" molmo и qwen

Читать полностью…

Love. Death. Transformers.

gpt5, 3 opus, gemini 2 задерживаются, выходят какие то минорные релизы типа 4o, o1(соре я не решаю каждый день школьную матешу), а сми пишут про scaling is hitting wall. Опять зима, agi 2027 не будет?


- 4о, sonnet 3.5 и прочее учились на сопостовимом с прошлым поколением компьюте, потому что...
- текущее поколение nvidia банально не доехало до основных потребителей)))) Проще говоря все учат на н100, h200 и b100 нет почти не у кого(google, nebius в этом квартале ограниченно их выдают).
Размер кластера который вы можете использовать с эффективной сетевой задержкой вообще то не бесконечен. А еще обучение не бесконечно масштабируется по эффективности(читать подробно)
- FP8 пока что пиздец какой маркетинг, учить(претренить на nvidia) в нем никто не умеет без потерь
- Магические железки есть только у гугла, но они не значительно помогают.
- жить на своих железках ОЧЕНЬ И ОЧЕНЬ сложно, без поддержки комьюнити - нереально
- Данные у всех примерно одинаковые, разница между закрытыми данными у oss и закрытых моделей вероятно минимальна(не считая синты)
- Новых (стоящих) архитектур пока все еще нет, стоящих работ пока все еще нет
- Agentов учатся учить с sft степа, пока что ничего дельного не выходит, думаю вопрос нормальной синты(ее все еще нет, потому что нет нормальных env, а нормальных env нет потому что вебмакаки не умеют в perfomance и эти ваши multi cpu)
- Мы не увидим значимых шагов качества базовых моделей еще от трех месяцев до года.
- Китайские компании вероятно выкатят еще больше годноты. kling, qwen - только начало.
- ебучих копий o1 и cot/mcts/долгих генераций будет ОЧЕНЬ много
- bitter lesson придет за всеми кто его не усвоил.


А, чо там по качеству фотомоделей? cигмоиду достигли уже? пальцы починились?)

Собственно качество фотомоделей пришло к тому что уже не понятно - где mj, flux и тд. Разница есть но ее надо искать под микроскопом, raw режим flux пробил фото реализм и теперь генерации дейстивительно не отличимы от фото, но размер простыни промпта для такого качества абсолютно неадекватен.

Вы правда думаете что с текстом будет по другому?

Читать полностью…

Love. Death. Transformers.

https://m.tb.cn/h.TYeNYaV?tk=hs1E3sdmmkX

3400 usd за 48гб карту, которая быстрее чем а6000 и кажется быстрее l40s

Читать полностью…

Love. Death. Transformers.

Постер нашей статьи на EMNLP.

Самая статья для тех кто не читал.

Читать полностью…

Love. Death. Transformers.

Многие спрашивают почему мне не пофиг на использование AI. Отвечаю – я их ненавижу. Они ублюдки и выродки. Они хотят смерти нам, резерчерам.

Читать полностью…

Love. Death. Transformers.

TDPO — потокенный DPO или просто регуляризация?

Авторы сегодняшней статьи предлагают метод потокенного Direct Preference Optimization (DPO), который на бумаге должен исправить некоторые проблемы оффлайн-обучения с подкреплением. Но на деле все оказывается не так просто.

DPO — метод обучения, не полагающийся на reward-модель. Здесь применяют датасет с размеченными парами запросов и ответов, чтобы натренировать генератор на контрастный лосс.

Проблема в том, что в случае с DPO мы работаем с вероятностями последовательностей целиком. Метод ограниченно контролирует поведение модели на уровне отдельных токенов. Это приводит к тому, что модель может ошибочно сильно повышать или понижать вероятность отдельных токенов значительно после совершенных ошибок.

Эту проблему можно нивелировать, если сделать DPO потокенным. Авторы статьи пытаются добиться этого.

Для начала они предлагают ввести необычное ограничение — сделать так, чтобы сумма наград всех токенов-продолжений для произвольного префикса была равна 0. Это довольно сильное допущение: например, если мы решаем задачу копирования какого-то куска текста, то будем сильно штрафовать модель за любое отклонение. Как результат — награда за правильный токен окажется очень большой. В этом случае, если при выборе между длинной и короткой строкой, модель будет склоняться к длинной строке.

Такое ограничение позволило авторам в их расчётах лосса избавиться от нормировочной константы вероятностного распределения. Чтобы ее вычислить, нужно суммировать награду по всем возможным ответам, а это невозможно, поэтому от константы при расчётах избавляются. В DPO нормировочная константа одинакова для победившего и проигравшего ответов, поэтому она сокращается в лоссе, но авторы статьи сделали это несколько иначе.

Из их математической модели выводится функция, которая очень похожа на DPO. Но в отличие от DPO, авторы вычитают из неё разницу между SeqKL проигравшего и победившего ответа. Этот метод, названный Token-level Direct Preference Optimization (TDPO), обеспечил незначительное улучшение по сравнению с обычным DPO. На датасете Anthropic HH точность увеличилась всего на 0,65%.

Далее авторы предлагают умножить на дополнительный коэффициент разницу SeqKL и не пропускать градиенты для победившего варианта. Это можно трактовать так: при росте SeqKL проигравшего ответа всегда увеличивается лосс, в то время, как при росте SeqKL победившего — лосс уменьшается. Получается, что добавка к DPO, после остановки градиента для её части, по сути работает, как регуляризация.

С ней метод получил название TDPO2 и он действительно неплохо улучшает показатели. На том же Anthropic HH прирост по сравнению с DPO составил уже не 0,65%, а 7,9%.

Авторы действительно предложили лучшее решение. Но возникает вопрос: насколько здесь велик вклад выведенной математической модели. По факту, авторы сильно меняют основные моменты в этой модели, а то, что остается, очень похоже на простую потокенную регуляризацию. Но её идея не нова: часто к DPO добавляют negative log likelihood loss — например, при DPO-обучении Llama 3.1, — что тоже является вариантом потокенной регуляризации. Мы склоняемся к тому, что научный вклад этой статьи невелик, а ключевые выводы — ошибочны.

Разбор подготовил Михаил Хрущев

Душный NLP

Читать полностью…

Love. Death. Transformers.

https://www.producthunt.com/posts/futudo

Какой то чувак вместо того чтобы написать в личку и попросить репостнуть решил поспамить в Мейн чат. А жаль, полезный проект, вот бы какой нибудь блогер читал и такой: о прикольно.

Потыкайтесь в ph что ли.

Читать полностью…

Love. Death. Transformers.

Говорят в этом мерче проходят фейсконтроль в любой гейклуб

Читать полностью…

Love. Death. Transformers.

Раньше чтобы тебя не детектили системы как человека надо было носить одежду как справа. Теперь достаточно одежды как слева.

Я напомню что среди DSов есть секта:

ОБУЧЕНИЕ ВСЕ, вам достаточно сделать import openai и все. И почему они все ведут какие то курсы... На работу их не берут что ли...

Читать полностью…

Love. Death. Transformers.

маленькая девочка попросила Бога: а можно в мере будет \n и \t экранированы???

вместе с девочкой плакало половина гигачата....

Читать полностью…

Love. Death. Transformers.

В продолжении наших экспериментов с адаптацией Qwen-2.5 моделей мы выпускаем RuadaptQwen-2.5-32B-Instruct (v1)! Вероятно самая большая открытая модель на данный момент, адаптированная на русский язык (в частности у нее один из наилучших токенайзеров среди открытых моделей для русского языка).

Модель была оценена на бенчмарке MERA (см. картинку).
Некоторая особенность сабмита на MERA в том, что в нем был использован кастомный промпт (есть в карточке сабмита), но для честного сравнения мы также добавили сабмит с исходной версией модели с таким же промптом.

Ссылка на модель:
https://huggingface.co/msu-rcc-lair/RuadaptQwen-32B-instruct

GGUF версия:
https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct-GGUF

Попробовать можно тут:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5

Будем рады фидбеку по достоинствам и недостатком модели.

Читать полностью…

Love. Death. Transformers.

обзор на qwen2.5

сегодня.

Читать полностью…

Love. Death. Transformers.

почему на сайте дойки.ком нет возмжности быстро узнать doi нужной статьи

Читать полностью…

Love. Death. Transformers.

Redteaming is all you need

Читать полностью…

Love. Death. Transformers.

https://www.avito.ru/moskva/tovary_dlya_kompyutera/nvidia_geforce_rtx_4090_48gb_turbo_2024_4494188888

во, нормально

донейшены в trc20 usdt чтобы затестить: TU6Rzbsu1NDLYUVfpCyFcXXyUS9iFJw2hK

Читать полностью…
Subscribe to a channel