Тут сделали прикольный тул чтобы папиры верстать, выглядит прикольным гибридом latex+md
typst.app
я не буду хайповать по KAN пока не увижу внятного применения, прикольно конечно, но уже были. Но штука крутая идейно, это правда
графовые сетки
спайковые
гиперболические
куча всякой азитащины которую никто кроме авторов не запускал
И все это не используется и заброшено.
👀 Aeonium-v1-BaseWeb-1B
Завершено обучение первой языковой модели для русского языка с 1.6 млрд. параметров.
- 32B токенов в датасете
- 4096 контекстное окно
- Llama в качестве основной архитектуры
- 128k vocab
HuggingFace
@hikonon
#чтивонаночь
Идея такая - давайте использовать доп голову которая будет учится и быстренько выбирать кусок который нужно подсунуть чтобы эффективнее работать с контекстом, attn принципиально не меняется, при этом метод работает для уже претренутых моделей, можно дешево доучить уже готовую LLM на 500к контекста и это будет работать.
Нормального сравнения с RoPE, alibi нету, но по памяти метод сильно эффективнее текущих
папир
why would I use a 200MB classifier when I can use a 40GB LLM named psiball-orpo-qdora-the-xplora-70B-int4-swiffer-sweeper-slerp-v0.02-(Taylor's version)
Читать полностью…Рейтинг LLM в роулплее на русском
Вы не просили, я - сделал. Рейтинг оценивает два фактора: качество русского языка + логика в роулплее на русском.
Победители среди малых моделей:
Лучшая грамотность: vikhr-7b-instruct-0.2 (грамотная, но глупенькая)
Лучшая логика: Starling-LM-7B-beta (возможно, просто повезло)
Лучшая сбалансированность: vikhr-7b-instruct-0.4 (язык + логика)
Подробнее на гитхабе, там же полный xls файл.
https://github.com/Mozer/russian-llm-top
KAN: Kolmogorov-Arnold Networks
[Статья][Код]
Введение
В основе всех (ну почти всех) современных архитектур лежит многослойный перцептрон (MLP) с обучаемыми матрицами, сдвигами и фиксированными активациями и некоторым механизмом агрегации для пространственных входов (свертки, attention, state-spaces, мамба, хуямба).
Теория гласит, что при некоторых предположениях на целевую функцию и функции активации в сети достаточно большой сетью можно приблизить эту самую целевую функцию.
Возникает вопрос 🤔- оптимален ли такой подход по вычислениям / точности и нельзя ли изобрести нечто лучшее?
Метод
В данной статье авторы переосмысляют и в некотором смысле обобщают парадигму построения многослойной сети. В основе идеи лежит знаменитая теорема Колмогорова-Арнольда, что непрерывную многомерную функцию на ограниченной области можно всегда представить в виде композиции функций от одной переменной.
Однако, при этом теорема не дает явного вида этих функций, которые могут оказаться сколько угодно плохими, потому не реализуема на практике.
В данной статье предлагают выучивать сами функции активации, параметризуя их некоторым образом. Каждое ребро между входным и выходным нейроном задается некоторой параметрической функцией довольно общего вида.
Традиционный MLP является одним из частных случаев предлагаемой парадигмы.
В оригинальной теореме перцептрон всего с одним скрытым слоем, но ничто не мешает технически настакать их побольше.
На практике KAN-слой реализуется как B-сплайн с residual connections, домноженный на константу:\phi(x) = w(b(x) + spline(x)), где b(x) = silu(x) = x / (1 + e^{-x})
Оптимизация такого сплайна довольно нетрививальна, и для улучшения сходимости сплайн инициализирует так, чтобы быть близким к нулю в начальный момент времени, и сетка с узлами сплайна обновляется на лету.
При той же глубине и ширине в KAN-сети больше параметров, чем в классической MLP в G (G - размер сетки) раз, но мотивация работы в том, что KAN требуется меньшая ширина для достижения сопоставимого качества.
Далее авторы обосновывают, что KAN обладает значительно лучшей масштабируемостью в сравнении c MLP и обходит проклятие размерности за счет того, что представляет многомерную функцию в виде композиции одномерных, тем самым переводя задачу эффективно в низкоразмерное пространство и выводят степенной закон убывания функции потерь.
Для KAN в однослойной сети, аппроксимирующие функции могут быть очень плохими, но с ростом глубины, существуют все более гладкие комбинации, способные решать целевую задачу.
По ходу дела, для повышения выразительности сети можно добавлять дополнительные узлы в сплайн.
а в какой момент времени работать в rutube перестало быть позорно?
просто ну, это как гордится 10 статьями про классификацию на берте
он объективно работает хуже пиратских сервисов которые делаются командой из полутра человек
#чтивонаночь
AM-RADIO: Agglomerative Vision Foundation Model
Reduce All Domains Into One
Мультитасковая мульти энкодерная модель от nvidia которая учит одновременно clip, sam, dino фичи в одного ученика который еще и лучше работает.
paper
model
Апдейт для Лондона, цифры в фунтах/год
<60к — экстремальная бедность, самый простой нож, три месяца копишь на отбеливатель
70-90к — средненькое качество жизни, хватит на базовую квартирку в 2-3 зоне, будет оставаться немножко на руки
90-120к — чуть получше, можно квартирку побогаче взять, на ценники в продуктовых почти не смотреть (если не снимать квартиру за 2/3 зарплаты, you know)
150-170к — уже в целом хорошая жизнь, неплохая квартира в хорошем районе, которая не отнимает 2/3 зарплаты, накопления, долгосрочное планирование
200-250к — по-настоящему комфортная жизнь начинается здесь, можно позволить купить сырники
хм, интересный эффект
те разваливает QK без нормализации даже в bf16, странно что именно qk оверфлоатит, обычно такое бывает у LN/активаций.
Не давайте украсть у себя память. Почтите павших и поздравьте живых.
С праздником.
Вчера наткнулся на новый бесплатный софт для смены голоса в режиме реального времени — для всех любителей дискорда, стримов, пранков над коллегами и создателей контента самое то. Внутри 10 голосов и можно настраивать каждый под себя, ставится как доп устройство в ОС
Есть версия под Mac и под Windows:
https://product.supertone.ai/shift
Поигрался — я тоже пикапер в своем роде, знаете ли 😎
‼️ ОТКУДА DEEZER ЗНАЕТ, КАКАЯ МУЗЫКА НРАВИТСЯ НОВЫМ ПОЛЬЗОВАТЕЛЯМ?
В этом посте я расскажу о том, как музыкальная платформа Deezer, используя метаданные и нейросети, с первых секунд начала рекомендовать новым пользователям персонализированные треки!
В статье вы можете узнать про:
1️⃣ Почему холодный старт важен
2️⃣ Зачем сервисы следят за вами
3️⃣ Зачем нужна кластеризация
4️⃣ Как Deezer научились персонализировать Cold Start
ЧИТАТЬ ПО ССЫЛКЕ
Отдать голос за канал
/channel/boost/persecond300k
Вступить в чат
/channel/persecond300kchat
#RECSYS
Однажды ии блогер потрогал траву и пеерехал в амст
Однажды ии блогер потрогал траву и перестал писать писатьть
Однажды ии блогер потрогал траву и вселенная схлопнулась
#от_подписчика
Возле дома просветлëнного Горного Даоса приземлилась серебристая летающая тарелка. Шлюз медленно открылся. Яркий белый свет залил лужайку у дома.
Из света показалась неестественно тощая и высокая фигура.
Рауати Ксентари, достойный сын расы Ксентари, вошëл в дом Даоса и прямо с порога спросил:
— Что ты отдашь мне взамен на все тайны строения Вселенной?
Мудрец сидел профилем к своему гостю и созерцал стоящее перед ним жестяное ведро. Не поворачиваясь к пришельцу, он спокойно произнëс:
— Вот это ведро с говном.
Инопланетянин крепко задумался.
— Но почему? — наконец спросил он. Мудрец медленно повернулся к гостю и строго посмотрел в его огромные тëмные глаза.
— Так в нëм материалов на две Nature хватит!
В тот же вечер Рауати Ксентари стал его учеником.
В апреле я побывал в гостях в Университете Тарту. И одна из свежих штук, которую мне там показали - это эстонская LLaMA, названная llammas (по-эстонски баран, ибо модель получилась весьма упрямая 🐏). Вот статья про неё.
Что её авторы сделали:
1. До-предобучили Llama-2-7B на 5B токенов: 75% эстонских и 25% английских (чтобы английский не забывался).
1. Сгенерировали с помощью GPT-3.5-turbo датасет, аналогичный Alpaca, на эстонском (50K примеров).
1. Взяли кучу открытых шумных датасетов для перевода между английским и эстонским, и сконвертировали их в формат инструкций (1М примеров). Дополнительно взяли ещё 2К более чистых примеров для перевода.
1. Дообучили эту модель: сначала опционально на полном датасете перевода (1М примеров), потом на чистом переводе и английских и эстонских инструкциях (100К примеров из английской и эстонской альпак, и ещё 25К из более качественных английских инструкций).
1. Оценили модель на задачах question answering, choice of plausible alternative, grammatical error correction, и перевода.
Что выяснили:
- Для большинства задач (кроме CoPA) большая часть эффекта от продолженного предобучения на эстонском была достигнута уже на 1B токенов.
- Если дообучать сначала на полном датасете для перевода, а потом на инструкциях, то перевод и исправление ошибок даются модели лучше, а логика и ответы на вопросы - хуже, чем если дообучать сразу на инструкциях.
- Модели, дообученные на инструкциях, в принципе способны поддерживать осмысленную беседу на эстонском, хоть они и не всегда звучат естественно.
- Модель переводит между эстонским и английским достаточно близко к уровню SOTA (типа NLLB).
- На большинстве английских бенчмарков модель, которую до-предобучили на смеси эстонского с английским, не очень сильно падает в качестве по сравнению с исходной.
- Нужно ли дообучаться на большом датасете для перевода, и нужно ли это делать вперемешку с инструкциями или до них, не вполне понятно (разные задачи дают разные сигналы). Но в целом нет свидетельств, что реально много параллельных текстов для такой модели нужно.
Из этого, казалось бы, можно сделать вывод, что для адаптации LLM к новому языку не очень-то и нужно иметь много хороших параллельных данных для этого языка; достаточно иметь большой моноязычный датасет для продолженного предобучения (хотя бы 1B токенов, при том что токенайзер LLaMA даёт для эстонского в среднем вдвое больше токенов на предложение, чем для английского) и умеренно большой датасет с инструкциями.
Но как раз наличие датасета с инструкциями и представляет из себя большое "но": он был получен благодаря магии GPT, который уже каким-то чудом знает эстонский достаточно хорошо. А значит, для языков, на которых GPT работает не так классно, такой датасет нужно будет ли собирать вручную с нуля, или переводить с других языков. Так что я думаю, что без этапа создания хорошего машинного перевода - а значит, и сбора хороших параллельных корпусов - всё-таки не обойтись.
Ну и да, основной позитивный сингал: если таки вы нашли данные, то даже такую англоцентричную модель, как LLaMA 2, можно адаптировать на такой нишевой язык, как эстонский, за где-то 1300 GPU-часов (как это сделали TartuNLP), или даже, скажем, всего за 300 (если предобучаться на 1 млрд токенов, а не на 5, что уже тоже даёт неплохой результат). То есть: doable даже в домашних условиях.
не мой формат, но.
я сам учу ллм, иногда несколько штук в паралель и я честно отдаю себе отчет об одном простом факте - если ты не сложил информацию в llm, она не выучит это и магическое "emergent propertys" вам не помогут. если вы подкинули в претрен инструкций - у вас модель ЧУДОМ начнет лучше работать ZS/FS формате. Если подкините 10 повторений википедии - О ЧУДО!! модель станет точнее отвечать на вские world qa штуки.
То что gpt_like могут хорошо воспроизводить common таски - это очень круто, но вне довольно узкого нормального распределения задач которые модели хорошо решают они резко деградируют и никакой магический function calling/internet не помогут - поиск слишком замусорен, если у вас случайно нет своего индекса и поисковика по нему- вам будет больно.
Короче дед мб не пьет таблетки, но это не делает его мнение до конца не верным.
twi
In-context Reinforcement Learning with Algorithm Distillation
UPD: за время, пока админы писали обзор на эту статью, гугл забронил патент под эту технологию, вот и думаем насколько важно) приятного прочтения😎
Вот мы с вами уже обсуждали мета рл (#metarl), где происходит небольшое количество обновлений модели, чтобы она адаптировалась к какой-то новой задаче
А можно ли вообще не производить градиентные обновления, то есть решить задачу аналогично тому, как существует ин-контекст лернинг в нлп, только в рл?
Да!! урааа, йухуууу, еее-бадиии
А если серьезно, то реально можно, при том идея невероятно простая и масштабируемая - хотим чтобы моделька на новых задачах постепенно адаптировалась и приходила к оптимальному решению. Ок - как это сделать? Ну дипмаинды подумали-подумали, и решили тенденцию обучения засунуть еще в основу тренировочных задач
Что это значит? У нас есть трансформер, который на вход во время обучения принимает мульти-эпизодичную последовательность событий в средах (которые были собраны другим алгоритмом), где наблюдается улучшение относительно достижения оптимальной награды. Наш трансформер все это аккумулирует на большом количестве тренировочных задач, и способен перенести такую тенденцию к обучению на ранее неизвестных задачах (стоит помнить, что это не прям абсолютно другие задачи, а все они схожи по той или иной причине - принадлежат одному распределению)
Более того, этот трансформер начинает сходиться быстрее, чем те алгоритмы, на данных которого он был натренирован - если тот же Q-Learning сходится за 1000 эпизодов к оптимуму на одной задаче, то Algorithm Distillation Transformer сходится уже за 250 на каждой из тренировочных и тестовых задач.
В долгосроке это упрощает рл и повышает его способы к скейлингу относительно сложности задач и скорости решения. Кажется, началось...
👀LINK
#rl #offlinerl #metarl #incontextlearning #distillation #transformer #rnn