❤️☠️🤗 идейная миграция небытия
Написали всем чатом теормин на ds стажера-джуна в 2024.
Пройдя все указаные курсы и прочитав все указаные книги вы можете расчитывать на стажера в средне-хорошей российской компании
сайт где ознакомится
В чем разница между твоим научником и белкой?
Белка иногда вспоминает про то, что она набрала себе осенью
в очередной раз двачеры написали много более понятный гайд по использованию сеток чем любые резечеры.
Ознакомится: https://2ch-ai.gitgud.site/wiki/
хм, интересный эффект
те разваливает QK без нормализации даже в bf16, странно что именно qk оверфлоатит, обычно такое бывает у LN/активаций.
Не давайте украсть у себя память. Почтите павших и поздравьте живых.
С праздником.
Вчера наткнулся на новый бесплатный софт для смены голоса в режиме реального времени — для всех любителей дискорда, стримов, пранков над коллегами и создателей контента самое то. Внутри 10 голосов и можно настраивать каждый под себя, ставится как доп устройство в ОС
Есть версия под Mac и под Windows:
https://product.supertone.ai/shift
Поигрался — я тоже пикапер в своем роде, знаете ли 😎
‼️ ОТКУДА DEEZER ЗНАЕТ, КАКАЯ МУЗЫКА НРАВИТСЯ НОВЫМ ПОЛЬЗОВАТЕЛЯМ?
В этом посте я расскажу о том, как музыкальная платформа Deezer, используя метаданные и нейросети, с первых секунд начала рекомендовать новым пользователям персонализированные треки!
В статье вы можете узнать про:
1️⃣ Почему холодный старт важен
2️⃣ Зачем сервисы следят за вами
3️⃣ Зачем нужна кластеризация
4️⃣ Как Deezer научились персонализировать Cold Start
ЧИТАТЬ ПО ССЫЛКЕ
Отдать голос за канал
/channel/boost/persecond300k
Вступить в чат
/channel/persecond300kchat
#RECSYS
Как и 6 лет назад выясняется что просто болталка никого особо не веселит.
Читать полностью…Однажды ии блогер потрогал траву и пеерехал в амст
Однажды ии блогер потрогал траву и перестал писать писатьть
Однажды ии блогер потрогал траву и вселенная схлопнулась
всмысле хуйня которую я пощу остается навсегда
Читать полностью…#от_подписчика
Возле дома просветлëнного Горного Даоса приземлилась серебристая летающая тарелка. Шлюз медленно открылся. Яркий белый свет залил лужайку у дома.
Из света показалась неестественно тощая и высокая фигура.
Рауати Ксентари, достойный сын расы Ксентари, вошëл в дом Даоса и прямо с порога спросил:
— Что ты отдашь мне взамен на все тайны строения Вселенной?
Мудрец сидел профилем к своему гостю и созерцал стоящее перед ним жестяное ведро. Не поворачиваясь к пришельцу, он спокойно произнëс:
— Вот это ведро с говном.
Инопланетянин крепко задумался.
— Но почему? — наконец спросил он. Мудрец медленно повернулся к гостю и строго посмотрел в его огромные тëмные глаза.
— Так в нëм материалов на две Nature хватит!
В тот же вечер Рауати Ксентари стал его учеником.
Парни из MBZUAI выложили кучу инструкт сетов на разных языках, в том числе на русском !
есть азербайджанский
ссылка
ищу репета по линалу/матану, 2-3 курс фкн/фивт, из требований - сильно не хуесосить /channel/alexwortega
Читать полностью…если что - речь про этот norm у sd3
5 страница
ну кто то школу закончил и решили Rope вставить, жду 1м токенов генерации
репорт2
Тут сделали прикольный тул чтобы папиры верстать, выглядит прикольным гибридом latex+md
typst.app
я не буду хайповать по KAN пока не увижу внятного применения, прикольно конечно, но уже были. Но штука крутая идейно, это правда
графовые сетки
спайковые
гиперболические
куча всякой азитащины которую никто кроме авторов не запускал
И все это не используется и заброшено.
Понятия не имею откуда я украл эту картинку
Читать полностью…Что компенсируют когда хотят учить 100В модели? На ответ даётся...
Читать полностью…👀 Aeonium-v1-BaseWeb-1B
Завершено обучение первой языковой модели для русского языка с 1.6 млрд. параметров.
- 32B токенов в датасете
- 4096 контекстное окно
- Llama в качестве основной архитектуры
- 128k vocab
HuggingFace
@hikonon
#чтивонаночь
Идея такая - давайте использовать доп голову которая будет учится и быстренько выбирать кусок который нужно подсунуть чтобы эффективнее работать с контекстом, attn принципиально не меняется, при этом метод работает для уже претренутых моделей, можно дешево доучить уже готовую LLM на 500к контекста и это будет работать.
Нормального сравнения с RoPE, alibi нету, но по памяти метод сильно эффективнее текущих
папир
why would I use a 200MB classifier when I can use a 40GB LLM named psiball-orpo-qdora-the-xplora-70B-int4-swiffer-sweeper-slerp-v0.02-(Taylor's version)
Читать полностью…Рейтинг LLM в роулплее на русском
Вы не просили, я - сделал. Рейтинг оценивает два фактора: качество русского языка + логика в роулплее на русском.
Победители среди малых моделей:
Лучшая грамотность: vikhr-7b-instruct-0.2 (грамотная, но глупенькая)
Лучшая логика: Starling-LM-7B-beta (возможно, просто повезло)
Лучшая сбалансированность: vikhr-7b-instruct-0.4 (язык + логика)
Подробнее на гитхабе, там же полный xls файл.
https://github.com/Mozer/russian-llm-top
KAN: Kolmogorov-Arnold Networks
[Статья][Код]
Введение
В основе всех (ну почти всех) современных архитектур лежит многослойный перцептрон (MLP) с обучаемыми матрицами, сдвигами и фиксированными активациями и некоторым механизмом агрегации для пространственных входов (свертки, attention, state-spaces, мамба, хуямба).
Теория гласит, что при некоторых предположениях на целевую функцию и функции активации в сети достаточно большой сетью можно приблизить эту самую целевую функцию.
Возникает вопрос 🤔- оптимален ли такой подход по вычислениям / точности и нельзя ли изобрести нечто лучшее?
Метод
В данной статье авторы переосмысляют и в некотором смысле обобщают парадигму построения многослойной сети. В основе идеи лежит знаменитая теорема Колмогорова-Арнольда, что непрерывную многомерную функцию на ограниченной области можно всегда представить в виде композиции функций от одной переменной.
Однако, при этом теорема не дает явного вида этих функций, которые могут оказаться сколько угодно плохими, потому не реализуема на практике.
В данной статье предлагают выучивать сами функции активации, параметризуя их некоторым образом. Каждое ребро между входным и выходным нейроном задается некоторой параметрической функцией довольно общего вида.
Традиционный MLP является одним из частных случаев предлагаемой парадигмы.
В оригинальной теореме перцептрон всего с одним скрытым слоем, но ничто не мешает технически настакать их побольше.
На практике KAN-слой реализуется как B-сплайн с residual connections, домноженный на константу:\phi(x) = w(b(x) + spline(x)), где b(x) = silu(x) = x / (1 + e^{-x})
Оптимизация такого сплайна довольно нетрививальна, и для улучшения сходимости сплайн инициализирует так, чтобы быть близким к нулю в начальный момент времени, и сетка с узлами сплайна обновляется на лету.
При той же глубине и ширине в KAN-сети больше параметров, чем в классической MLP в G (G - размер сетки) раз, но мотивация работы в том, что KAN требуется меньшая ширина для достижения сопоставимого качества.
Далее авторы обосновывают, что KAN обладает значительно лучшей масштабируемостью в сравнении c MLP и обходит проклятие размерности за счет того, что представляет многомерную функцию в виде композиции одномерных, тем самым переводя задачу эффективно в низкоразмерное пространство и выводят степенной закон убывания функции потерь.
Для KAN в однослойной сети, аппроксимирующие функции могут быть очень плохими, но с ростом глубины, существуют все более гладкие комбинации, способные решать целевую задачу.
По ходу дела, для повышения выразительности сети можно добавлять дополнительные узлы в сплайн.