Я дам краткую историческую справку, буквально пять минут.
Вы знаете что такое такое солнечные бури?
1 Отучитесь 3 курса на мехмате/махмете/матфаке - дроп
2 Отучитесь два курса ласт курса на ФКН
3 Закончте ШАД
4 Закончите РЭШ
5 Поступайте в MIT и Стенфорд по стипендии таланта
6 ….
7 Простынь с охлаждением, машина и квартира бизнес класса, возможно девушка
Парни из MBZUAI выложили кучу инструкт сетов на разных языках, в том числе на русском !
есть азербайджанский
ссылка
ищу репета по линалу/матану, 2-3 курс фкн/фивт, из требований - сильно не хуесосить /channel/alexwortega
Читать полностью…Тут сделали прикольный тул чтобы папиры верстать, выглядит прикольным гибридом latex+md
typst.app
я не буду хайповать по KAN пока не увижу внятного применения, прикольно конечно, но уже были. Но штука крутая идейно, это правда
графовые сетки
спайковые
гиперболические
куча всякой азитащины которую никто кроме авторов не запускал
И все это не используется и заброшено.
👀 Aeonium-v1-BaseWeb-1B
Завершено обучение первой языковой модели для русского языка с 1.6 млрд. параметров.
- 32B токенов в датасете
- 4096 контекстное окно
- Llama в качестве основной архитектуры
- 128k vocab
HuggingFace
@hikonon
#чтивонаночь
Идея такая - давайте использовать доп голову которая будет учится и быстренько выбирать кусок который нужно подсунуть чтобы эффективнее работать с контекстом, attn принципиально не меняется, при этом метод работает для уже претренутых моделей, можно дешево доучить уже готовую LLM на 500к контекста и это будет работать.
Нормального сравнения с RoPE, alibi нету, но по памяти метод сильно эффективнее текущих
папир
В понедельник будет какая то очередная преза, вот моя ставки что будет:
Тряска во всех канал вида:
openai что то сделали и я возбудился, топ 10 покашливаний самы
Минорный апдейт gpt, примерно как gpt4->cluade3
Завезут 1-10м контекста
Дропнут цены на старые модели
Продукт апдейт для продуктов
Мб dalle3 дотянут до уровня midjorney6(low bid)
Написали всем чатом теормин на ds стажера-джуна в 2024.
Пройдя все указаные курсы и прочитав все указаные книги вы можете расчитывать на стажера в средне-хорошей российской компании
сайт где ознакомится
В чем разница между твоим научником и белкой?
Белка иногда вспоминает про то, что она набрала себе осенью
в очередной раз двачеры написали много более понятный гайд по использованию сеток чем любые резечеры.
Ознакомится: https://2ch-ai.gitgud.site/wiki/
хм, интересный эффект
те разваливает QK без нормализации даже в bf16, странно что именно qk оверфлоатит, обычно такое бывает у LN/активаций.
Не давайте украсть у себя память. Почтите павших и поздравьте живых.
С праздником.
Вчера наткнулся на новый бесплатный софт для смены голоса в режиме реального времени — для всех любителей дискорда, стримов, пранков над коллегами и создателей контента самое то. Внутри 10 голосов и можно настраивать каждый под себя, ставится как доп устройство в ОС
Есть версия под Mac и под Windows:
https://product.supertone.ai/shift
Поигрался — я тоже пикапер в своем роде, знаете ли 😎
‼️ ОТКУДА DEEZER ЗНАЕТ, КАКАЯ МУЗЫКА НРАВИТСЯ НОВЫМ ПОЛЬЗОВАТЕЛЯМ?
В этом посте я расскажу о том, как музыкальная платформа Deezer, используя метаданные и нейросети, с первых секунд начала рекомендовать новым пользователям персонализированные треки!
В статье вы можете узнать про:
1️⃣ Почему холодный старт важен
2️⃣ Зачем сервисы следят за вами
3️⃣ Зачем нужна кластеризация
4️⃣ Как Deezer научились персонализировать Cold Start
ЧИТАТЬ ПО ССЫЛКЕ
Отдать голос за канал
/channel/boost/persecond300k
Вступить в чат
/channel/persecond300kchat
#RECSYS
Однажды ии блогер потрогал траву и пеерехал в амст
Однажды ии блогер потрогал траву и перестал писать писатьть
Однажды ии блогер потрогал траву и вселенная схлопнулась