Выложили audio версию Infinity Instruct + GrandMaster в speech версии!
Tts
huggingface
Attention Heads of LLM — A survey
Трансформеры это всё ещё чёрный ящик или уже нет? За последние несколько лет мы сильно приблизились к пониманию функций отдельных компонент языковых моделей, лучше понимаем, как они приходят к тому или иному выводу, и главное — как можно влиять на процес их "размышений", редактировать отдельные факты в памяти и многое другое.
В этой статье собрали в кучку всё, что известно о функциях голов внимания в LLM с очень красивыми схемами и таблицами. Вот только небольшая часть:
- Associative Memories Head
- Truthfulness Head
- Semantic Induction Head
- Global Retrieval Head
- Subword Merge Head
Поэтому, если хотите погрузиться в интерпретируемость трансформеров — очень рекомендую полистать этот обзор.
Статья
Emergent abilitys ожидание: ну мы сделали sota на всех языках
Emergent abilitys реальность:
если вы сми и хотите написать статью про лучшую ллм ресерч лабу в россии - вас ждут в личку @transformerslovedeatch
Читать полностью…Не Поповым единым...
В 1901 году в Киеве выпускник университета Семен Айзенштайн провел для почтенной публики демонстрацию беспроволочного радио собственной конструкции. Ее почти присутствием (уважил родителя Семена, купца первой гильдии) генерал-губернатор Сухомлинов и так расчувствовался, что предложил Семену немедленно заняться выпуском таких устройств, полагая, что армии они будут крайне нужны. Но тот считал, что знаний у него все еще недостаточно, и отправился учиться в Германию.
Вернулся он в 1905-м году, уже в Петербург. К тому времени делами радио занимался институт, открытый специально «под Попова», куда и перетекали все заказы (главными заказчиками, как и пророчествовал Сухомлинов, были военные). Попов умер год спустя, но его ученики были активны и талантливы, а военное ведомство к ним лояльно. Было глупо с ними соревноваться, но Семен решил попробовать.
Первая же задача — соединить беспроволочной связью Киев, Жмеринку и Одессу, была выполнена с блеском и открыла ему путь к госзаказам. Вслед за этим успешным проектом последуют и другие, а уж когда Сухомлинов возглавит военное ведомство, то заказы Айзенштейну и вовсе потекут рекой — военный министр будет считать этого бывшего студента своим личным открытием.
Задачи возросли и для расширения производства надо было искать деньги — и он нашел неожиданного компаньона в лице бывшего ссыльного народовольца Юрия Тищенко. Тот возглавлял рабочие комитеты Баку и одновременно был правой рукой миллионщика Гукасова. Собственные миллионы, сделанные на нефти, Тищенко щедро жертвовал на «дело рабочего класса». Дело это, правда, обернулось пожарами на нефтепромыслах, от которых замахнувшаяся было на мировое лидерство каспийская нефть так никогда и не оправится. Доходы Тищенко снижались, и народоволец вложил заработанное на нефти в компанию Айзенштейна, да еще вовлек в дело своего друга и классового врага Гукасова.
В 1908 году учреждается «Общество беспроволочных телеграфов и телефонов системы С.М. Айзенштейна», которое позже получит от Совмина право именоваться «российским» (РОБТиТ). К тому моменту в стране была уже жесткая конкуренция в области радио — два десятка российских компаний плюс мировые монстры, вроде Маркони и Сименса. Тем не менее устройства оригинальной системы Айзенштейна конкуренцию выигрывали.
У Айзенштейна - нюх на таланты: у него работает Папалекси, будущий академик и отец радиофизики, Львович, который станет главным в продвижении радио в СССР, а также Шейнберг, будущий главный инженер Маркони.
За шесть лет обороты выросли в 25 раз, а когда началась война, возросла и сложность задач: например, удалось построить мощную радиостанцию, которая позволяла держать связь со столицами стран Антанты; была разработана компактная полковая рация, которую можно было перевозить на лошади, начат выпуск первых отечественных радиоламп.
Приходит революция. Айзенштейн, социалист и человек прогрессивных взглядов, ждет от нее свобод: он внешне безропотно переживает национализацию и пробует сотрудничать с новой властью, например, оборудует Шуховскую башню. Однако бесконечные аресты удручают его. Аресты с целью грабежа он еще переносит, но когда его вновь обвиняют в саботаже (за что полагался расстрел) Айзенштейн решает, что с него хватит, и тайно бежит в Лондон, где находит себе работу на фирме старого знакомого Маркони.
РОБТиТ же будет «вписан» в советскую систему и станет зваться НПО «Вектор». Производство электроламп перейдет заводу «Светлана».
Во время второй мировой войны талант Айзенштейна пригодится армиям союзников, к десяткам патентов Российской империи он прибавил еще столько же английских, а после войны акционеры именно ему предлагают возглавить компанию English Electric Valve Company, выпускавшей радары. Созданная им компания, которая называется сейчас e2v оборудовала телескоп Хаббл, её клиенты - Боинг, Аэробус, НАСА, ЕКА.
Умер пионер российской радиосвязи в Лондоне в 1962 году, в 78 лет. В России о нем помнят, говорят и пишут мало - что, собственно, вовсе не означает, что он нашей памяти не достоин.
#техноистории от Саши Иванова
Почему почти у всех полезных матриц маленький ранг?
В нашей с вами жизни матрицы малого ранга встречаются на каждом шагу, например, в моделировании физических свойств физических систем (анализ теплопроводности или модальный анализ вибраций), в рекомендательных системах, сжатие изображений – везде, если поискать , можно найти матрицы с небольшим рангом. 🧐
Это невероятно удобно: с матрицами малого ранга можно делать абсолютно неприличные вещи – например, для матрицы n × n ранга d можно восстановить все её элементы из случайно выбрав C*n^{1.2}*r*log n значений. Понятное дело, все операции – матвеки, подсчёт нормы и всяких разложений тоже существенно ускоряются. В наших любимых LLMках матрицы малого ранга используются для тюнинга и создания адаптеров для решения разнообразных задач.
При этом, случайные Гауссовские матрицы имеют (с огромной вероятностью) полный ранг. Каким-то образом получается, что для матриц "из жизни" ранг оказывается небольшим. 🤪
Самое, наверное, известное – наш мир образуют гладкие функции (скалярные и векторные), а они порождают матрицы маленького ранга. На днях я набрёл на альтернативное объяснение (откуда украл картинку для поста): матрицы в реальном мире похожи на результат матричных уравнений Сильвестра. У таких матриц будет маленький displacement rank – он свойственен системам, где можно выбрать разные точки отсчёта. Оценки у ребят получаются довольно некрасивые (кому нравится считать числа Золотарёва?), но зато точные. Кстати, в этом нашем диплёрнинге low displacement rank matrices уже успели поприменять. Широко известные в узких кругах Albert Gu и Tri Dao тоже отметились.
Всем подписчикам желаем низкого ранга по жизни – ну, чтобы гладко всё было, да. 👍
Почему собаки такие разные на вид?
В сравнении с другими видами собаки максимально разнообразны в формах, размерах и окрасах: от лысых немного тсясущихся крыс до статных спокойных коров весом в центнер 🥁. Поведенчески – тоже огромное разнообразние: лабрадоры добрые, колли пасут всё, что движется, а в чихуа-хуа живёт инкарнация дьявола. 😈
На этот вопрос отвечает исследование группы учёных, которые изучили ДНК 900+ псов. Оказывается, семью генетическими регионами можно объяснить примерно 80% всего разнообразия в формах и размерах наших любимцев. Это случилось из-за того, как эффективно начинающие Дарвины занимались искусственным отбором желаемых черт у наших домашних любимцев.
На картинке выше (интерпретация исследования от National Geographic) породы разделены на четыре кластера: волкоподобные собаки, пастушьи, охотничьи, и мастифоподобные. Интересно, что некоторые собаки, прикидывающиеся древними породами, например фараоновы собаки, по результатам генетического анализа на поверку оказались современной породой. 😮💨
C более подробное интервью с авторами можно ознакомиться вот тут. Интересно, как результаты подобных исследований переносят на людей?
полистал дальше, все еще выглядит как general подход на основе вот этого
Это не значит что кто то что то украл****
https://arxiv.org/pdf/2408.03314 короче если хотите нормальных работ, вот гугловая и hfшная
Вот OpenAiшный CoT+BoN+Sppo или что то похожее
https://openai.com/index/learning-to-reason-with-llms/
Я изучил программу самых известных программ по DataScience и составил собственный бесплатный курс подготовки senior ресерчеров:
⁃ Начинаем курс с пайки и микроэлетроники - 6 месяцев
⁃ Учимся программировать под arduino - 4 месесяца
- Пишем папиру на диалог/любую русскую конфу - 1 неделя
⁃ Идем в нму дрочить листочки на первый семестр 4 месяца
⁃ Идем работать в макдак, паралельно учим python и torch – 6 мес
⁃ Дальше репетитором по математике, паралельно контрибьютим в любой опенсурс по вкусу – 6 мес
⁃ Завершаем курс написанием статьи на а* – 9 мес
На выходе всего за 3 года получаем закаленного резерчера, который всем нужен.
слухи перед каждой презентацией openai все больше напоминают "реальный мамой клянусь" прототип айфона 6 перед презентациями apple лет 10 назад
Читать полностью…Давно порываюсь вам написать про ТГ-сетки которые про ML-пишут и что им не стоит верить, вот пример ⬆︎
Что на самом деле происходит с этой новой моделью Reflection-70B
:
1. Пару дней твиттерский показал свою новую языковую 70B-модель которая с рекордами прошла все бенчмарки (по его утверждению это был файнтюн Llama 3.1 70b ) и что такая же 400b будет вот-вот
2. Модель начала вируситься, ее начали качать и оказалось, что она толком не работает потому что там внутри немного битый конфиг ее запуска (это если простыми словами)
3. Автор перезалил модель, сказал что все починил и все работает — но теперь оказалось что нужно использовать только специальный системный промпт чтобы она работала
4. Сообщество начало тестировать, разобрало модель по кусочкам и оказалось, что это файнтюн Llama 70b 3.0, а не 3.1. И причем не файнтюн модели целиком, а просто Lora-адаптер вмерженного в модель (тренируют кусочек модели который замещает часть модели)
5. Автор сказал, я вообще не помню что я там использовал — толи 3.0 толи 3.1, что такое Lora я не знаю, это не важно все — мы тут сейчас все заново поставим тренироваться, уже поставили точнее (зачем перетренивать модель которая по метрикам побила все бенчмарки пару дней назад мы не узнаем)
6. Параллельно с этим, появилась веб-версия этой модели о которой пишет Бекдор — и ее API дали сегодня протестировать сторонней организации, она неплохо справилась и подтвердила что результаты высокие (но модель доступна только по API)
7. Пару часов назад автор публикует новую версию модели Reflection 70b e3 и сразу пишет, что с ней что-то не так: «Веса залились, но мы все еще проверяем, чтобы убедиться, что они правильные, прежде чем мы собираемся закончить день» – зачем заливать модель до тестов? Ответа нет
8. Люди тестирующие веб версию Reflection 70b, обратили внимание, что она очень похожа на Sonnet 3.5 — буквально токен в токен отдает ответы такие же ответы<играет цирковая музыка, вы находитесь здесь>
Буду держать вас в курсе нашей высокотехнологичной драмы – возможно, чел правда что-то натренил, но пока мы не знаем что.
Ну и для нейронок лучше читать проверенные ML-каналы, сейчас такое время, что все экспертами в АИ стали (я даже не про свой, я их часто сюда репощу)
Ежемесячные слухи о том, что "AGI достигнут внутри OpenAI", похожи на историю про мальчика, который кричал "волки" — за исключением того, что деревенские жители продолжают приходить без исключения 30 раз подряд, несмотря на то что в этом районе никогда не было волков.
Читать полностью…вот би бил егэ по бенчмаркам....
очередная модель, типа соннет бьет на оффлайн бенчах
А сегодня на том же самом KDD представили Test of Time award за самый значительный вклад статьи десятилетней давности – её получил по совместительству мой менеджер Брайан за первую работу по нейросетевым графовым эмбеддингам DeepWalk: Online Learning of Social Representations. 🤴
Треть моей Ph.D. диссертации посвящена как раз эмбеддингам графов, так что эта награда – некоторая легитимизация нашего общего направления исследований. За всё время с Брайаном у нас написано ~15 статей и несколько патентов, многие из них – про эмбеддинги графов. Кстати, у меня не было кодинг-интервью в гугл как раз из-за того, что в моём гитхабе была довольно популярная имплементация этого метода на C++.
Самое удивительное, что за 10 лет метод по качеству не был побит. 👌
Генерация видео в Шедевруме
Яндекс запустил новую диффузионную end-to-end-модель преобразования текста в видео в приложении Шедеврум. Расскажем, как она работает и чем отличается от прошлого подхода.
Как было раньше и как стало сейчас
Шедеврум и прежде умел создавать видео по текстовому запросу. Для этого использовалась технология Deforum. Она работает по принципу создания видео из отдельных изображений кадр за кадром. Каждый следующий получается из предыдущего с помощью эвристик — они добавляют движение камеры. При таком подходе согласованность кадров недостаточная.
В новом подходе используется end-to-end-text2video-модель. На вход она получает текст, в котором могут быть указаны субъект, объект и описание действия. Модель сама учитывает связь между кадрами, из-за чего получается более согласованный результат.
Этапы генерации видео
Генерация базовых кадров. На этом этапе создаётся видео с низкой частотой кадров и разрешением. Из нормального распределения сэмплируются зашумлённые кадры, которые впоследствии постепенно преобразуются в связное видео.
Интерполяция кадров. После создания базовых кадров модель увеличивает их частоту, делая видео более плавным. Интерполяция проводится с использованием диффузионной модели, которая добавляет новые кадры между уже существующими.
Повышение разрешения. Модель работает в латентном пространстве, поэтому для повышения разрешения сгенерированные латенты подаются в декодер VAE. В него для большей согласованности фреймов добавили motion-блоки.
Обучение
Процесс обучения модели text2video начинается с адаптации уже существующей text2image-модели. Чтобы не обучать её с нуля, что требует большого количества разнообразных данных, разработчики решили дообучить проверенную модель для генерации изображений, добавив в неё временные блоки (motion-блоки) для работы с видео. Чтобы снизить нагрузку на память и ускорить обучение, использовались техники mixed precision и torch.FSDP.
Обучение модели происходило поэтапно: сначала с низким разрешением и малым количеством кадров, а затем с постепенным увеличением этих параметров. Так мы смогли ускорить процесс обучения и валидировать больше гипотез за то же время. Однако в ходе обучения возникали проблемы, связанные с нестабильностью модели, вызванной бесконтрольным ростом значений активации. Это решили простой регуляризацией.
Более подробно об устройстве и модели и её создании — читайте в статье на Хабре. А здесь в комментариях делитесь своими впечатлениями!
ML Underhood