Идет бомж по улице. Видит — валяется Тетрадь Смерти. Схватил ее и подтерся. А на следующий день умерла очень важная область - superalignment
Inspired by @rlabrats
Вы не просили, не ждали а мы по чуть чуть делаем.
Паблик чат по вихревым моделям
/channel/vikhrmodels
Короче, я решил угореть и сделать из 5.2 энкодер.
0 слой я не трогал, а вот следующие решил подвигать и перебрать.
Зачем?
Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Нам было весело.
В обещем идея простая - отставил первые три слоя + embedings, получился 900м обрезок который ну чуть больше e5 large, без контрастива где то около FredT5 large по Encodechke. Зачем вам эта информация? я хз, у меня были свободные часы в воскресенье
модель на хф
Grokked Transformers are Implicit Reasoners:
A Mechanistic Journey to the Edge of Generalization
Ну я кластер забыл выключить, 10**5 cтепов пробежали, ну теперь статью напишем
ой, да ладно вам выдумывать, какой еще man in finance, trust fund, 6.5, blue eyes?
забыли, где живете? у нас только юрфак, пахан намутил еще на приватизации, сын теперь кайфует, 180, карие глаза, лв авеню, лорики, пятерка в м-пакете, кофемания, лавандовый раф в мгимо
Стоит ли дальше писать на русском или забить и писать на английском ?
Хз ощущение будто статьи на русском про нейронки читать особо некому
Релиз 5.* вихря
Арена на этих данных. Релиз арены выйдет ДАННЫЕ УДАЛЕНЫ
апвотить папир тут
модель
если вы случайно богатый дон или компания с кучей лишних карт - мы ждем вас @transformerslovedeatch
Авторы: @nlpwanderer @mlunderground
Юрген выдавал базу ещё в 1991, просто лекун и авторы трансформера все украли и не процитировали.
Архив
Оказывается гибрид комсомольца и рептилоида ещё и социопат с кабальными контрактами.
Минусов не будет, agi till 2027 как говорится.
https://readhacker.news/s/68jMz
Помните шоу трумана?
Короче тут ребята из/a16z сделали интерактивное LLM шоу трумана, все NPC это llama3, довольно занудное зрелище, но если очень хочется посмотреть - вот ссылка.
Таких работ примерно миллион, все они примерно не о чем, серьезно их читать не стоит, но пофантазировать о Sims7 через пару лет - можно.
ai town
Мастер и Маргарита в 2024:
Аннушка уже разлила свой спф от Sol De Janeiro, Берлиоза переехал школьник в хром хартс на электросамокате, Воланд три часа пытался загипнотизировать хостес в Хорошей Девочке, чтоб ему нашли свободный стол, Азазелло снялся в каждом рилсе «сколько ты зарабатываешь в месяц?» и продал несколько курсов, вместо кота Бегемота - мальтипу Микки, Маргарита, жена ресторатора, помогала писать Мастеру, диджею в отставке, посты для его тг-канала, а после бала в Родине свита Воланда дружно улетела в Дубай
Парень ты что ничего не знаешь SFT/DPO/PPO?
Хватит сидеть сложа руки! Иди и обучи свой первый alpaca chekpoint
хз, почитайте статью яндекса про алаймент, картинки для през для студентов я третий раз тырю из этой статьи и вам советую
Прекрасная украденная картинка с оптимальностью моделей. Лучшие модели - те что выше и правее. Короче Llama3 8b
Читать полностью…удивительно, опять маленькие сетки на задачу лучше чем декодеры. никто не догадывался
Читать полностью…ой, да ладно вам выдумывать, какой еще research in ai aligment, faang, 600k/year, 10hi, 1000 h100?
забыли, где живете? у нас только мехмат, пахан препал еще на матмехе, сын теперь работает в сбере, публикации в скопусе , 35k/year а понтов на все 200, 1v100 16gb на коллабе, 10hi на классификации пяток носорога
очень тихо microsoft зарелизи copilot в телеграмме, нужен не русский номер кажется.
Можно скинуть любой не русский номер и будет рабоатть
блогпост
@CopilotOfficialBot
Uni-MoE: Scaling Unified Multimodal LLMs with
Mixture of Experts
- У нас есть 4o дома.
- 4о дома.
Китайская MoE про то как через latent по образцу Llava сунуть все модальности в трансформер и радоватся. Так и живем
папер
Изучаем Liquid Neural Networks
Собрал все воедино, чтобы удобно было делиться с коллегами.
Знакомимся в таком порядке:
Вводная: https://www.youtube.com/watch?v=0FNkrjVIcuk
Подробно: https://www.youtube.com/watch?v=IlliqYiRhMU
Как пришли: https://www.youtube.com/watch?v=iRXZ5vQ6mGE
Знакомимся с Neural ODE: https://habr.com/ru/companies/ods/articles/442002/
Смотрим мои посты:
0) Имплементация Neural ODE с нуля
1) Разбор LTC
2) Тетрадки с имплементацией LTC с нуля
3) Разбор CfC
4) Тетрадки с имплементацией CfC с нуля (новое)
Надеюсь вам будет полезно и интересно.
@toshoseti
Приболел и застрял дома, поэтому сделал в этот раз более полезную GPT конкретно для ChatGPT приложений в режиме «аудио»:
Если вы искали работу, то вы наверное помните как это стрессово — во время интервью, HR может задать какие-то вопросы по CV, и хоть вы их и знаете, можете разнервничаться, запинаться — отсутствие практики сильно добавляет тревожности.
Многие с кем я говорил, кто работает в корпорациях из топа IT — часто говорили что «пройти собеседование» это навык, который можно практиковать и развивать, а сама работа отличается от того, что спрашивают на собеседованиях (так везде ☕️).
Чтобы помощь как-то людям, появилось целое направление HR-видео для кандидатов — они называются «Mock Interview» или «Интервью покабудки»:
Псевдо-собеседование записывается на камеру, иногда между реальным HR и реальным сотрудником из какой-то корпорации, потом выкладывается на Yotube и кандидатам это помогает понять как именно отвечать на вопросы и как готовиться к интервью.
Естественно, такое интервью — не адаптировано конкретно под ваше резюме, конкретно под ваш язык, или под вакансию на которую вы откликаетесь.
Поскольку мы уже живем в АИ-будущем, я подумал что это нужно исправить.
⚙️ Mock Interview Practice GPT:
1) Сохраняете вакансию и ваше CV в виде PDF или HTML страницы, или просто копируете как текст (только отметьте где что)
2) Открываете мою новую GPT «Mock Interview Practice»
3) Вставляете туда файлы / текст, и пишите ей в стиле «Спасибо что пригласили меня, давайте начнем»
4) GPT предложит вам включить «Voice Mode» (иконка 🎧 в аппе, в вебе этой функции нет) — обязательн включите его
5) Проходите интервью как в жизни — займет минут 15-20, в конце, попросите дать фидбек по тому, что улучшить и над чем поработать
6) Добро пожаловать в OpenAI, передавайте привет Сэму
GPT поддерживает все языки, в видео пример (и я болеющий)
Споpят химик, физик и специалист по искусственному интеллекту, какое самое великое изобретение.
Химик: - Таблица Менделеева.
Физик: - Теоpия относительности.
Специалист по искусственному интеллекту: - ТЕРМОС!
Химик и физик: - Что?
- Ну, смотрите сами: наливаем холодную воду, выливаем - опять холодная. Так?
- Да. Hу и?
- Hаливаем горячую, выливаем - опять горячая. Так?
- Hу?
- А откуда он знает???
Майкрософт что то там, кому то там представила, ещё один продукт которым вы попользуетесь 15 минут и забьете
Читать полностью…Your Transformer is Secretly Linear
Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один nn.Linear()
, а модель будет работать, будто бы ничего не поменялось!
Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается.
Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне.
P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность.
Статья, GitHub