О будущем Ebany Резерч
Держите набор фактов, которые обязательно произойдут в ближайшее время.
1. Как только в опенсорсе появится архитектура H200 (а это произойдет, общество быстро схватывает тренды и за месяцы делает то, что компании делают годами) начнется новая эра в этом вашем AI. Каждый сможет локально собрать быстрый вычислитель и обучать по гптшке и лламе за вечер
2. Zero-bit инференс — сейчас большая гонка ускорения и квантизации моделей. Резерчеры всего мира стремятся ускорить модели и максимально эффективно использовать каждый бит. Еще недавно радовались квантизации в 8 бит, сейчас уже есть решения, которые используют 1 бит. Предел сами возьмете.
3. Internet as a context. Ну тут вообще очевидно, рост контекста и архитектурные изменения моделей (долой квадратичный атеншен) двигают нас к все более эффективному использованию контекста для ICL. Ну а что может быть эффективнее, чем поместить всю имеющуюся информацию? (вопрос риторический)
4. GPT-5, LLaMA-4 и т.п. будут. Для компаний это сильный пиар и новые пользователи, и выбирая между “ставить обучаться новую версию” и “вытягивать до последнего из имеющегося” они, конечно, будут запускать train loop вновь и вновь
5. AGI скоро будет. Начало 2023 года — MMLU даже 40 не набирает, начало 2024 года — больше 80% успешно решается. В 2025 году модели уже будут обгонять людей, а в 2026 MMLU будет решать на 100% и наступит новый виток истории.
Тут челы сделали LLM для татарского!
https://huggingface.co/Tweeties/tweety-tatar-base-7b-2024-v1
Та есть игрушки. Но лучшие- это мои кроссовки красть и пытаться в диван запихать, иногда берут карту и процесс и ничего не считают, крышечки от пластиковых бутылок и плюшевый манежик, в котором зверь спит и тягает его по комнате и размещает по настроению.
А, еще в пакетике шуршать и драть бумагу, например, если газету оставить на клетке. Или если найдут что-то в квартире торчащее из ящика
А лучшая игра - замочи студента, они выбирают между собой кто плохой студент, обычно это маленький, и большой его бегает мочит :)
Короче, игрушки и игры своеобразные.
прислано подписчиком
В это воскресенье
Они приедут
Новисад Х love death transformers
/channel/+YkSirBpXEs42NDgy
плейлист на поездку в берлин: https://music.youtube.com/watch?v=iVYw_T9Wk0o&si=YbPUpU3UKtpZqWfb
Читать полностью…Учёные опять думают что занимаются не data science, а model science и начинают придумывать Moe diffusion sparse transformer with speculative attention вместо того чтобы пойти фильтровать данные. 🥱
Читать полностью…Короче, меня надоумили подключить tribute, а по правилам телеги репостить контент нельзя)))
Если вы из телеграмм, пожалуйста получите это недоразумение. Треш какой то
alexwortega/r6zha1uPaAS" rel="nofollow">https://teletype.in/@alexwortega/r6zha1uPaAS
Если вы по каким то причинам не знаете как делать лучших кошкодевочек на civit, Велком
Вышла Phi3, теперь до 14B и 7b модель близка к gpt3.5.
- 100k словарь
- 128к контекста
- По сути скейл идей из phi1-2
Тред: опенсурс подписчиков. Выкладывайте свои наработки, лучшие попадут в дайджест
Читать полностью…#чтивонаночь
Как учить модели правильно? сколько эпох ставить на вики? Почему админ дрочит на data quality?
Ответы на эти и не только вопросы в обзоре - Physics of Language Models:
Knowledge Capacity Scaling Laws
alexwortega/CLZZc3E9Ci3">teletype
arxiv для любознательных
Привет, вижу ты как и я любишь спешиалти)
Хочешь покажу где самый вкусный цикорий заваривают?
Attaque a-la russe: атака с помощью промт-инъекций русскоязычных моделей семейства Saiga2 / Хабр
https://habr.com/ru/articles/810459/
Рудольф Страусов (не) странный
Немного раздражает, что когда речь заходит о хоть сколько-нибудь талантливых артистах, то сразу включается риторика «он не такой как все, андердог, делает музыку для изгоев». Я хорошо понял это на примере Масла Чёрного Тмина, который хоть и делает приджазованный абстрактный рэп, но сам по себе довольно популярен среди простых пацанов из глубинки. Чтобы убедиться в этом, можете глянуть сколько просмотров собирают корявые перезаливы его треков в Ютубе — полагаю, не надо объяснять, какая аудитория слушает музыку именно там.
Вот с музыкой Рудольфа Страусова происходит что-то подобное, только никакой огромной популярности он так и не сыскал. Это проблема, пожалуй, всей русской альтернативы — самые заметные персонажи либо пилят в меру кринжовый упаднический рокешник (ТДД), либо уходят в грязный-грязный гранж (Кишлак). На их фоне Рудольф выглядит музыкальным гением, но если абстрагироваться от сравнений с отечественной сценой и начать сравнивать с западной, то понимаешь, что уровень продюсерской подкованности Страусова — это необходимый минимум. Минимум, который многие путают с максимумом.
Но его новый альбом мне правда понравился — в нём ощущается авторский подход. Музыка Рудольфа всё время находится где-то между гранжем, пост-панком, блюзом, хип-хопом, трип-хопом и так далее по списку. В эти песни интересно вслушиваться: как-никак, не каждый день в России выходят релизы, в которых эхом раздаётся и Том Уэйтс, и разгульный британский нойз-рок, и Massive Attack. В самом конце альбома Рудольф перепел песенку Крокодила Гены, добавив к гармошке грубые блюзовые ударки — и меня как будто унесло в одинокий зассанный бар, где такое и ожидаешь услышать.
Подобные саунд-дизайнерские приколы хочется слышать везде, а по итогу за всех отдувается один человек. И так и получается, что самый адекватный альтернативщик оказывается в индустрии самым странным. Мне тяжело представить, сколько ресурсов было вложено в эту музыку при минимальном выхлопе. Послушаете альбом «САША» — сделаете доброе дело.
Ребята из тинька заебатый ресерч делают, в отличии от большинства русских резерч лаб это действительно мировой уровень и вероятно в топе по Rl.
Если вы ищете ресерч работу в России - в целом топ1 место куда стоит идти.
Почитайте на досуге, материал неплохой.
tinkoff-research.tass.ru
#чтивонаночь
Видео superres модель от Adobe
Архитектурно это unet с temporal attention и Flow estimator - определяет в какую сторону будут пиксели двигаться
videogigagan.github.io
папир
Почему то многие dsы думают что занимаются model или algorithm sciencе_сом, а не data science
Читать полностью…https://civitai.com/models/388913?modelVersionId=463607
Перемержил Лайтнинг версию.
Прибрал немного грязь (байтденс натоптал), оверстаурейшен - теперь правда нужно больше шагов (около 9)
ChessGPT - есть ли модель мира у языковой модели?
В этих двух блогпостах автор исследует наличие "модели состояния" у языковой модели, обученной на шахматных партиях, записанных в виде PGN (1.e4 e5 2.Nf3 …).
50 миллионов параметров и 16 миллионов игр с lichess уже достаточно, чтобы она умела играть лучше 90% игроков. Как нам получить прямое свидетельство того, что модель внутри хранит состояние доски?
Возьмём активации с внутренних слоёв и будем обучать линейную модель поверх этих активаций предсказывать состояние доски - точнее, вероятность нахождения каждой из фигур в каждой из позиций.
Такой подход успешно предсказывает 99.2% клеток, значит, информация о состоянии всей доски у такой модели есть. Но так можно предсказывать не только доску. Автор учит линейную модель предсказывать - это игра с рейтингом <1500 или >2000 (остальные выкидываем)? Результат - 89%.
Во втором посте автор показывает, что на "рейтинг" сгенерированного хода даже можно повлиять. Для этого мы должны добавлять к активациям внутреннего слоя "вектор высокого рейтинга", который мы выучили, обучая классификатор рейтинга.
И всё-таки, есть ли модель мира у языковой модели?
Этот вопрос, как часто бывает, демонстрирует ограниченность человеческого мышления. Мы склонны наделять большие системы из простых элементов бинарными качествами и до хрипоты спорить о значении терминов, тогда как в реальности всё проще.
У системы внутри есть всё, что помогает решению задачи - "модель мира", "модель игрока". Есть ровно в той степени, которая нужна для минимизации ошибки - x% модели среды, y% модели игрока и даже z% модели качества интернета для предсказания внезапного конца игры.
При этом у системы нет ни модели мира, ни игрока, потому что её об этом не просили в явном виде. А нужно ли это? Я думаю, что нет, и все проблемы, вызыванные их отсутствием, решаются правильной постановкой задачи перед самой системой. Но мы пока к этому не пришли.
@knowledge_accumulator
LLAMA
Когда вы занимаетесь перформансом, одно из полезных упражнений для проделывания в голове -- анализ скорости света. В простом варианте надо задать себе вопрос "А какой реально лимит сделать то, что делаем мы в библиотеке/программе?".
Очевидный ответ, понятное дело, ноль, лимита нет. Но если подумать, всегда есть некоторые ограничения. Приведём примеры:
Компрессия -- лимит: memcpy. Скопировать данные уж точно надо будет
Хеширование -- проход по массиву, уж точно надо будет все данные прогрузить и сделать хотя бы одну инструкцию с ними
Аллокатор -- хмм, уже не очень понятно
Анализы скорости света выходят всё чаще и чаще, например, теоретические лимиты в математике/алгоритмах и так далее. Они часто оказываются неприменимы, но они действительно могут помочь понять, куда смотреть, находить какие-то эвристики для того, чтобы приблизиться к этому лимиту.
Тут вышла статья с технологией LLAMA (нет, не моделькой от фейсбука и название поста специально привлекает ваше внимание, потому что хайповые вещи я обсуждаю очень редко). А именно Learned Lifetime-Aware Memory Allocator.
https://dl.acm.org/doi/pdf/10.1145/3654642#page=89
Одна из проблем при аллокациях памяти -- локальность, некоторые объекты живут долго, некоторые очень мало, это создает очень большие проблемы с упаковкой памяти и фрагментацией.
Статья рассказывает, что если брать полный стектрейс аллокации и запоминать сколько объект поживёт, то с помощью LLM можно предсказывать сколько объект будет жить, и получить намного лучшую упаковку на реальных программах. К сожалению, запуск даже простых LLM и стектрейсов занимает микросекунды, когда TCMalloc возвращает память почти всегда за наносекунды.
Почему стектрейсы?
Потому что адреса вызовов могут меняться от запуска к запуску из-за рандомизации адресов бинаря. И потому что если вы вызываете аллокацию вектора, которую вызываете из ещё какого-то фреймворка, то становится уже очень сложно понять, какие адреса важны -- на самом деле важны все входы и поэтому полный стектрейс важен.
Что делать с перфом?
Ничего, это будет медленнее, но авторы обмазались кешами и всяким таким, потеряв немного качества и переобучаясь, если качество со временем падает заметно.
Из интересного, да, перформанс аллокатора замедлился раза в 3-4, но перформанс всей программы замедлился всего на 12%. Если посчитать, сколько занимает аллокатор, то в целом получается, что решения аллокатора ускоряют всё остальное. Поэтому не надо бояться проводить немного больше в аллокаторе -- его решения влияют на последующие результаты.
Что в итоге?
В статье очень красивые графики, которые показывают как фрагментация уменьшилась, но выводов особо нет. Это достаточно красивый метод как предсказывать и показывать, а где, собственно, лимит и что любые движения в том, чтобы попытаться такой подход заиспользовать.
В целом авторам удалось заметить некоторые эвристики, которые пошли в прод. Без деталей, но если надо, я найду для следующих постов, там долгая история:
We applied insights from this work to Temeraire, in order to make better decisions about when to break up huge pages in this allocator, which led to an estimated 1% throughput improvement across Google’s fleet
Опенсурс подписчиков:
Модели:
Нормализатор текстов: https://github.com/saarus72/text_normalization
Расстановщик ударений: https://github.com/Den4ikAI/ruaccent
Антиспам: https://github.com/iamwavecut/ngbot
Local gpt для обсидана: https://github.com/pfrankov/obsidian-local-gpt
ЭЭЭЭЭЭЭ дефорум. https://github.com/ai-forever/deforum-kandinsky
Прикольная штука для рисования псевдо 3д на sd: https://github.com/attashe/stable_points
Кодовые проекты:
Очень текстовый интернет: https://github.com/TxtDot/txtdot
GUI для разметки lima like: https://github.com/oKatanaaa/lima-gui
Поиск по базе мвд: https://pypi.org/project/ru-mvd-search-wanted/
Реврайт kingsbounty на js: https://github.com/oulenspiegel/kingsbounty3
Поиск по тг: github.com/torchme/PostFinder
Обертка над LightAutoMl c UI: https://github.com/versus666jzx/MultiAutoML