Attaque a-la russe: атака с помощью промт-инъекций русскоязычных моделей семейства Saiga2 / Хабр
https://habr.com/ru/articles/810459/
Рудольф Страусов (не) странный
Немного раздражает, что когда речь заходит о хоть сколько-нибудь талантливых артистах, то сразу включается риторика «он не такой как все, андердог, делает музыку для изгоев». Я хорошо понял это на примере Масла Чёрного Тмина, который хоть и делает приджазованный абстрактный рэп, но сам по себе довольно популярен среди простых пацанов из глубинки. Чтобы убедиться в этом, можете глянуть сколько просмотров собирают корявые перезаливы его треков в Ютубе — полагаю, не надо объяснять, какая аудитория слушает музыку именно там.
Вот с музыкой Рудольфа Страусова происходит что-то подобное, только никакой огромной популярности он так и не сыскал. Это проблема, пожалуй, всей русской альтернативы — самые заметные персонажи либо пилят в меру кринжовый упаднический рокешник (ТДД), либо уходят в грязный-грязный гранж (Кишлак). На их фоне Рудольф выглядит музыкальным гением, но если абстрагироваться от сравнений с отечественной сценой и начать сравнивать с западной, то понимаешь, что уровень продюсерской подкованности Страусова — это необходимый минимум. Минимум, который многие путают с максимумом.
Но его новый альбом мне правда понравился — в нём ощущается авторский подход. Музыка Рудольфа всё время находится где-то между гранжем, пост-панком, блюзом, хип-хопом, трип-хопом и так далее по списку. В эти песни интересно вслушиваться: как-никак, не каждый день в России выходят релизы, в которых эхом раздаётся и Том Уэйтс, и разгульный британский нойз-рок, и Massive Attack. В самом конце альбома Рудольф перепел песенку Крокодила Гены, добавив к гармошке грубые блюзовые ударки — и меня как будто унесло в одинокий зассанный бар, где такое и ожидаешь услышать.
Подобные саунд-дизайнерские приколы хочется слышать везде, а по итогу за всех отдувается один человек. И так и получается, что самый адекватный альтернативщик оказывается в индустрии самым странным. Мне тяжело представить, сколько ресурсов было вложено в эту музыку при минимальном выхлопе. Послушаете альбом «САША» — сделаете доброе дело.
Ребята из тинька заебатый ресерч делают, в отличии от большинства русских резерч лаб это действительно мировой уровень и вероятно в топе по Rl.
Если вы ищете ресерч работу в России - в целом топ1 место куда стоит идти.
Почитайте на досуге, материал неплохой.
tinkoff-research.tass.ru
#чтивонаночь
Видео superres модель от Adobe
Архитектурно это unet с temporal attention и Flow estimator - определяет в какую сторону будут пиксели двигаться
videogigagan.github.io
папир
Почему то многие dsы думают что занимаются model или algorithm sciencе_сом, а не data science
Читать полностью…https://civitai.com/models/388913?modelVersionId=463607
Перемержил Лайтнинг версию.
Прибрал немного грязь (байтденс натоптал), оверстаурейшен - теперь правда нужно больше шагов (около 9)
ChessGPT - есть ли модель мира у языковой модели?
В этих двух блогпостах автор исследует наличие "модели состояния" у языковой модели, обученной на шахматных партиях, записанных в виде PGN (1.e4 e5 2.Nf3 …).
50 миллионов параметров и 16 миллионов игр с lichess уже достаточно, чтобы она умела играть лучше 90% игроков. Как нам получить прямое свидетельство того, что модель внутри хранит состояние доски?
Возьмём активации с внутренних слоёв и будем обучать линейную модель поверх этих активаций предсказывать состояние доски - точнее, вероятность нахождения каждой из фигур в каждой из позиций.
Такой подход успешно предсказывает 99.2% клеток, значит, информация о состоянии всей доски у такой модели есть. Но так можно предсказывать не только доску. Автор учит линейную модель предсказывать - это игра с рейтингом <1500 или >2000 (остальные выкидываем)? Результат - 89%.
Во втором посте автор показывает, что на "рейтинг" сгенерированного хода даже можно повлиять. Для этого мы должны добавлять к активациям внутреннего слоя "вектор высокого рейтинга", который мы выучили, обучая классификатор рейтинга.
И всё-таки, есть ли модель мира у языковой модели?
Этот вопрос, как часто бывает, демонстрирует ограниченность человеческого мышления. Мы склонны наделять большие системы из простых элементов бинарными качествами и до хрипоты спорить о значении терминов, тогда как в реальности всё проще.
У системы внутри есть всё, что помогает решению задачи - "модель мира", "модель игрока". Есть ровно в той степени, которая нужна для минимизации ошибки - x% модели среды, y% модели игрока и даже z% модели качества интернета для предсказания внезапного конца игры.
При этом у системы нет ни модели мира, ни игрока, потому что её об этом не просили в явном виде. А нужно ли это? Я думаю, что нет, и все проблемы, вызыванные их отсутствием, решаются правильной постановкой задачи перед самой системой. Но мы пока к этому не пришли.
@knowledge_accumulator
LLAMA
Когда вы занимаетесь перформансом, одно из полезных упражнений для проделывания в голове -- анализ скорости света. В простом варианте надо задать себе вопрос "А какой реально лимит сделать то, что делаем мы в библиотеке/программе?".
Очевидный ответ, понятное дело, ноль, лимита нет. Но если подумать, всегда есть некоторые ограничения. Приведём примеры:
Компрессия -- лимит: memcpy. Скопировать данные уж точно надо будет
Хеширование -- проход по массиву, уж точно надо будет все данные прогрузить и сделать хотя бы одну инструкцию с ними
Аллокатор -- хмм, уже не очень понятно
Анализы скорости света выходят всё чаще и чаще, например, теоретические лимиты в математике/алгоритмах и так далее. Они часто оказываются неприменимы, но они действительно могут помочь понять, куда смотреть, находить какие-то эвристики для того, чтобы приблизиться к этому лимиту.
Тут вышла статья с технологией LLAMA (нет, не моделькой от фейсбука и название поста специально привлекает ваше внимание, потому что хайповые вещи я обсуждаю очень редко). А именно Learned Lifetime-Aware Memory Allocator.
https://dl.acm.org/doi/pdf/10.1145/3654642#page=89
Одна из проблем при аллокациях памяти -- локальность, некоторые объекты живут долго, некоторые очень мало, это создает очень большие проблемы с упаковкой памяти и фрагментацией.
Статья рассказывает, что если брать полный стектрейс аллокации и запоминать сколько объект поживёт, то с помощью LLM можно предсказывать сколько объект будет жить, и получить намного лучшую упаковку на реальных программах. К сожалению, запуск даже простых LLM и стектрейсов занимает микросекунды, когда TCMalloc возвращает память почти всегда за наносекунды.
Почему стектрейсы?
Потому что адреса вызовов могут меняться от запуска к запуску из-за рандомизации адресов бинаря. И потому что если вы вызываете аллокацию вектора, которую вызываете из ещё какого-то фреймворка, то становится уже очень сложно понять, какие адреса важны -- на самом деле важны все входы и поэтому полный стектрейс важен.
Что делать с перфом?
Ничего, это будет медленнее, но авторы обмазались кешами и всяким таким, потеряв немного качества и переобучаясь, если качество со временем падает заметно.
Из интересного, да, перформанс аллокатора замедлился раза в 3-4, но перформанс всей программы замедлился всего на 12%. Если посчитать, сколько занимает аллокатор, то в целом получается, что решения аллокатора ускоряют всё остальное. Поэтому не надо бояться проводить немного больше в аллокаторе -- его решения влияют на последующие результаты.
Что в итоге?
В статье очень красивые графики, которые показывают как фрагментация уменьшилась, но выводов особо нет. Это достаточно красивый метод как предсказывать и показывать, а где, собственно, лимит и что любые движения в том, чтобы попытаться такой подход заиспользовать.
В целом авторам удалось заметить некоторые эвристики, которые пошли в прод. Без деталей, но если надо, я найду для следующих постов, там долгая история:
We applied insights from this work to Temeraire, in order to make better decisions about when to break up huge pages in this allocator, which led to an estimated 1% throughput improvement across Google’s fleet
Опенсурс подписчиков:
Модели:
Нормализатор текстов: https://github.com/saarus72/text_normalization
Расстановщик ударений: https://github.com/Den4ikAI/ruaccent
Антиспам: https://github.com/iamwavecut/ngbot
Local gpt для обсидана: https://github.com/pfrankov/obsidian-local-gpt
ЭЭЭЭЭЭЭ дефорум. https://github.com/ai-forever/deforum-kandinsky
Прикольная штука для рисования псевдо 3д на sd: https://github.com/attashe/stable_points
Кодовые проекты:
Очень текстовый интернет: https://github.com/TxtDot/txtdot
GUI для разметки lima like: https://github.com/oKatanaaa/lima-gui
Поиск по базе мвд: https://pypi.org/project/ru-mvd-search-wanted/
Реврайт kingsbounty на js: https://github.com/oulenspiegel/kingsbounty3
Поиск по тг: github.com/torchme/PostFinder
Обертка над LightAutoMl c UI: https://github.com/versus666jzx/MultiAutoML
Блин, ты не одна такая, поверь)
Ты вообще знаешь сколько девчонок с откровенными аватарками пишут мне первым сообщением под любым постом в телеге?)
Команда, я говорил, что у вас должен быть пассивный доход. Но это не означает, что надо приходить в офис, спать целый день, а потом получать зарплату. Пассивный доход - это немного другое. Просьба после обеденного сна повысить свою финансовую грамотность.
Читать полностью…В это воскресенье
Они приедут
Новисад Х love death transformers
/channel/+YkSirBpXEs42NDgy
плейлист на поездку в берлин: https://music.youtube.com/watch?v=iVYw_T9Wk0o&si=YbPUpU3UKtpZqWfb
Читать полностью…Учёные опять думают что занимаются не data science, а model science и начинают придумывать Moe diffusion sparse transformer with speculative attention вместо того чтобы пойти фильтровать данные. 🥱
Читать полностью…Короче, меня надоумили подключить tribute, а по правилам телеги репостить контент нельзя)))
Если вы из телеграмм, пожалуйста получите это недоразумение. Треш какой то
alexwortega/r6zha1uPaAS" rel="nofollow">https://teletype.in/@alexwortega/r6zha1uPaAS
Если вы по каким то причинам не знаете как делать лучших кошкодевочек на civit, Велком
Вышла Phi3, теперь до 14B и 7b модель близка к gpt3.5.
- 100k словарь
- 128к контекста
- По сути скейл идей из phi1-2
Тред: опенсурс подписчиков. Выкладывайте свои наработки, лучшие попадут в дайджест
Читать полностью…https://huggingface.co/datasets/HuggingFaceFW/fineweb
реально крутой релиз, нафильтровали из СС 15т токенов
Open sora, очень большая часть в "предыдущих сериях" и респектабельный abalation study в Latte.
alexwortega/zbsoE9w6A6R" rel="nofollow">https://teletype.in/@alexwortega/zbsoE9w6A6R
За то время что я писал доделали space и теперь резона поднимать его дома особо нет
тыкать:
https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0
Upd, картинка украдена у: @boris_again
Сори, ребят, девушка новая hr джун вышла, уже уволили, зп от 5к до 9к в зависимости от уровня 🙌
Читать полностью…