Релиз Вихрь 0.4
Выложили вихрь 0.4, теперь chatml, ОГРОМНОЕ количество json oriented штук в sft, модель стала лучше работать с контекстом.
huggingface
collab
Свежий обзор PEFT (Parameter-Efficient Fine-Tuning) алгоритмов для LLM.
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey
Zeyu Han, Chao Gao, Jinyang Liu, Jeff Zhang, Sai Qian Zhang
https://arxiv.org/abs/2403.14608
Пересказывать не буду, читайте как справочник :)
Всем привет
Затюнил idefics2 на LLaVAru от команды вихря (https://huggingface.co/datasets/Vikhrmodels/LLaVA-Instruct-ru). Спасибо и респект ребятам!
Цель была сделать все на consumer-grade ресурсах, поэтому без text-only данных (пока) (качество на тексте могло упасть, бенчи пока не гонял), но работает норм, плохо с chat режимом. Переведу/соберу MMBench скорее всего (ну или около его формата) + дособеру данных в формате LLaVAr'а, после трейн на большем сете + text-only, и можно будет метрики померить и просадки тоже будут меньше
А ссылка на текущий чекпоинт вот https://huggingface.co/GeorgeBredis/ruIdefics2-ruLLaVA-merged, там же и снипеты для запуска
Ну и ttbomk это первый опен-сурс ру тюн мультимодальной LLM, так что лайки приветсвуются x2
О будущем Ebany Резерч
Держите набор фактов, которые обязательно произойдут в ближайшее время.
1. Как только в опенсорсе появится архитектура H200 (а это произойдет, общество быстро схватывает тренды и за месяцы делает то, что компании делают годами) начнется новая эра в этом вашем AI. Каждый сможет локально собрать быстрый вычислитель и обучать по гптшке и лламе за вечер
2. Zero-bit инференс — сейчас большая гонка ускорения и квантизации моделей. Резерчеры всего мира стремятся ускорить модели и максимально эффективно использовать каждый бит. Еще недавно радовались квантизации в 8 бит, сейчас уже есть решения, которые используют 1 бит. Предел сами возьмете.
3. Internet as a context. Ну тут вообще очевидно, рост контекста и архитектурные изменения моделей (долой квадратичный атеншен) двигают нас к все более эффективному использованию контекста для ICL. Ну а что может быть эффективнее, чем поместить всю имеющуюся информацию? (вопрос риторический)
4. GPT-5, LLaMA-4 и т.п. будут. Для компаний это сильный пиар и новые пользователи, и выбирая между “ставить обучаться новую версию” и “вытягивать до последнего из имеющегося” они, конечно, будут запускать train loop вновь и вновь
5. AGI скоро будет. Начало 2023 года — MMLU даже 40 не набирает, начало 2024 года — больше 80% успешно решается. В 2025 году модели уже будут обгонять людей, а в 2026 MMLU будет решать на 100% и наступит новый виток истории.
Тут челы сделали LLM для татарского!
https://huggingface.co/Tweeties/tweety-tatar-base-7b-2024-v1
Та есть игрушки. Но лучшие- это мои кроссовки красть и пытаться в диван запихать, иногда берут карту и процесс и ничего не считают, крышечки от пластиковых бутылок и плюшевый манежик, в котором зверь спит и тягает его по комнате и размещает по настроению.
А, еще в пакетике шуршать и драть бумагу, например, если газету оставить на клетке. Или если найдут что-то в квартире торчащее из ящика
А лучшая игра - замочи студента, они выбирают между собой кто плохой студент, обычно это маленький, и большой его бегает мочит :)
Короче, игрушки и игры своеобразные.
прислано подписчиком
В это воскресенье
Они приедут
Новисад Х love death transformers
/channel/+YkSirBpXEs42NDgy
плейлист на поездку в берлин: https://music.youtube.com/watch?v=iVYw_T9Wk0o&si=YbPUpU3UKtpZqWfb
Читать полностью…Учёные опять думают что занимаются не data science, а model science и начинают придумывать Moe diffusion sparse transformer with speculative attention вместо того чтобы пойти фильтровать данные. 🥱
Читать полностью…Короче, меня надоумили подключить tribute, а по правилам телеги репостить контент нельзя)))
Если вы из телеграмм, пожалуйста получите это недоразумение. Треш какой то
Привет всем! Жаль есть повод начать с этого топика.
Авиакомпания (Ryanair) потеряла багаж, в котором находился мой месячный запас антидепрессантов Венлафлаксин.
Прошло уже три дня, новостей о багаже нет, а я начал испытывать серьезные побочные эффекты резкой отмены СИОЗСН: brain zaps, повышенная тревожность, постоянного пред-мигрениозного ощущения, повышенного давления, бессонницы, и т.п.
Каким образом я могу записаться на срочный прием к врачу где нибудь в Las Palmas, кто сможет мне оформить экстренный рецепт? Прям плохая ситуация
Территориально я в Сан Агустин
https://www.reddit.com/r/LocalLLaMA/comments/1ceh5cp/gpt2chatbot_at_lmsys_chatbot_arena/
Читать полностью…твитерские узнали что если вышла модель получше и сунуть ее на место где была модель похуже, то модель получше будет получше.
кхм
ОХУЕТЬ, А МЫ НЕ ЗНАЛИ, 10 ПРИМЕРОВ ДОЛБАЕБОВ ИЗ 10
#чтивонаночь
Как учить модели правильно? сколько эпох ставить на вики? Почему админ дрочит на data quality?
Ответы на эти и не только вопросы в обзоре - Physics of Language Models:
Knowledge Capacity Scaling Laws
alexwortega/CLZZc3E9Ci3">teletype
arxiv для любознательных
Привет, вижу ты как и я любишь спешиалти)
Хочешь покажу где самый вкусный цикорий заваривают?
Attaque a-la russe: атака с помощью промт-инъекций русскоязычных моделей семейства Saiga2 / Хабр
https://habr.com/ru/articles/810459/
Рудольф Страусов (не) странный
Немного раздражает, что когда речь заходит о хоть сколько-нибудь талантливых артистах, то сразу включается риторика «он не такой как все, андердог, делает музыку для изгоев». Я хорошо понял это на примере Масла Чёрного Тмина, который хоть и делает приджазованный абстрактный рэп, но сам по себе довольно популярен среди простых пацанов из глубинки. Чтобы убедиться в этом, можете глянуть сколько просмотров собирают корявые перезаливы его треков в Ютубе — полагаю, не надо объяснять, какая аудитория слушает музыку именно там.
Вот с музыкой Рудольфа Страусова происходит что-то подобное, только никакой огромной популярности он так и не сыскал. Это проблема, пожалуй, всей русской альтернативы — самые заметные персонажи либо пилят в меру кринжовый упаднический рокешник (ТДД), либо уходят в грязный-грязный гранж (Кишлак). На их фоне Рудольф выглядит музыкальным гением, но если абстрагироваться от сравнений с отечественной сценой и начать сравнивать с западной, то понимаешь, что уровень продюсерской подкованности Страусова — это необходимый минимум. Минимум, который многие путают с максимумом.
Но его новый альбом мне правда понравился — в нём ощущается авторский подход. Музыка Рудольфа всё время находится где-то между гранжем, пост-панком, блюзом, хип-хопом, трип-хопом и так далее по списку. В эти песни интересно вслушиваться: как-никак, не каждый день в России выходят релизы, в которых эхом раздаётся и Том Уэйтс, и разгульный британский нойз-рок, и Massive Attack. В самом конце альбома Рудольф перепел песенку Крокодила Гены, добавив к гармошке грубые блюзовые ударки — и меня как будто унесло в одинокий зассанный бар, где такое и ожидаешь услышать.
Подобные саунд-дизайнерские приколы хочется слышать везде, а по итогу за всех отдувается один человек. И так и получается, что самый адекватный альтернативщик оказывается в индустрии самым странным. Мне тяжело представить, сколько ресурсов было вложено в эту музыку при минимальном выхлопе. Послушаете альбом «САША» — сделаете доброе дело.
Ребята из тинька заебатый ресерч делают, в отличии от большинства русских резерч лаб это действительно мировой уровень и вероятно в топе по Rl.
Если вы ищете ресерч работу в России - в целом топ1 место куда стоит идти.
Почитайте на досуге, материал неплохой.
tinkoff-research.tass.ru
#чтивонаночь
Видео superres модель от Adobe
Архитектурно это unet с temporal attention и Flow estimator - определяет в какую сторону будут пиксели двигаться
videogigagan.github.io
папир
Почему то многие dsы думают что занимаются model или algorithm sciencе_сом, а не data science
Читать полностью…