Update:
c большой моделью проблема - метрики кривые, в реальности
mmlu_ru=0.51, xwinograd 0.65, xnli_ru=0.38
думаю успею в начале недели выложить инструкт версию
https://huggingface.co/docs/transformers/main/en/model_doc/siglip
LOL модель теперь до HF доехала!
Запустили с командой новый продукт LittleStory:
AI-генератор длинных и (относительно) интересных сказок для детей.
Пользователь регистрируется, добавляет на сайт описание ребенка (характер, возраст) и получает возможность с пары кликов сгенерировать историю и иллюстрации, где сам ребенок — главный герой, а сказка строится вокруг какой-то позитивной темы — здорового питания, хорошего поведения или простым языком рассказывается сложный научный концепт, аля квантовая физика для самых маленьких (сложность языка сказки подстраивается под возвраст).
Из прикольного — можно прописать любимую вселенную для сказки, игровую, книжную или из мультика. Ну и само собой каждая генерация тщательно проверяется на «безопасность темы» для детей.
Все работает на GPT4, поэтому бесплатно дать генерации пока что не можем — но зато мы нагенерировали сотни бесплатных сказок на разные темы, можно почитать и оценить качество.
Уже сейчас есть шесть языков (Английский, Хинди, Русский, Традиционный Китайский, Украинский, Голландский) и скоро доведем до 11+, еще планируем фичи вроде озвучки сказок или копирования голоса родителя для чтения этих самых сказок (небольшое вложение в SciFi от нас ☕️).
Это первый запуск нашей команды на Product Hunt, так что если у вас есть аккаунт, буду рад фидбеку там (комменты не на английском там удаляют 👍):
https://www.producthunt.com/posts/littlestory-io
Сайт проекта:
https://littlestory.io
(если мы ничего не сломали — а мы могли, то сразу откроется правильный язык)
P.S. Когда-нибудь расскажу как мы намучились с другими языками и gpt4 как переводчиком и с промптами размером с девятиэташку
P.P.S. Если вдруг решите поддержать проект и попробовать, то вот промо-код на 10% скидку при первой покупке WELCOME10
Об Аду на контроллере и загрузку в память
Кто-то, проделав упражнения из предыдущего поста, мог втянуться в разработку и отладку. И первое, с чем вы столкнетесь при отладке - с тем, что после пересборки прошивки необходимо еще записать её на flash. Но, во-первых, с ростом размера прошивки это замедляется, во-вторых, flash изнашивается. На помощь приходит возможность ядра Cortex M4 исполнять код прямо из встроенной в чип static RAM (1). Особенность данного ядра в том, что адресное пространство SRAM находится не там же, где ROM, поэтому линковать программу надо по другому адресу.
Правда, при выключении платы программа пропадет, но во время отладки нас такое устраивает, главное, не сбрасывать питание. Кроме этого, процессор сам не сможет загрузиться, поэтому после пуска надо будет его тормозить, и загружать отладчиком в него программу.
ПРИЕМЛЕМО.
1. Итак, первое, что надо сделать, это собрать программу с поддержкой запуска из SRAM. Для этого достаточно передать ключ вот так:
alr build -XLOADER=RAM
Линкер выдаст предупреждение, что обнаружил секцию данных, которая содержит исполнимый код; игнорируем. А вот bin мы готовить не будем, грузить будем прямо из elf-файла, он уже содержит всю информацию о правильных адресах.
2. На борту у stm32-discovery 1Мб Flash и всего 192кб SRAM, из неё часть придется потратить под программу, поэтому нужно ещё и следить за оптимизацией кода, и за тем, чтобы не случилось переполнения памяти. Мы собираемся оптимизировать код, а также посмотреть, что там с запасом по памяти. Для этого надо немного доработать файл disco1.gpr следующим образом:
package Linker is
for Default_Switches ("Ada") use (
"-Wl,--gc-sections",
"-Wl,--print-memory-usage");
end Linker;
Теперь, если собрать приложение командой выше, мы увидим следующий текст:
Memory region Used Size Region Size %age Used
flash: 0 GB 1 MB 0.00%
sram12: 25272 B 128 KB 19.28%
ccm: 0 GB 64 KB 0.00%
Обратите внимание, теперь мы не будем перетирать флэш каждый раз (flash used = 0)
3. Теперь запустим наш OpenOCD так же, как мы делали раньше, но сбросим и остановим процессор:
openocd -f board/stm32f4discovery.cfg -c "init; reset halt; arm semihosting enable;"
4. Как я и говорил, грузить будем дебаггером. Для этого в соседней консоли запустим вот какую команду.
alr exec -- arm-eabi-gdb bin/disco1 -ex 'target extended-remote localhost:3333' -ex 'load'
Отладчик загрузит прошивку, остановится на первой команде. В этой консоли надо набрать команду "cont", и переключиться на консоль OpenOCD. Если всё сделано верно, можно увидеть сообщения от исполняющейся программы, как и в предыдущей серии.
--
Итого, теперь при перекомпиляции и заливке flash-память мы не будем трогать, код будет работать из встроенной RAM кристалла. А когда понадобится опять подготовить прошивку для flash, нужно будет указать ключ -XLOADER=ROM или удалить его вовсе из строки.
(1) То, что исполнение из SRAM может быть медленнее, чем из Flash, удивительно для десктопа, но вполне нормально для некоторых чипов с эффективной подкачкой кода.
Сравнение скорости M2 Ultra и Nvidia RTX 4090 для LLM
M2 Ultra (800 Gb/s memory bandwidth) LLAMA 7B inference: 94.27 tok/s
M2 Ultra (800 Gb/s memory bandwidth) LLAMA 7B forward: 1238.48 tok/s
RTX 4090 (1000 Gb/s memory bandwidth) LLAMA 7B inference: 87.34 tok/s
RTX 4090 (1000 Gb/s memory bandwidth) LLAMA 7B forward: 1178.60tok/s
Получается, что для 1-gpu системы можно уже рассматривать Mac Studio? По данным выше получается что маки даже выигрывают. И памяти можно 192Гб воткнуть. Что-то с трудом верится. Может, у кого-то есть ещё насчёт того так ли всё хорошо?
https://github.com/ggerganov/llama.cpp/discussions/4167
А вы знаааали, что в Америкеее в декабре выложили модель и код обучения для очень интересного подхода генерации визуального текста на основе LMок и диффузий?
Из всего этого ажиотажа с декодерами, тут мне реально понравился функционал лмки, когда ты можешь подправить генерацию на предыдущем шаге новыми инструкциями. 🧠
zjkarina/K0cumW87H-Y">Написала небольшой блогпост, в котором оставила ссылки на код и модель на huggingface
Послушайте котика на картинке, ну а если не хотите, просто держите статью 😊
Steam Deck- лучшая игровая консоль для тех кто не играет
Контекст: Я геймер очень сомнительной категории. В школе набил сотни часов в Arma2-3, потом в totalwars, а потом начал пытаться олимпиадить и играть перестал. На первых курсах вуза я наиграл под тысячу часов в KSP, потом написал курсовую по автоматической посадке ракет в KSP и .... забил прикручивать LM для сборки ракет)))
Я покупал самый простой steamdeck в декабре 22, cразу же доставил SD карту на 512 и ssd на 256. Покупал я его под Atomic Heart и MudRunner(лучший симулятор мешения глины после DL) - и они оба игрались гениально.
Я гонял с SD в путешествие - отличный формат для самолетов-пересадок what ever. Одна кнопка и все полетело с того же момента, но запасной powerbank стоит таскать с собой. А лучше Розетку!
Еще он довольно увеситый и обьемный(особенно с ориг чехлом), поэтому я гоняю без чехла(царапин на экране до сих пор нет) и с большим рюкзаком.
А еще почти все игры доступны на high настройках(благо экран маленький) и при желании можно шарить на большие экраны(steam link не лагает с 5hz wifi и можно втыкать usbC->hdmi+usbc)
На данный момент неудобно играть только в шутеры(по крайней мере мне), но думаю это решается через мышка+клава
Когда я говорил стажёру, что " тут работа - начать и кончить", я не то, что мы имеем, имел в виду
Читать полностью…[пост был удалён]
Вихрь - семейство русификацированных моделей (flan т5 240м, flan т5 3В, mistral 7B) как основы.
Все имеют адаптированный под русский токенйазер, подучены на хабре, а т5 ещё и на переведенной open orca.
Все модели учились с дистиляционным лоссом, те просадка относительно оригиной модели минимальная, но деньги кончились и инструкт версию для mistral мы не доделали, возможно позже.
По метрикам ВОЗМОЖНО лучше чем закрытые модели Яндекса и Сбера, но точными цифрами сложно оперировать, я не уверен в русских бенчах, а saiga sbs руки не дошли поставить.
Возможно позже.
Sentence версия т5 не полетела, энкодер от flan сопоставим с энкодером Fred T5 xl.
Если у вас есть архитектура где используется flant5 xl и хочется поддерживать русский - можно смело подсунуть этот флан. Встанет как влитой.
Подробности в статье на хабре на следующей неделе.
Huggingface
Релизнули с @nadlskom @den4ikresearch(ft flan на saiga как early bird, выйдет позже )
Если вы белый воротничек внизу корпоративной иерархии - скорее всего у вас проблемы;
Читать полностью…Вихрь - семейство русификацированных моделей (flan т5 240м, flan т5 3В, mistral 7B) как основы.
Все имеют адаптированный под русский токенйазер, подучены на хабре, а т5 ещё и на переведенной open orca.
Все модели учились с лоссом для дистиляции, но деньги кончились и инструкт версию для mistral мы не доделали, возможно позже.
По метрикам ВОЗМОЖНО лучше чем закрытые модели Яндекса и Сбера, но точными цифрами сложно оперировать, я не уверен в русских бенчах, а saiga sbs руки не дошли поставить.
Возможно позже.
Sentence версия т5 не полетела, энкодер от flan сопоставим с энкодером Fred T5 xl.
Подробности в статье на хабре на следующей неделе.
Huggingface
Релизнули с @nadlskom @den4ikresearch(обещал флан потюнить на сайгу)
– Ну... упали бы случайно, уже бы не поднялись с таким говном в конфигах. Но 5 дней трейна пережили.
– Fortes fortuna adiuvat ?
– Долбоёбам судьба помогает, всё так.
Привет!
Скоро у админа др, если вам очень хочется поддержать, то можно задонатить сюда:
Мир: 2200700612326933
Крипта: TXvLcewvNH415Pqta3zP6VzEEn2dtdy859
usdt trc20