Agi not killing everyone
Не мой формат, но меня это беспокоит, а ещё это смешной Твиттер аккаунт.
Контекст: я не очень верю в то что всесильный agi сможет убить все работы, с учётом политики OA порно, гэмблинг и все NSFW останется на откуп опенсурса и реддита.
Но я верю в то что средних программистов не очень сложно сложно заменить, как и значительную часть разного рода белых воротничков.
Предикты:
1)Если вы не top tier учёный и делаете что то дефолтное - скорее всего вы в группе риска.
2)Если то что вы делаете +- есть в опенсурсе - вам будет очень больно.
3)Блогеры в этом смысле меньше пострадают, читают обычно мнения человека, новости и прочая муть - вторичный мусор.
4)Скорее всего sextech станет ещё более странным. Ai waifu уже сейчас пытаются слать картинки себя (и это плохо выглядит), но за пару лет это поправиться.
5)Заметная часть Ai inference переедет на девайсы, скорее всего появляться developer safety форматы распространения( по аналогии с текущим bundle форматом)
6) Всякие hardware, engineering jobs вряд ли в зоне риска, современные LLM не скоро выучат физику и сопромат, а с софтом вообще жопа.
7) А и скорее всего вояки прикрутят LLM к дронам, скорее всего в течение пары лет.
8) ИТ пузырь вероятно сдуется ещё сильнее
9) как пользоваться LLM API будут знать все, от мобильщика до QA.
10) в ближайшем поколении агентность будет ебаная
11) честной мультимодалки не будет, будет Function calling на вызов t2i, t2v и прочее.
Если вы считаете что пихать в трансформер картиночные токены - здравая идея в 2023- вперёд, я посмотрю.
12) надеюсь конченные llamaindex рефактанут/сделают что то нормальное, контролируемая генерация и прочее
13) gpt4.5 будет обгонять опенсурс на два три квартала
Очень забавные твиты
Я за активный резерч, медленную порку, пощечины, спускать мне модели в открытый рот пока я увлечённо обучаю на коленях, ограничение обучения (L1 или L2), нравится если у коллеги активная роль того кто в меня играет, наслаждается, использует
Мокрый бесконечный train
Praise+Degrade это лучший микс
Смотреть на нас TеXающими стоя в дверном проёме напротив зеркала
Мне нравится красивый свет, линии, холодный сок и курить на балконе после рецензий, тактильность, задыхаться от душноты статей, беспорядочно сплетаться пальцами и пробовать на вкус китайский резерч
Когда я говорил стажёру, что " тут работа - начать и кончить", я не то, что мы имеем, имел в виду
Читать полностью…[пост был удалён]
Вихрь - семейство русификацированных моделей (flan т5 240м, flan т5 3В, mistral 7B) как основы.
Все имеют адаптированный под русский токенйазер, подучены на хабре, а т5 ещё и на переведенной open orca.
Все модели учились с дистиляционным лоссом, те просадка относительно оригиной модели минимальная, но деньги кончились и инструкт версию для mistral мы не доделали, возможно позже.
По метрикам ВОЗМОЖНО лучше чем закрытые модели Яндекса и Сбера, но точными цифрами сложно оперировать, я не уверен в русских бенчах, а saiga sbs руки не дошли поставить.
Возможно позже.
Sentence версия т5 не полетела, энкодер от flan сопоставим с энкодером Fred T5 xl.
Если у вас есть архитектура где используется flant5 xl и хочется поддерживать русский - можно смело подсунуть этот флан. Встанет как влитой.
Подробности в статье на хабре на следующей неделе.
Huggingface
Релизнули с @nadlskom @den4ikresearch(ft flan на saiga как early bird, выйдет позже )
Если вы белый воротничек внизу корпоративной иерархии - скорее всего у вас проблемы;
Читать полностью…Вихрь - семейство русификацированных моделей (flan т5 240м, flan т5 3В, mistral 7B) как основы.
Все имеют адаптированный под русский токенйазер, подучены на хабре, а т5 ещё и на переведенной open orca.
Все модели учились с лоссом для дистиляции, но деньги кончились и инструкт версию для mistral мы не доделали, возможно позже.
По метрикам ВОЗМОЖНО лучше чем закрытые модели Яндекса и Сбера, но точными цифрами сложно оперировать, я не уверен в русских бенчах, а saiga sbs руки не дошли поставить.
Возможно позже.
Sentence версия т5 не полетела, энкодер от flan сопоставим с энкодером Fred T5 xl.
Подробности в статье на хабре на следующей неделе.
Huggingface
Релизнули с @nadlskom @den4ikresearch(обещал флан потюнить на сайгу)
– Ну... упали бы случайно, уже бы не поднялись с таким говном в конфигах. Но 5 дней трейна пережили.
– Fortes fortuna adiuvat ?
– Долбоёбам судьба помогает, всё так.
We providing SOTA research and developing future of Ai team:
Если ваша команда выглядит по другому - вы не шарите.
https://goddard.blog/posts/frankenllama/
Тоже самое что и моя работа, тоже копируются слои, но теперь проверяют бенчи. ответ такой же: скорее всего лучше, но не лучше чем 22B модель с нуля.
Выложил бенчмарк для автоматической оценки LLM для русского языка при помощи gpt-4. По факту это просто переведенная версия официального mt-bench, только с модифицированным интерфейсом просмотра и завернутым в докер чтобы это продолжало работать и через год. Ну и соответственно там есть небольшой лидерборд. https://github.com/dmitrymailk/mt_bench_ru
Читать полностью…Update:
c большой моделью проблема - метрики кривые, в реальности
mmlu_ru=0.51, xwinograd 0.65, xnli_ru=0.38
думаю успею в начале недели выложить инструкт версию
https://huggingface.co/docs/transformers/main/en/model_doc/siglip
LOL модель теперь до HF доехала!
Запустили с командой новый продукт LittleStory:
AI-генератор длинных и (относительно) интересных сказок для детей.
Пользователь регистрируется, добавляет на сайт описание ребенка (характер, возраст) и получает возможность с пары кликов сгенерировать историю и иллюстрации, где сам ребенок — главный герой, а сказка строится вокруг какой-то позитивной темы — здорового питания, хорошего поведения или простым языком рассказывается сложный научный концепт, аля квантовая физика для самых маленьких (сложность языка сказки подстраивается под возвраст).
Из прикольного — можно прописать любимую вселенную для сказки, игровую, книжную или из мультика. Ну и само собой каждая генерация тщательно проверяется на «безопасность темы» для детей.
Все работает на GPT4, поэтому бесплатно дать генерации пока что не можем — но зато мы нагенерировали сотни бесплатных сказок на разные темы, можно почитать и оценить качество.
Уже сейчас есть шесть языков (Английский, Хинди, Русский, Традиционный Китайский, Украинский, Голландский) и скоро доведем до 11+, еще планируем фичи вроде озвучки сказок или копирования голоса родителя для чтения этих самых сказок (небольшое вложение в SciFi от нас ☕️).
Это первый запуск нашей команды на Product Hunt, так что если у вас есть аккаунт, буду рад фидбеку там (комменты не на английском там удаляют 👍):
https://www.producthunt.com/posts/littlestory-io
Сайт проекта:
https://littlestory.io
(если мы ничего не сломали — а мы могли, то сразу откроется правильный язык)
P.S. Когда-нибудь расскажу как мы намучились с другими языками и gpt4 как переводчиком и с промптами размером с девятиэташку
P.P.S. Если вдруг решите поддержать проект и попробовать, то вот промо-код на 10% скидку при первой покупке WELCOME10
Об Аду на контроллере и загрузку в память
Кто-то, проделав упражнения из предыдущего поста, мог втянуться в разработку и отладку. И первое, с чем вы столкнетесь при отладке - с тем, что после пересборки прошивки необходимо еще записать её на flash. Но, во-первых, с ростом размера прошивки это замедляется, во-вторых, flash изнашивается. На помощь приходит возможность ядра Cortex M4 исполнять код прямо из встроенной в чип static RAM (1). Особенность данного ядра в том, что адресное пространство SRAM находится не там же, где ROM, поэтому линковать программу надо по другому адресу.
Правда, при выключении платы программа пропадет, но во время отладки нас такое устраивает, главное, не сбрасывать питание. Кроме этого, процессор сам не сможет загрузиться, поэтому после пуска надо будет его тормозить, и загружать отладчиком в него программу.
ПРИЕМЛЕМО.
1. Итак, первое, что надо сделать, это собрать программу с поддержкой запуска из SRAM. Для этого достаточно передать ключ вот так:
alr build -XLOADER=RAM
Линкер выдаст предупреждение, что обнаружил секцию данных, которая содержит исполнимый код; игнорируем. А вот bin мы готовить не будем, грузить будем прямо из elf-файла, он уже содержит всю информацию о правильных адресах.
2. На борту у stm32-discovery 1Мб Flash и всего 192кб SRAM, из неё часть придется потратить под программу, поэтому нужно ещё и следить за оптимизацией кода, и за тем, чтобы не случилось переполнения памяти. Мы собираемся оптимизировать код, а также посмотреть, что там с запасом по памяти. Для этого надо немного доработать файл disco1.gpr следующим образом:
package Linker is
for Default_Switches ("Ada") use (
"-Wl,--gc-sections",
"-Wl,--print-memory-usage");
end Linker;
Теперь, если собрать приложение командой выше, мы увидим следующий текст:
Memory region Used Size Region Size %age Used
flash: 0 GB 1 MB 0.00%
sram12: 25272 B 128 KB 19.28%
ccm: 0 GB 64 KB 0.00%
Обратите внимание, теперь мы не будем перетирать флэш каждый раз (flash used = 0)
3. Теперь запустим наш OpenOCD так же, как мы делали раньше, но сбросим и остановим процессор:
openocd -f board/stm32f4discovery.cfg -c "init; reset halt; arm semihosting enable;"
4. Как я и говорил, грузить будем дебаггером. Для этого в соседней консоли запустим вот какую команду.
alr exec -- arm-eabi-gdb bin/disco1 -ex 'target extended-remote localhost:3333' -ex 'load'
Отладчик загрузит прошивку, остановится на первой команде. В этой консоли надо набрать команду "cont", и переключиться на консоль OpenOCD. Если всё сделано верно, можно увидеть сообщения от исполняющейся программы, как и в предыдущей серии.
--
Итого, теперь при перекомпиляции и заливке flash-память мы не будем трогать, код будет работать из встроенной RAM кристалла. А когда понадобится опять подготовить прошивку для flash, нужно будет указать ключ -XLOADER=ROM или удалить его вовсе из строки.
(1) То, что исполнение из SRAM может быть медленнее, чем из Flash, удивительно для десктопа, но вполне нормально для некоторых чипов с эффективной подкачкой кода.
Сравнение скорости M2 Ultra и Nvidia RTX 4090 для LLM
M2 Ultra (800 Gb/s memory bandwidth) LLAMA 7B inference: 94.27 tok/s
M2 Ultra (800 Gb/s memory bandwidth) LLAMA 7B forward: 1238.48 tok/s
RTX 4090 (1000 Gb/s memory bandwidth) LLAMA 7B inference: 87.34 tok/s
RTX 4090 (1000 Gb/s memory bandwidth) LLAMA 7B forward: 1178.60tok/s
Получается, что для 1-gpu системы можно уже рассматривать Mac Studio? По данным выше получается что маки даже выигрывают. И памяти можно 192Гб воткнуть. Что-то с трудом верится. Может, у кого-то есть ещё насчёт того так ли всё хорошо?
https://github.com/ggerganov/llama.cpp/discussions/4167
А вы знаааали, что в Америкеее в декабре выложили модель и код обучения для очень интересного подхода генерации визуального текста на основе LMок и диффузий?
Из всего этого ажиотажа с декодерами, тут мне реально понравился функционал лмки, когда ты можешь подправить генерацию на предыдущем шаге новыми инструкциями. 🧠
zjkarina/K0cumW87H-Y">Написала небольшой блогпост, в котором оставила ссылки на код и модель на huggingface
Послушайте котика на картинке, ну а если не хотите, просто держите статью 😊