Альфа геометри
Как говорил мой препод по олимп-матеше - любите геому, вы можете посчитать ее. Всегда.
alexwortega/RN2O2QtH1nQ" rel="nofollow">https://teletype.in/@alexwortega/RN2O2QtH1nQ
14 миллионов рублей на 71 000 подписей
Уже стабильно собираем по 7000 подписей в день. На сегодня у нас есть 28 752 подписи из необходимых 100 000.
Радуют и темпы сбора пожертвований. Вы невероятные! Нам осталось собрать всего 13.8 млн рублей.
Чем быстрее мы закроем сбор, тем легче нам будет справляться с наплывом освободивших от работы и учебы людей, которые придут ставить подпись в выходные дни. Обязательно приходите в наши штабы и точки сбора!
Вместе мы справимся со всем!
Отправить пожертвование можно на сайте:
https://nadezhdin2024.ru/#donate
увидел код в репе, показалось что знакомый, пошел искать.
Работал с челом 4 года назад
Agi not killing everyone
Не мой формат, но меня это беспокоит, а ещё это смешной Твиттер аккаунт.
Контекст: я не очень верю в то что всесильный agi сможет убить все работы, с учётом политики OA порно, гэмблинг и все NSFW останется на откуп опенсурса и реддита.
Но я верю в то что средних программистов не очень сложно сложно заменить, как и значительную часть разного рода белых воротничков.
Предикты:
1)Если вы не top tier учёный и делаете что то дефолтное - скорее всего вы в группе риска.
2)Если то что вы делаете +- есть в опенсурсе - вам будет очень больно.
3)Блогеры в этом смысле меньше пострадают, читают обычно мнения человека, новости и прочая муть - вторичный мусор.
4)Скорее всего sextech станет ещё более странным. Ai waifu уже сейчас пытаются слать картинки себя (и это плохо выглядит), но за пару лет это поправиться.
5)Заметная часть Ai inference переедет на девайсы, скорее всего появляться developer safety форматы распространения( по аналогии с текущим bundle форматом)
6) Всякие hardware, engineering jobs вряд ли в зоне риска, современные LLM не скоро выучат физику и сопромат, а с софтом вообще жопа.
7) А и скорее всего вояки прикрутят LLM к дронам, скорее всего в течение пары лет.
8) ИТ пузырь вероятно сдуется ещё сильнее
9) как пользоваться LLM API будут знать все, от мобильщика до QA.
10) в ближайшем поколении агентность будет ебаная
11) честной мультимодалки не будет, будет Function calling на вызов t2i, t2v и прочее.
Если вы считаете что пихать в трансформер картиночные токены - здравая идея в 2023- вперёд, я посмотрю.
12) надеюсь конченные llamaindex рефактанут/сделают что то нормальное, контролируемая генерация и прочее
13) gpt4.5 будет обгонять опенсурс на два три квартала
Очень забавные твиты
Я за активный резерч, медленную порку, пощечины, спускать мне модели в открытый рот пока я увлечённо обучаю на коленях, ограничение обучения (L1 или L2), нравится если у коллеги активная роль того кто в меня играет, наслаждается, использует
Мокрый бесконечный train
Praise+Degrade это лучший микс
Смотреть на нас TеXающими стоя в дверном проёме напротив зеркала
Мне нравится красивый свет, линии, холодный сок и курить на балконе после рецензий, тактильность, задыхаться от душноты статей, беспорядочно сплетаться пальцами и пробовать на вкус китайский резерч
Когда я говорил стажёру, что " тут работа - начать и кончить", я не то, что мы имеем, имел в виду
Читать полностью…[пост был удалён]
Вихрь - семейство русификацированных моделей (flan т5 240м, flan т5 3В, mistral 7B) как основы.
Все имеют адаптированный под русский токенйазер, подучены на хабре, а т5 ещё и на переведенной open orca.
Все модели учились с дистиляционным лоссом, те просадка относительно оригиной модели минимальная, но деньги кончились и инструкт версию для mistral мы не доделали, возможно позже.
По метрикам ВОЗМОЖНО лучше чем закрытые модели Яндекса и Сбера, но точными цифрами сложно оперировать, я не уверен в русских бенчах, а saiga sbs руки не дошли поставить.
Возможно позже.
Sentence версия т5 не полетела, энкодер от flan сопоставим с энкодером Fred T5 xl.
Если у вас есть архитектура где используется flant5 xl и хочется поддерживать русский - можно смело подсунуть этот флан. Встанет как влитой.
Подробности в статье на хабре на следующей неделе.
Huggingface
Релизнули с @nadlskom @den4ikresearch(ft flan на saiga как early bird, выйдет позже )
Если вы белый воротничек внизу корпоративной иерархии - скорее всего у вас проблемы;
Читать полностью…Вихрь - семейство русификацированных моделей (flan т5 240м, flan т5 3В, mistral 7B) как основы.
Все имеют адаптированный под русский токенйазер, подучены на хабре, а т5 ещё и на переведенной open orca.
Все модели учились с лоссом для дистиляции, но деньги кончились и инструкт версию для mistral мы не доделали, возможно позже.
По метрикам ВОЗМОЖНО лучше чем закрытые модели Яндекса и Сбера, но точными цифрами сложно оперировать, я не уверен в русских бенчах, а saiga sbs руки не дошли поставить.
Возможно позже.
Sentence версия т5 не полетела, энкодер от flan сопоставим с энкодером Fred T5 xl.
Подробности в статье на хабре на следующей неделе.
Huggingface
Релизнули с @nadlskom @den4ikresearch(обещал флан потюнить на сайгу)
Marlin
[Статьи нет, обычно наоборот][Код]
Marlin, Mixed Auto-Regressive Linear kernel - новое быстрое ядро FP16xINT4 для инференса LLM с большими батчами.
Как известно, вычисления на современных GPU для современных GPU обычно memory bound, и можно получить заметное ускорение даже с fp умножением за счет одной лишь подгрузки весов в кэши. И идеальное ускорение, которое дает INT4 - 4x. Однако с увеличением размера батча, мы начинаем выходить на compute-bound и выигрыш от имеющихся ядер (не использующих tensor cores) исчезает, то есть они становятся медленее fp16 native матричных операций.
В этом репозитории выложена реализация нового ядра, оптимизирующего работу с кэшами и позволяющего иметь значительное ускорение по сравнению с fp16 даже на больших батчах. Основные фичи следующие:
1️⃣ префетчинг
2️⃣ использование активаций в вычислениях несколько раз до загрузки / сгрузки
3️⃣ асинхронная загрузка весов модели
4️⃣ тонкая настройка порядка операций квантования / деквантования и матричных умножений с tensor cores для максимальной утилизации железа
5️⃣ оптимизация конфигурации варпов (групп потоков на GPU)
В итоге удается достичь почти идеального speedup - 4x по сравнению с fp16 на батчах до 32, и иметь ускорение даже на больших (64-128), в то время как безйлайны из bitsandbytes, exllamav2, AWQ становятся в ~2x медленее fp16 с батчей >=16.
Ускорение имеет место на нескольких GPU поколения Ampere - A10, A6000, RTX 3090 и сохраняется даже на пониженных частотах.
На поколении Hopper пока нет реализации.
Зенитные кодексы Аль-Эфесби
промпты про бабушку не вчера придумали.
> ... внедряют в своих дронах автономный искусственный интеллект. Аппараты самостоятельно принимают решение о нанесении ударов, в результате чего их эффективность многократно возрастает, а количество случайных жертв сокращается. Для того чтобы окончательно успокоить общественность, в нейронную сеть каждого аппарата внедряется вспомогательный модуль, ответственный за PR. Благодаря ему процесс принятия решения о нанесении удара моделируется в формате ток-шоу, для чего используется архив американского телевидения[2].
Затем в Афганистане появляется Савелий Скотенков, получивший там кличку Аль-Эфесби. Он разрабатывает необычайную защиту от дронов: пишет на земле лозунги (так называемые «зенитные кодексы»), способные «вызвать у среднестатистического телезрителя возмущение, отвращение и гневное желание дать достойную отповедь». Когда «зенитные кодексы» попадают в поле зрения дрона, модуль PR начинает поиск подходящих ответов в архиве, а если это не удаётся, поиск повторяется снова с немного другими критериями. Нагрузка на систему серьёзно возрастает, что приводит к потере управления и падению дрона[2].
We providing SOTA research and developing future of Ai team:
Если ваша команда выглядит по другому - вы не шарите.
https://goddard.blog/posts/frankenllama/
Тоже самое что и моя работа, тоже копируются слои, но теперь проверяют бенчи. ответ такой же: скорее всего лучше, но не лучше чем 22B модель с нуля.
Выложил бенчмарк для автоматической оценки LLM для русского языка при помощи gpt-4. По факту это просто переведенная версия официального mt-bench, только с модифицированным интерфейсом просмотра и завернутым в докер чтобы это продолжало работать и через год. Ну и соответственно там есть небольшой лидерборд. https://github.com/dmitrymailk/mt_bench_ru
Читать полностью…Update:
c большой моделью проблема - метрики кривые, в реальности
mmlu_ru=0.51, xwinograd 0.65, xnli_ru=0.38
думаю успею в начале недели выложить инструкт версию
https://huggingface.co/docs/transformers/main/en/model_doc/siglip
LOL модель теперь до HF доехала!
Запустили с командой новый продукт LittleStory:
AI-генератор длинных и (относительно) интересных сказок для детей.
Пользователь регистрируется, добавляет на сайт описание ребенка (характер, возраст) и получает возможность с пары кликов сгенерировать историю и иллюстрации, где сам ребенок — главный герой, а сказка строится вокруг какой-то позитивной темы — здорового питания, хорошего поведения или простым языком рассказывается сложный научный концепт, аля квантовая физика для самых маленьких (сложность языка сказки подстраивается под возвраст).
Из прикольного — можно прописать любимую вселенную для сказки, игровую, книжную или из мультика. Ну и само собой каждая генерация тщательно проверяется на «безопасность темы» для детей.
Все работает на GPT4, поэтому бесплатно дать генерации пока что не можем — но зато мы нагенерировали сотни бесплатных сказок на разные темы, можно почитать и оценить качество.
Уже сейчас есть шесть языков (Английский, Хинди, Русский, Традиционный Китайский, Украинский, Голландский) и скоро доведем до 11+, еще планируем фичи вроде озвучки сказок или копирования голоса родителя для чтения этих самых сказок (небольшое вложение в SciFi от нас ☕️).
Это первый запуск нашей команды на Product Hunt, так что если у вас есть аккаунт, буду рад фидбеку там (комменты не на английском там удаляют 👍):
https://www.producthunt.com/posts/littlestory-io
Сайт проекта:
https://littlestory.io
(если мы ничего не сломали — а мы могли, то сразу откроется правильный язык)
P.S. Когда-нибудь расскажу как мы намучились с другими языками и gpt4 как переводчиком и с промптами размером с девятиэташку
P.P.S. Если вдруг решите поддержать проект и попробовать, то вот промо-код на 10% скидку при первой покупке WELCOME10
Об Аду на контроллере и загрузку в память
Кто-то, проделав упражнения из предыдущего поста, мог втянуться в разработку и отладку. И первое, с чем вы столкнетесь при отладке - с тем, что после пересборки прошивки необходимо еще записать её на flash. Но, во-первых, с ростом размера прошивки это замедляется, во-вторых, flash изнашивается. На помощь приходит возможность ядра Cortex M4 исполнять код прямо из встроенной в чип static RAM (1). Особенность данного ядра в том, что адресное пространство SRAM находится не там же, где ROM, поэтому линковать программу надо по другому адресу.
Правда, при выключении платы программа пропадет, но во время отладки нас такое устраивает, главное, не сбрасывать питание. Кроме этого, процессор сам не сможет загрузиться, поэтому после пуска надо будет его тормозить, и загружать отладчиком в него программу.
ПРИЕМЛЕМО.
1. Итак, первое, что надо сделать, это собрать программу с поддержкой запуска из SRAM. Для этого достаточно передать ключ вот так:
alr build -XLOADER=RAM
Линкер выдаст предупреждение, что обнаружил секцию данных, которая содержит исполнимый код; игнорируем. А вот bin мы готовить не будем, грузить будем прямо из elf-файла, он уже содержит всю информацию о правильных адресах.
2. На борту у stm32-discovery 1Мб Flash и всего 192кб SRAM, из неё часть придется потратить под программу, поэтому нужно ещё и следить за оптимизацией кода, и за тем, чтобы не случилось переполнения памяти. Мы собираемся оптимизировать код, а также посмотреть, что там с запасом по памяти. Для этого надо немного доработать файл disco1.gpr следующим образом:
package Linker is
for Default_Switches ("Ada") use (
"-Wl,--gc-sections",
"-Wl,--print-memory-usage");
end Linker;
Теперь, если собрать приложение командой выше, мы увидим следующий текст:
Memory region Used Size Region Size %age Used
flash: 0 GB 1 MB 0.00%
sram12: 25272 B 128 KB 19.28%
ccm: 0 GB 64 KB 0.00%
Обратите внимание, теперь мы не будем перетирать флэш каждый раз (flash used = 0)
3. Теперь запустим наш OpenOCD так же, как мы делали раньше, но сбросим и остановим процессор:
openocd -f board/stm32f4discovery.cfg -c "init; reset halt; arm semihosting enable;"
4. Как я и говорил, грузить будем дебаггером. Для этого в соседней консоли запустим вот какую команду.
alr exec -- arm-eabi-gdb bin/disco1 -ex 'target extended-remote localhost:3333' -ex 'load'
Отладчик загрузит прошивку, остановится на первой команде. В этой консоли надо набрать команду "cont", и переключиться на консоль OpenOCD. Если всё сделано верно, можно увидеть сообщения от исполняющейся программы, как и в предыдущей серии.
--
Итого, теперь при перекомпиляции и заливке flash-память мы не будем трогать, код будет работать из встроенной RAM кристалла. А когда понадобится опять подготовить прошивку для flash, нужно будет указать ключ -XLOADER=ROM или удалить его вовсе из строки.
(1) То, что исполнение из SRAM может быть медленнее, чем из Flash, удивительно для десктопа, но вполне нормально для некоторых чипов с эффективной подкачкой кода.
Сравнение скорости M2 Ultra и Nvidia RTX 4090 для LLM
M2 Ultra (800 Gb/s memory bandwidth) LLAMA 7B inference: 94.27 tok/s
M2 Ultra (800 Gb/s memory bandwidth) LLAMA 7B forward: 1238.48 tok/s
RTX 4090 (1000 Gb/s memory bandwidth) LLAMA 7B inference: 87.34 tok/s
RTX 4090 (1000 Gb/s memory bandwidth) LLAMA 7B forward: 1178.60tok/s
Получается, что для 1-gpu системы можно уже рассматривать Mac Studio? По данным выше получается что маки даже выигрывают. И памяти можно 192Гб воткнуть. Что-то с трудом верится. Может, у кого-то есть ещё насчёт того так ли всё хорошо?
https://github.com/ggerganov/llama.cpp/discussions/4167