derplearning | Unsorted

Telegram-канал derplearning - Derp Learning

13017

Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Subscribe to a channel

Derp Learning

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Юзать LLM хотят все, но инференс в облаке стоит конских денег. Но есть простое решение - давайте юзеры будут запускать LLM у себя, а не в облаке. Однако не стоит забывать – большинство пользователей интернета владеют лишь телефоном. Оперативной памяти там не так уж и много - у iPhone это 6 гигов, у большинства андроид флагманов до 12, так что нужно оптимизировать параметры, но и не забывать про перформанс. Авторам пейпера удалось заметно улучшить качество инференса на телефонах, без потерь в перформансе.

Как это вышло?

➖ Авторы выяснили, что масштабирование модели вглубь при таком же количестве параметров работает лучше чем при масштабировании модели вширь. Таким образом модель на 125 миллионов параметров имеет 30 слоёв (у GPT-2, Bert и вообще всего в такой весовой категории обычно 12).
➖ Традиционный для "эффективных" моделей шеринг входного и выходного слоя эмбеддингов.
➖ Завезли Group Query Attention, который раньше в таких моделях не использовался.
➖ Убедились что все слои влезают в кэш телефонов, потому что оперативка значительно медленнее.

Самая интересная часть - layer sharing, так что её разберём поподробнее. Идея в том, чтобы использовать один и тот же слой несколько раз, и таким образом улучшить перформанс. Попробовали несколько стратегий:

➖ Повторять слои незамедлительно - то есть слой компьютит что-то, а потом его вывод кормится в него же.
➖ Повторять все слои в том же порядке - по сути моделька запускается два раза на одном и том же инпуте.
➖ Сначала считать слои в обычном порядке, а потом задом наперёд.

Лучше всех показал себя второй способ, но выбрали первый, потому что он заметно быстрее работает (не нужно грузить слой в кэш несколько раз).

В итоге вышло хорошо так улучшить результаты, без раздутия количества параметров или времени выполнения модели. Итоговая модель выдаёт более чем 50 токенов в секунду на обычном телефоне. Статья февральская, но код выложили только сейчас. Весов нет.

Пейпер
Код

@ai_newz

Читать полностью…

Derp Learning

WestWorld intensifies, kurwa!

Ну что, зловещая долина, посоны? Анатомически корректные аниматронные руки от поляков из clonerobotics

by CloneRobotics

Читать полностью…

Derp Learning

На случай, если вы вдруг искали возможность сделать липсинг для видео или фото (для сгенерированных тоже подойдет).

Можете попробовать этот тутор для ComfuUI через LivePortait.

Линки, где качать и как устанавливать, есть в описании к видосу.

Тут

Читать полностью…

Derp Learning

Нас ждет абсолютно новый геймдев. Зацените, что делают ребята, которые сидят на жестких гауссиан сплатах.

Одна картинка и целый мир готов. В целом генерация таких 3D сцен — это не новость, но вот в риалтайме еще никому не удавалось. На генерацию одной полной сцены уходит 10 секунд на A6000 GPU. Это, конечно, не ультра скорость, но учтите, что даже в играх никто не рендерит во все 360.  Можно считать, что это просто мир прогружается, а потом спокойно бегать.

Картинка номер 2 в общем-то вполне наглядно объясняет принцип работы. Здесь у нас солянка из добротных быстрых гауссиан сплатов, карт глубины и аутпейнтинга.

Берут изначальную картинку, из нее извлекают карту глубины, как в обычном контролнете при аутпейнтинге генерируют мир вокруг изначальной картинки. Но с тем отличием, что карту глубины как бы упрощают и берут ограниченное количество "глубин" в целях оптимизации. Тренируют салаты по картинке.

Наслаждаемся и ходим по новоиспеченной сцене.

А если к этому еще и прикрутить PhysDreamer ой-ой-йой... (это который позволяет физически взаимодействовать со сплатами)

Когда там уже нейрорендер станет мейнстримом? Где мой риалтайм сгенерированный мир в 120 fps или ещё лучше как в нашей статье 1000fps?

Ветка про Gaussian Splatting:
- 3D Gaussian Splatting ликбез
- NerfStudio, ну а вдруг пригодится,
- мерджим картинки,
- Infinite Realities
- PhysDreamer


Project page, там даже есть демо, правда, заранее сгенерированное, просто погулять. Но сам рендеринг сцены прямо в браузере, придется немного подождать.
Бумага
Код (скоро)

@ai_newz

Читать полностью…

Derp Learning

Вышла 4o у нас дома, стриминг аудио в обе стороны, перебивает и только английский.

Играться тут

Анонс

La République est maniaque, опять ребята из Франции

Читать полностью…

Derp Learning

Работа британского художника Тима Льюиса, который создаёт уникальные кинетические скульптуры.

Теперь хочется себе этого кота
r/#BeAmazed

Читать полностью…

Derp Learning

🔄Обучаем нейросеть проходить змейку в терминале

Вы когда-нибудь хотели обучить модель проходить змейку? Я — нет, а вот некий Bones-ai в двух проектах показал, как это работает. С помощью генетического алгоритма модель достигает идеальных результатов в змейке, а видео к посту — наглядная визуализация процесса обучения 🪩

В архитектуре нейросети используется 24 инпута. Эти инпуты предоставляют информацию о состоянии окружающей среды и самой змейки, что позволяет модели принимать решения о следующем движении📀

Обучение модели занимает около 30 минут и осуществляется через генетический алгоритм, который эволюционирует популяцию из 1000 агентов, каждый из которых представляет уникальную конфигурацию весов нейросети:

🔗Инициализация популяции: Начальная популяция агентов создаётся с случайными весами.

🔗Оценка производительности: Каждый агент оценивается по его способности собирать пищу и избегать столкновений.

🔗Отбор: Лучшие агенты выбираются для размножения на основе их "приспособленности" — чем дольше агент выживает и чем больше собирает пищи, тем выше его шансы быть выбранным для следующего поколения.

🔗Кроссовер и мутации: Веса выбранных агентов комбинируются и мутируют с небольшой вероятностью (0.1), создавая новое поколение агентов, которое потенциально наследует успешные стратегии своих предшественников.

Если хотите подробнее ознакомиться с проектом, то здесь можно найти его первую версию, здесь — вторую, а вот тут находится тред на Reddit, где автор отвечает на вопросы🖼️

Рассказывайте в комментариях, что вы думаете о таких проектах? Как вы думаете, для чего автору это нужно?🎬

Читать полностью…

Derp Learning

Ладно, иногда ген3 выдает милоту

Сорс

Читать полностью…

Derp Learning

В Nature вышла интересная статья (pdf), в ней рассматрели «человеческий язык» как инструмент для передачи информации и пришли к выводу, что это клевый способ для коллаборативной работы нас как вида (и шитпоста в интернете), но язык не нужен мозгу для «мыслительного процесса»

Я никогда не задумывался, как выглядит «мысль» если исключить из нее «язык», поэтому вот пару интересных наблюдений из статьи о том как устроен процесс мышления:

1. Мысли, вероятно, опираются на абстрактные, неязыковые ментальные представления. Это могут быть визуальные, пространственные или другие специфические представления под конкретные задачи и концепции. Как человек, который в любой момент времени может вспомнить любой маршрут по которому я ходил где-то и был трезвый, могу сказать что все так, у меня «карта местности» просто существует в виде образа в голове, как оказалось, так не у всех

2. В голове есть ансамбль нейронок — в статье упоминается несколько «мозговых сетей», участвующих в различных задачах:

— Есть нейронка «множественных требований» для целенаправленного поведения и решения новых задач, она поощряет находчивость при решении проблем, активируется при выполнении когнитивно сложных задач, особенно тех, которые требуют гибкого мышления и адаптации к новым ситуациям. Она же отвечает за планирование и рабочую память;

— Есть нейронка «теории разума» или «эмпатии»: для социального рассуждения и понимания психических состояний – мыслей, чувств, убеждений и намерений других людей. Это та, которая у нас уже хуже чем в GPT4o;

— Есть «Дефолтная нейронка», активируется когда мозг в покое – связана с кучей когнитивных штук, включая: способность мысленно перемещаться во времени (вспоминая прошлое или представляя будущее), пространственное познание, размышление о себе, своих чертах и опыте. Интересно, что повреждение это "сетки" ведет к депрессии или даже шизофрении (в теории).

3. Символическое мышление может происходить без языка как инструмента. Это означает, что мозг может манипулировать абстрактными символами или концепциями, не опираясь на слова или грамматические структуры. Условно, когда вам что-то «пришло в голову из неоткуда», это этот эффект.

4. Рассуждение по специфичным задачам — разные типы мышления (математические, социальные, пространственные и т.д.), по-видимому, задействуют разные мозговые «нейронки», что предполагает, что процессы мышления могут быть в некоторой степени модульными и специфичными для конкретных задач; это как если бы у одной мощной LLM было много Lora натренированных на конкретных задачах датасета, а не единая модель для решения всех задач.

5. Параллельная обработка — все эти «нейронки» для решения специфичных задач (социальные, причинно-следственные, решение проблем и т.д.) могут работать параллельно, получая при этом информацию с разных «сенсоров» тела, а не определяться единой системой, такой как язык.

6. Мы сильно похожи на животных — в статье упоминается непрерывность человеческой эволюции, предполагая, что наши процессы мышления могут быть более похожими на процессы мышления других животных, чем считалось ранее, просто они оказались более сложными из-за наших расширенных когнитивных способностей. То есть, условная собака может оказаться намного ближе к нам по процессу мышления чем мы раньше думали.

7. Культура развивает мышление — хоть это и не прямой механизм мышления, в статье упоминается что передача культурных знаний от поколения в поколение, повышает когнитивные способности человека с течением времени, это уже влияние языка как инструмента.


Короче, все еще ничего не понятно — но на всякий случай продолжайте тренировать лоры ☕️

Читать полностью…

Derp Learning

всю ночь тестировал новую функцию люмы, которая работает на основе двух ключевых кадров. загружал свои рандомные генерации. считаю, что это будущее дизайна и анимации, потому что такие неожиданные переходы человек делает редко.

я купил подписку, но можно попробовать бесплатно на сайте люмалабс (5 штук в день, 30 штук в месяц). пока что криво, но это только начало. ещё больше стану экспериментировать с ген-3: он вот-вот выйдет для всех в открытом доступе и прям близок к соре от опенаи.

Читать полностью…

Derp Learning

До чего нейросети дошли!

Читать полностью…

Derp Learning

Там Китайцы обновили свою модель для видео генерации Kling (пост про нее). Теперь она умеет оживлять фото, "Image-to-Video", как и Luma, а также может продлить видео вплоть до 3 минут – будет генериться по кусочкам, где каждый кусочек контролируется отдельным промптом.

Пёсель очень круто бежит, да так что уши трясутся ❤️.

@ai_newz

Читать полностью…

Derp Learning

🔥Microsoft просто, без громкого анонса (опять!),выпустили новый интересный способ обучения моделей "Instruction Pre-Training, модели и датасеты.

При предварительном обучении с нуля модель 500M, обученная на 100B токенах, достигает производительности модели 1B, предварительно обученной на 300B токенах.

Доступны:
👀 Датасеты
🦙Llama 3 8B с качеством, сравнимым с 70B!
🔥 Общие модели + специализированные модели (медицина/финансы)


abs: https://arxiv.org/abs/2406.14491
models: https://huggingface.co/instruction-pretrain

@ai_machinelearning_big_data

Читать полностью…

Derp Learning

Yet another 8-bit filter
Неповторимый оригинал тут

Читать полностью…

Derp Learning

What if beastieboys sabotage was made in the 80s by Nintendo

Читать полностью…

Derp Learning

gpu.cpp - a lightweight library that makes portable GPU compute with C++ simple

Тем временем парни из answer.ai (ex fast.ai) упоролись и выкатили gpu-agnostic фреймворк на WebGPU для С++.
Теперь один и тот же код можно крутить на всем, где есть Vulkan, Metal, или DirectX.
При этом тащить 100500гб CUDA для hello world больше не надо.
/ Ну и маководы снова в деле! :D

git
x-уит
answer.ai

@derplearning

Читать полностью…

Derp Learning

In the age of AI, dating a model is not a brag anymore

#wordplay
@Sickipedia

Читать полностью…

Derp Learning

На этом видео PoV Джо Байдена, когда он покидает сцену.

Читать полностью…

Derp Learning

Теперь тоже буду так письма подписывать.

Читать полностью…

Derp Learning

Ну все, художников теперь заменят еще и аниматронные коты.

Читать полностью…

Derp Learning

ElevenLabs выпустили нейросеть Voice Isolator, которая может удалить все посторонние звуки и шумы с вашего аудио, создавая эффект студийной записи.

Ну и главное – сервис доступен бесплатно, так что пользуйтесь. Ссылка

r/#singularity

Читать полностью…

Derp Learning

- Что это у вас тут?
- Gen3
- А я думала Sora

source

Читать полностью…

Derp Learning

Вот ComfyUI докатился и до 3dsMax. С опозданием в годик-другой, но нам не привыкать :D
В плагин tyFlow встроили поддержку ComfyUI по аналогии с тем, как это сделано было для krita, blender и иже с ними.
Сложно назвать это новинкой, но проекция текстуры во вьюпорте работает без бубна - и на том спасибо.

youtube


@derplearning

Читать полностью…

Derp Learning

Благодаря comfyui стало возможным визуализировать спагетти-год

Читать полностью…

Derp Learning

Luma выпустила интерполяцию между кадрами

📕 Теперь в Luma Dream machine доступно добавление первого кадра и последнего, это позволяет лучше контролировать сцены и скрещивать миры, которые казалось бы никогда не могли находиться в одном пространстве.

🐈‍⬛ Вчера всю ночь игрался с вариантами, особенно хорошо зашло с новой нодой для ComfyUI от создателя IP Adapter, где можно контролить точечно атеншин, и мем с котом в ученого, как раз был создан через точечный перенос стиля с двух совершенно не похожих объектов (Мемный кот и старая фотка человека с видеоприемником похожего на VR шлем)

LUMA

P.S. У меня есть хорошие новости для всех кто помнит мои обучалки на ютьюбе, а так же кто скучал по моей творческой части канала. Анонсирую второй сезон обучающих роликов и стримов по ComfyUI/Blender и новинок нейронок

Читать полностью…

Derp Learning

Карпатый готовит большой курс по LLM – LLM101n: Let's build a Storyteller

Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.

Такое ему не в первой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.

В публичном доступе есть репа с содержанием курса, но самих лекций пока нету

Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)

#ликбез
@ai_newz

Читать полностью…

Derp Learning

Superconducting supercomputers

В свежем IEEE Spectrum статья про сверхпроводящие компьютеры (https://spectrum.ieee.org/superconducting-computer) и целый стек, разрабатываемый сейчас международной организацией Imec (https://www.imec-int.com/en) со штаб-квартирой в Бельгии.

На фоне разговоров про триллионные кластеры с масштабами энергопотребления уровня 20% общего производства энергии США на один такой кластер (https://situational-awareness.ai/racing-to-the-trillion-dollar-cluster/#Training_compute) и энергию как одно из главных бутылочных горлышек таких затей (https://situational-awareness.ai/racing-to-the-trillion-dollar-cluster/#Power), и даже на фоне более ранних прогнозов из 2015-го про вычисления вообще, где говорилось что к 2040-му требуемая для вычислений энергия превзойдёт мировое производство оной (https://www.semiconductors.org/wp-content/uploads/2018/06/RITR-WEB-version-FINAL.pdf, Figure A8) если продолжать использовать типовые мейнстримовые вычислительные системы, все эти движения выглядят очень актуальными.

Imec разрабатывает решения сразу на всех уровнях стека, от материалов для сверхпроводящего железа, через новые схемотехнические решения для организации логических схем и памяти к архитектурным решениям на уровне совмещения с классической DRAM памятью.

Новые схемы основаны на использовании эффекта Джозефсона в устройствах под названием переход Джозефсона (Josephson junction, JJ, https://www.scientificamerican.com/article/what-are-josephson-juncti/). В них два слоя сверхпроводника разделены тонким слоем диэлектрика, через который туннелирует ток до тех пор, пока этот ток не превышает критическое значение. При превышении критического тока, в переходе возникает импульс напряжения, запускающий ток, который дальше будет течь по сверхпроводящему контуру с JJ бесконечно. На этих контурах можно построить логические элементы (ток течёт -- 1, не течёт -- 0) и память (два связанных контура, если ток в левом -- хранится 1, если ток в правом, а в левом нет -- 0).

Предложенная авторами плата под названием superconductor processing unit (SPU) содержит сверхпроводящие логические контуры и статическую память (SRAM) на JJ, охлаждённую жидким гелием до 4K, также через стеклянный изолятор на схеме есть классические не-сверхпроводящие CMOS DRAM охлаждённые до 77K и далее ведущие наружу в комнатной теплоты мир коннекторы.

Смоделирована система со ста такими платами, размером порядка обувной коробки (20x20x12 см), которая может выдавать 20 exaflops (10^18) в bf16 и потреблять всего 500 киловатт. У топового суперкомпьютера Frontier что-то типа чуть больше 1 экзафлопса, но правда это fp64, а не bf16. И энергопотребление в сотню раз выше. У DGX H100 с 8 GPU заявлено 32 petaflops в fp8, и соответственно 16 petaflops в bf16, то есть 20 exaflops потребует 10000 карт H100. Впечатляет в общем.

Да, требуется энергия на охлаждение, но начиная с некоторого масштаба (в районе десятка петафлопс) она уже полностью отбивается и сверхпроводящий суперкомпьютер обгоняет классический на GPU.

Из дополнительных интересных бонусов может быть более лёгкая интеграция с квантовыми компьютерами, которые требуют похожего охлаждения, а также с термодинамическими компьютерами типа как у Extropic, тоже использующими JJ (/channel/gonzo_ML/2688).

Это потенциально очень интересное развитие. Может и не нужны будут гига-датацентры размером с футбольные поля с атомными электростанциями под боком, а будет свой маленький сверхпроводящий суперкомпьютер на районе? Со своим районным AI.

Читать полностью…

Derp Learning

DeepSeek Coder V2

Опенсорсная модель знающая 338 языков и умеющая кодить на уровне лучших проприетарных моделей - немного отстаёт лишь от Claude 3.5 Sonnet. Она в 3 раза быстрее LLaMa 70B из-за fine-grained MoE архитектуры и MLA, своего эффективного варианта Attention. Это позволяет сделать очень дешёвое API (дешевле Claude 3.5 Sonnet в 50 раз на генерации и в 35 раз на инпуте).

Для тренировки взяли чекпоинт на 4 триллиона токенов от оригинального DeepSeek V2 и дообучили его на 6 триллионах токенов микса кода (60%), математики (10%) и обычных токенов (30%).

Кроме большой модели на 236 миллиардов параметров выпустили ещё и Lite модель, которая кодит на уровне LLaMa 3 70B. Там всего 16 миллиардов параметров и полностью заполненный контекстом KV Cache занимает меньше 2 гигов, так что квантизированная до 4 бит модель прекрасно запускается на 11 гигабайтах видеопамяти.

Если вы уже пробовали использовать эту модель с ollama и она у вас сбивалась на китайский, то это из-за бага в промпте у ollama. Этот баг пофиксили сегодня утром.

Веса: 236B / 16B
Пейпер

@ai_newz

Читать полностью…

Derp Learning

Я тут постоянно говорю о том, что нам не хватает инструментов для более точной настройки генераций, чтобы можно было более гибко настраивать и получать более предсказуемые результаты, пригодные для продакшена.

Таких инструментов пока немного, и чаще всего они собраны энтузиастами на коленке.

Как пример, Stable Projectorz — инструмент, созданный для текстурирования 3D-моделей с помощью нейросетей.

Из интересного, функционал поддерживает загрузку 3D-моделей и консистентную генерацию по ракурсам, вспомогательно простраивая карту глубины в реальном времени. Так же очень полезной выглядит фича инпэинтинга по маскам.

Работает на видеокартах NVIDIA (от GTX 1080) или AMD с поддержкой Stable Diffusion и от 12 ГБ оперативки.

Самое главное — после просмотра процесса текстурирования возникает вопрос: для каких целей вы это используете? И что самое главное, если бы вы делали эти же самые манипуляции для качества продакшен реди, не было бы это быстрее сделано привычными пайплайнами текстурирования с более предсказуемыми результатами?

Кажется, что ответ пока всё тот же: для быстрых прототипов или объектов дальнего плана, при сильной стилизации, вполне может сгодиться. Для семи или фотореализма — едва ли.

Но автору безусловный респект за сборку и возможность протестировать бесплатно!

Читать полностью…

Derp Learning

Изучаем эволюцию терминаторов:
Т (банк или пиво?)
Т4 (Nvidia GPU)
Т5 (text to text transfer transformer)
Т9 (погубил больше всего людей)
Т34
Т800
Т1000

Предлагаем варианты в комментах

Читать полностью…
Subscribe to a channel