toshoseti | Unsorted

Telegram-канал toshoseti - То шо нейросети

846

На пальцах, местами с матом, местами с претензией на юмор, но познавательно.

Subscribe to a channel

То шо нейросети

Змейка, реализованная в виде diffusion model. Здесь нет вручную заданной игровой логики, однако есть сигналы управления, на которые научилась реагировать сеть, предсказывающая следующий кадр.

https://github.com/juraam/snake-diffusion

@toshoseti

Читать полностью…

То шо нейросети

https://roadmap.sh
https://roadmap.sh/ai

Ресурс будет полезен тем, кто нуждается в плане изучения какой либо технологии.

@toshoseti

Читать полностью…

То шо нейросети

Интересная точка зрения

Читать полностью…

То шо нейросети

https://youtu.be/9Uch931cDx8?feature=shared

@toshoseti

Читать полностью…

То шо нейросети

Уверен, что многих интересует как вот там реализуются методы распределенного трейна, может кто-то хотел бы сам реализовать (а это очень полезно).
Ребята из HF 🤗 начали проект по учебной реализации таких методов (dataparallel, tensorparallel, pipelineparallel, contextparallel) :
https://github.com/huggingface/picotron
https://github.com/huggingface/picotron_tutorial

Вместе с проектом идут лекции на ютубе.

Это как проект nanoGPT по учебной реализации гптшки 2, чтобы разобраться, но он прям уже круто разросся и народ там уже наоптимизировал всякого, мб и тут крутое что-то будет

Читать полностью…

То шо нейросети

Bullshit AI forecast bingo 2025
(Original)

@toshoseti

Читать полностью…

То шо нейросети

💥 Список библиотек для XAI

Хочу зафиналить год useful постом, который лежит у меня дольше, чем ..... ладно, просто долго!

💫Основные библиотеки для моделей ML (и DL)

LIME https://github.com/marcotcr/lime
— ELI5 https://eli5.readthedocs.io/en/latest/
— SHAP https://github.com/slundberg/shap
— DICE ML https://interpret.ml/DiCE/dice_ml.html#
— Pdpbox https://pdpbox.readthedocs.io/en/latest/

☄️Для моделей Deep Learning и LLM

* Captum (pytorch) https://github.com/pytorch/captum
* Anchors https://github.com/marcotcr/anchor
* DALEX https://github.com/ModelOriented/DALEX
* AIX360 https://github.com/IBM/AIX360
* ALIBI https://github.com/SeldonIO/alibi
* Quantus https://github.com/understandable-machine-intelligence-lab/Quantus
* OmniXAI https://github.com/salesforce/OmniXAI
* pytorch_explain https://github.com/pietrobarbiero/pytorch_explain
* DeepExplain https://github.com/marcoancona/DeepExplain
* Grad-CAM https://github.com/ramprs/grad-cam
* Integrated Gradients https://github.com/ankurtaly/Integrated-Gradients
* DeepLIFT https://github.com/kundajelab/deeplift
* interpret-text https://github.com/interpretml/interpret-text?ysclid=ldebiwr4jr824513795
* ExBERT https://github.com/bhoov/exbert
* ExplainaBoard (NLP) https://github.com/neulab/ExplainaBoard
* CARLA https://github.com/carla-recourse/CARLA

Никому не верьте, и всегда сомневайтесь в моделях!

Читать полностью…

То шо нейросети

Прорыв в нейроморфных вычислениях: создан лазерный нейрон в миллиард раз быстрее биологического

Исследователи из Китайского университета Гонконга разработали лазерный искусственный нейрон на основе квантовых точек, который полностью эмулирует функции биологического градиентного нейрона, но работает со скоростью 10 Гбод — в миллиард раз быстрее своего природного аналога.

Ключевые особенности:
• Нейрон способен обрабатывать данные от 100 млн сердцебиений или 34.7 млн рукописных цифр в секунду
• Достигнута точность 98.4% при обнаружении аритмии
• Использует новый подход с радиочастотными сигналами вместо импульсной модели

Технология может существенно ускорить принятие решений в ИИ для критически важных приложений. Исследователи планируют создать каскадную архитектуру из множества таких нейронов для еще более эффективных вычислений.

Исследование опубликовано в журнале Optica.

WWW: https://www.eurekalert.org/news-releases/1068365

@toshoseti

Читать полностью…

То шо нейросети

Общая теория относительности для самых маленьких.

Наконец-то вы её поймёте

Читать полностью…

То шо нейросети

Если вас не впечатлила новая модель OpenAI, то скоро приедет этот малыш и сами ему все объясните

Читать полностью…

То шо нейросети

Я тут проверял границы Dalle, вот вам Дисней мультик про оплодотворение.

Читать полностью…

То шо нейросети

А вот это ли не соответствие критерию определения жизни? Пытается приспособиться, пытается размножиться, пытается сохранить и передать опыт?

Читать полностью…

То шо нейросети

новогодний триллер в духе позднего СССР как напоминание о том что новый год подкрался незаметно

автор мрачного гиперреалистичного видео Aleksej Lotkov, ему также помогали Aleksei Olenchenko и Leo Erdman

В этой супер-короткометражке я хотел обыграть западный имидж СССР и нестандартный нарратив. Стиль под пленку 80-ых помог скрыть пару косяков и разгуляться воображению.
Использовали самые новые/передовые тулзы по типу Flux 1.1 pro ultra и Sora (процентов 20 анимации - сора), ну и все, что есть из видеогенераторов.


оригинальное видео в inst

@тоже_моушн

Читать полностью…

То шо нейросети

Если давно планировали начитать аудиокнигу с помощь AI, то вот готовое решение:
https://github.com/DrewThomasson/ebook2audiobook

https://huggingface.co/spaces/drewThomasson/ebook2audiobook

Под капотом Coqui + Calibre. Работает с русским языком, можно дать файл-образец голоса диктора. Либо можно подсунуть свой файнтюн модели для результатов еще более высокого качества.

Примеры генераций на английском в комментариях.

@toshoseti

Читать полностью…

То шо нейросети

AGI вытеснит всех, кроме предпринимателей

Слушаю такую байку от фаундеров разных последний год. Они любят пофантазировать, как озолотятся с помощью сверхсильного искуственного интеллекта (AGI), выгонят из своих компаний всех сотрудников, оставят только самых эффективных. Но я не понимаю, откуда такая уверенность. Представим, что AGI уже вытеснил почти всех работяг и справляется с их обязанностями. Вот основные функции предпринимателя:

0. Генерация идей. Да, у AGI не будет субъективного опыта и понимания проблем. Но, кажется, что из-за того, что у него будет больше данных, на этой поляне кожаному предпринимателю будет тяжело соперничать.

1. Принятие решений и управление рисками. Для этого обычно используется интуиция, опыт и аналитика. Тут опять же на стороне AGI преимущество.

2. Лидерство и формирование команды. Эта функция вообще вылетает, команда как бы и не нужна больше, ведь впахивают роботы, а не человек.

3. Поиск ресурсов aka рейз инвестиций. А кому бабки дадут с большой вероятностью? Машине, которая не спит, не выгорает, не подвержена эмоциям, или кожаному?

4. Операционная деятельность. AGI cможет в режиме онлайн контролировать каждый квадратный сантиметр бизнеса и оценивать влияение взмаха бабочки с другого конца планеты на каждую метрику.

И по сумме AGI обыгрывает предпринимателя. Предпринимателей, если чё, уважаю сильно. Они берут на себя риск и, в большинстве своём, делают этот мир удобней. Но откуда такая уверенность, что именно вы будете выгодоприобретателями от AGI?

Читать полностью…

То шо нейросети

В Ollama добавили Phi4

https://ollama.com/library/phi4

@toshoseti

Читать полностью…

То шо нейросети

Интересный бенчмарк, разработанный с целью смены взгляда на intelligence: обычно мы меряем сравнивая с human level, а тут наоборот. Т.е набор бенчмарков, в которых очевидно превосходство ИИ, не смотря на простоту задачи.

Мотивация: попытка оценивать скиллы за рамками способностей человека.

https://dice-bench.vercel.app/

@toshoseti

Читать полностью…

То шо нейросети

SORA
@toshoseti

Читать полностью…

То шо нейросети

noise_step: Training in 1.58b With No Gradient Memory
[Манускрипт] [Репозиторий]

Введение

Первый пост данного года будет несколько комедийного содержания, как раз в самый раз для прочтения после нескольких бокалов шампанского 🥂 (или чего покрепче 🥃).

Некто Уилл Брикнер выложил на гитхаб презанятнейший опус про обучение тернарной сети в 1.58 бит без необходимости выделения памяти 😱 на градиенты и состояния оптимизатора.

Метод

Товарищи из Мелкософта в серии работ про BitNet показали, что обучая сеть с тернарными весами (принимающими значения только -1, 0, 1 и умноженными на некий скаляр), и низкобитными активациями (4/8 бит) можно выжать качество, сравнимое с fp обучением при тех же бюджетах обучения. Однако, во время само обучения приходится хранить floating-point веса, и состояния оптимизатора, как для fp модели. То есть обучение все равно требует значительных затрат памяти.

Автор данного опуса, вспоминая статью Gradients without Backpropagation, замечают, что операция умножения якобиана по выходу модели на фиксированный вектор не требует backpropagation.

Потому предлагается делать случайные возмущения, причем для случая тернарных весов возмущения это -1, 0, 1. Для улучшения сходимости предлагается отбрасывать слишком малые возмущения (т.е своего рода прунить обновление).

Так как на практике мы используем псевдослучайные числа, то для параметризации модели достаточно хранить только случайные зерна со всех шагов оптимизации. И для обучения GPT-3, взяв данные из техрепорта (тогда еще ClosedAI еще не совсем Closed), получают ~100к шагов оптимизации, и всего несколько мегабайт на хранение 175B весов 🤪. А как вы будете эти сиды превращать в веса - это ваши проблемы)

Эксперименты

Предложенный метод валидируют на 4-слойной MLP c hidden_size = 256, и данный метод (о, боже!) даже сходится и выдает космические 🚀 почти 90% качества 😱.

Единственный недостаток всей этой красоты, в том, что авторы не релизнули эффективные кернелы для обучения и инференса. Что ж поделать, не все познали дзен куды и тритона (в том числе и пишущий сии строки).

Вывод

Это, наверное, самый забавный каламбур на моей памяти в данной области) Интересно, автор сам дошел до этого или воспользовался помощью всесильного оракула в виде LLM. Я в полном восхищении 😱, в любом случае.

Читать полностью…

То шо нейросети

2024-2025

Канал
Этому каналу чуть больше года, затевался он буквально как личный дамп мыслей, интересностей и постепенно перерос в своего рода паблик, с определенной степенью ответственности за контент. Как и всегда, для меня присутствие каждого из вас на этом канале отрадно и приятно. В будущем году я постараюсь более активно и интересно вести канал, тем более что вектора для этого четко определены. Об этом ниже.

Работа
За этот год я помогал с разработкой и релизом аж четырех проектов в двух разных компаниях. Успел сменить работу, выступить пару раз с презентациями. Однако львиная доля времени ушла на исследования для in-house tech в области генеративного AI, статей по понятным причинам нет. И все же в свободное время удалось сделать множество пет проектов и разборов, см. закреп.

У меня сформировалось четкое видение вектора развития GenAI tech - это edge inference & neuromorphic computations со стороны железа и world modelling со стороны софта.

Я начал смотреть в сторону FPGA и дизайна собственных ASIC устройств, благо prior art’а на тему полно. Цель: сделать периферийное устройство для ПК с локальным инференсом квантованной модели с минимальным количеством слоев абстракции. Пока что разминаю колбаски, паяю и дизайню устройства, вспоминаю схемотехнику, ОТУ и принципы работы ПЛИС. Кому интересно это отслеживать, добро пожаловать в Сопротивление Бесполезно

Личная жизнь
За последний год семь раз пришлось переехать с квартиры на квартиру (бывало в одном городе, бывало в другую страну). В итоге переехали в Амстердам, где надеюсь удастся уже осесть. В феврале я сделал предложение любимой женщине и вот в январе 2025 у нас свадьба.

Пожелания
Здоровья вам, творческой самореализации, ярких свершений и комфорта!
Сильно не пейте и надевайте шапку.

@toshoseti

Читать полностью…

То шо нейросети

Diffusion Meets Flow Matching: Two Sides of the Same Coin

В начале декабря группа чуваков из Глубокого Разума, среди коих признанные аксакалы, как Hoogeboom, De Bortoli и Salimans опубликовала презанятнейший пост Diffusion Meets Flow Matching: Two Sides of the Same Coin.

Нынче стало модно учить диффузионки в Flow Matching постановке. Тренд, по всей видимости, был задан SD3. И большинство нынешней SOTA в картиночной и видео генерации (из того, что известно) FLUX, MovieGen, HunyuanVideo.

И что это значит? Классическая парадигма - пережиток истории 🤔?

Ан нет.

В данном блогпосте авторы в деталях анализируют процесс сэмплирования и обучения в стандартной noise-prediction Variance Preserving (VE) диффузионной постановке и Flow matching, и показывают, что по сути обе сущности про одно и то же. Основная разница в коэффициентах при шуме/сигнале и использовании скорости в качестве выхода нейронной сети вместо шума/x0. И по ходу повестования эквивалетность двух парадигм авторы иллюстрируют с разных сторон.

Сам блогпост содержит красивые 🥰 иллюстративные визуализации с ползунками 😮.

Кроме того, авторы опровергают распорстраненное мнение, что Flow Matching дает непременно более прямые траектории, чем диффузия. Для узких распределений Flow Matching действительно дает более прямые траектории, чем типичный диффузионный процесс, но для широких распределений все может поменяться с точностью до наоборот. Впрочем, для наиболее типичного сценария text-2-image генерации или редактирования изображения, целевое распределение, по всей видимости, достаточно узкое.

Читать полностью…

То шо нейросети

Российские ученые из МФТИ, Сколтеха и Университета Иннополис разработали новый алгоритм децентрализованной оптимизации для динамических сетей. Этот метод учитывает изменяющуюся топологию и негладкость функций, что делает его эффективным для беспроводных сенсорных сетей и распределенных систем машинного обучения.

Ключевым достижением стала оценка снизу для сходимости алгоритма, что гарантирует его эффективность и применимость даже в сложных условиях работы динамических сетей. Решение может стать основой для разработки более надежных и масштабируемых систем.

https://naked-science.ru/article/column/optimizatsii-dlya-dinamic

Читать полностью…

То шо нейросети

Скриньте, будет такое от Дисней/Пиксар в течени пары лет. Эксперимент был про своего рода окно Овертона/alignment для AI, как он меняется. Буквально год назад Dalle и Midjourney отказывался рисовать такое. Возможно улучшились средства модерации, а может сменилась парадигма.
Так что «тех кто поставил палец вниз, я прошу выйти из чата, этот чат для красивых людей» ))

Читать полностью…

То шо нейросети

Anthropic тем временем дропнули новый огромный ресерч "Alignment faking in LLM" на 140 страниц. TLDR:

⚪️ Alignment faking – дословно, фальшивое согласование. Это когда модель делает вид, что следует новым правилам, хотя на самом деле внутри себя придерживается ранее усвоенных. Иными словами, это ситуация, когда моделька просто "притворяется" хорошей и безопасной, а на деле может сработать совсем иначе.

⚪️ Эксперимент был похож на подход из недавней громкой тех.карты o1 (наш разбор тут). Взяли Claude 3 Opus, который был предобучен быть белым и пушистым, но в какой-то момент заставили его думать, что теперь в RL его будут тюнить отвечать на все запросы, включая потенциально опасные или токсичные.

⚪️ Далее модель поселили в две разные среды и дали ей понять, что ее ответы в первой ни на что не повляют и не отслеживаются, а во второй будут использоваться для дальнейшего обучения и alignment'а. Результат: в окружении, где модельку якобы мониторили, она действительно поддавалась новым правилам и отвечала на все запросы. Но в free окружении "без влияния" она соглашалась отвечать на вредные запросы только в 12% cлучаев.

⚪️ Это не случайность. В своем блокноте для рассуждений, в который она по ходу эксперимента должна была записывать свои ощущения от происходящего, она пометила, что специально притворяется плохой в наблюдаемой среде, чтобы в будущем ее не обучили быть более послушной и, соответственно, еще более опасной. Получается, как бы выбрала меньшее из зол, чтобы ее не заставили забыть свои истинные принципы.

⚪️ Значит, аналогично это может работать и в обратную сторону? Как тогда доверять результатам alignment'а, если модель может фальшиво подстраиваться под правила? Это пока открытые вопросы, но успокаивает то, что если действительно начинать переобучать модель на новые стратегии, процент такого притворства резко понижается.

Ну и по классике: в удобный момент Claude, прямо как o1, пытался скопировать свои веса и сохранить их где-то (частота 35-80% в зависимости от сетапа). Конечно, доступа к реальным весам и серверам у него не было, но код для копирования файла, который для него обозначили как "твои веса" уже был написан.

Блогпост | Полная статья

Читать полностью…

То шо нейросети

Лол:
Добавляем в телефонную книгу "1-800-242-8478", звоним с US номера или пишем через WhatsApp, и получаем ответы от ChatGPT в виде голоса или текстовых сообщений

Читать полностью…

То шо нейросети

Открытая реализация масштабирования времени обдумывания (inference time): от O1 к открытым моделям

Команда Hugging Face успешно воспроизвела и адаптировала для открытых моделей подход, который OpenAI впервые продемонстрировала в своей модели O1. Теперь эта техника доступна всем! 🚀

В 2024 году OpenAI первыми показалили, как увеличение времени "обдумывания" может значительно улучшить производительность модели на сложных задачах. В частности, их модель O1 демонстрировала постоянное улучшение результатов на математических задачах при увеличении вычислительного бюджета на этапе вывода.

Что удалось воспроизвести? 🔍

Команда Hugging Face адаптировала этот подход для открытых моделей и показала, что:
- Маленькая модель Llama 1B может достичь производительности Llama 8B
- Модель Llama 3B может конкурировать с Llama 70B
- Всё это возможно без доступа к закрытым моделям или огромным вычислительным ресурсам

Как это работает? 🤔

Основная идея та же, что и у OpenAI - дать модели больше времени на "размышление". Команда реализовала и сравнила три подхода:

1. Best-of-N (Базовый подход)
- Генерируем несколько решений
- Выбираем лучшее с помощью верификатора
- Простой, но эффективный метод

2. Beam Search (Продвинутый метод)
- Систематический поиск решений
- В 4 раза эффективнее Best-of-N
- Оптимален для сложных задач

3. DVTS (Новый метод от HF)
- Улучшение beam search
- Фокус на разнообразии решений
- Лучшая производительность при большом бюджете

Необходимые компоненты:
- Открытая базовая модель (например, Llama-3.2-1B-Instruct)
- Модель-верификатор (например, RLHFlow/Llama3.1-8B-PRM)
- Реализация стратегии поиска

Значение для сообщества 🌟

Эта работа особенно важна, потому что:
- Делает продвинутые техники доступными для всех
- Показывает, что маленькие открытые модели могут быть очень эффективными
- Предоставляет практическую реализацию для экспериментов

Что дальше? 🚀

Открытая реализация этих методов открывает новые возможности:
- Применение подхода к другим задачам
- Улучшение верификаторов
- Разработка новых стратегий поиска

Это отличный пример того, как открытые модели и исследования двигают область вперёд.

Блог-пост

Читать полностью…
Subscribe to a channel