derplearning | Unsorted

Telegram-канал derplearning - Derp Learning

13183

Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Subscribe to a channel

Derp Learning

На этой новости я кончился 😂

Читать полностью…

Derp Learning

Нейросеть улучшит фото блюд ресторанов в «Яндекс.Еде»:
https://shoppers.media/news/6087_neiroset-ulucsit-foto-bliud-restoranov-v-iandeksede
---
Готовимся к тому, что опыт заказов еды в приложениях будет с каждым днём все больше походить на рис. 1. 🚬

Читать полностью…

Derp Learning

В моем возрасте часто сам собой возникает вопрос из серии "а что ты сделал для хипхопа полезного для человечества?"

Oбычно я вспоминаю клип "linkin park - lost". Да, возможно, я (и любой другой) бы сделал лучше, но сам факт использования моего несчастного скрипта (да, эти всратые vid2vid куски) в этом клипе закрывает over 9000 гештальтов.

Ну и напоминает о том, что если ты lost, попизди с близкими, а не вот это вот все. Это не выход.

Читать полностью…

Derp Learning

(нет)

Читать полностью…

Derp Learning

Lofi khachapuri to relax\study

Читать полностью…

Derp Learning

Один из неожиданных и очень крутых демо NeurIPS это робот от Disney 😍

Читать полностью…

Derp Learning

В продолжение темы роботов — Tesla выкатили новый ролик с Optimus.

Ему прокачали дизайн (выглядит действительно гуманоидно, разве что спина плоская), облегчили на 10 килограмм, добавили манёвренности — бегает на 30% быстрее (в видео ничего не ускорено), дали сенсоры давления на каждый палец — это вообще вау!

Ролик завораживает, действия получаются почти естественными, а мелкая моторика в примере с перекладыванием яйца — жестб. И этот робот тоже учится в симуляции, навыки — не программируются вручную! А ещё Tesla планирует нарастить мощности суперкомпьютера для обучения нейросетей в 10+ раз в следующем году.

Эх, ждём коллаба GPT-6 и тысяч таких роботов 👍

Читать полностью…

Derp Learning

Зарплаты подкатили для AI спецов

Читать полностью…

Derp Learning

Лол, нашли очередной баг в веб версии GPT4:
При использовании, в ChatGPT, передается текущая системная дата и из-за того, что декабрь месяц праздников, она начала давать ответы короче.

То есть тупо сравнили даты май и декабрь, как часть промпта, и при декабре – ответы на сообщения короче ☕️

Автор

Читать полностью…

Derp Learning

ChatGPT научился решать судоку

Месяц назад ему такое еще было не под силу. Bard от Google до сих пор не может 🧠

Читать полностью…

Derp Learning

Real-World Humanoid Locomotion with Reinforcement Learning

Долгое время основной проблемой AI в робототехнике был Sim2Real Gap — разница между симуляцией и реальностью. Можно сколь угодно долго тренировать своих ботов в компьютере, но как только они сталкиваются с жесткой реальностью (типа отходняка в субботу) — мало что работает.

Исследователи из Berkeley показали невероятный результат — они смогли обучиться полностью в симуляции, а затем запустить нейронку на реальном роботе (1.6 метра/45 кг). И всё это end-2-end, без ручного программирования логики. Вы можете спросить: «так а чё, Boston Dynamics нас уже 10 лет таким развлекают?». Да, но у них долгое время вся логика была прописана вручную программистами, и это, как вы понимаете, плохо масштабируется. Обучение новому навыку может занимать год. А тут — всё сделано без вмешательства человека от начала и до конца. Это называется Zero-shot transfer (потому что с нулем дополнительных данных мы пренесли навык из симуляции).

Ключевых отличия от прошлых работ 2:
— масштаб сбора данных. Симуляция и обучение происходят на 4 GPU A100 (очень мало по современным меркам. GPT-4, по слухам, обучали на 25'000!) с помощью специального движка Nvidia IsaacGym, и в сутки генерируется больше 10 миллиардов попыток.
— как и принято в Deep Learning, все ручные эвристики убрали, и отдали на откуп Трансформеру: тот видит только состояние среды и действия из прошлого, и предсказывает, что нужно делать дальше (как GPT предсказывает следующее слово, так и этот — действия для конечностей). Никакого хардкода типа «если впереди ступеньки, то замедлись и подними ногу».

Вот вы читаете новость и радуетесь, а Джон Коннор сморит на вас из будущего с гримасой непонимания 😂😳

Читать полностью…

Derp Learning

Boston Dynamics demos are getting to the next level!

Читать полностью…

Derp Learning

ахахахаххахахахаххаах

Читать полностью…

Derp Learning

Когда ты лифт, и тебя попросили поработать в выходные

Читать полностью…

Derp Learning

Mistral 8x7b, 32k context length has just dropped!

magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%2Ftracker.openbittorrent.com%3A80%2Fannounce


RELEASE a6bbd9affe0c2725c1b7410d66833e24

Ждём q5 gguf 😅

Твит
Код

@derplearning

Читать полностью…

Derp Learning

Собеседование, на котором бывал каждый. Вспомнить это помогла нейросеть DALL-E 3.

Читать полностью…

Derp Learning

🌸Все данные для тестов LLM скомпрометированы? 🌸
#nlp #про_nlp #nlp_papers

Часто можно услышать критику о том, что результатам оценки LLM не стоит доверять, так как многие бенчмарки и датасеты уже давно лежат на гитхабе, а значит, наверняка попали в обучение моделей.

Как надежно тестировать языковые модели, если у нас часто нет доступа к их обучающим данным, а некоторые так и полностью от нас закрыты? Что, если данные были скомпрометированы?

Авторы Alpaca представили новый метод, позволяющий оценить риск утечки (контаминации) датасета, т.е. его ненамеренное/намеренное попадание в обучающую выборку у языковых моделей.

Идея простая: будем считать, что модель "запоминает" задания и ответы на них в той же последовательности, как они идут в датасете. Давайте проверим, сможем ли мы установить статистически значимую разницу в качестве решений задачи, если будем показывать моделям набор тестов задачи в том порядке, как он идут в самом датасете, или же в перемешанном порядке.
Спойлер: да, можем.

Искусственный эксперимент, при котором небольшой модели (1.4 млрд параметров) при обучении на Википедии "подкладывают" тестовые сеты различных датасетов — один раз, десять раз и т.д. — показывает, что при 10 и более копиях теста в обучении разница в качестве решения устанавливается достаточно надежно, и можно с уверенностью сказать, что можель опирается на запоминание, а не на обобщение или другие "возникающие" интеллектуальные способности.

Авторы протестировали несколько LLM (LLaMA2-7B, Mistral-7B, Pythia-1.4B, GPT-2 XL, BioMedLM) на публичных датасетах — и некоторые из них оказались действительно скомпрометированы. Например, Arc challenge точно попал в обучение Mistral, да еще и 10+ раз!

Выводы:
🟣Мы уже можем тестировать языковые модели, в том числе доступные только по API, на "честность" решения самых разных задач, а также можем проверять, не меняется ли картина во времени.
🟣Реальную сложность представляет обнаружение утечки теста, когда он попал в обучение всего один раз (не удается стат значимо установить разницу в качестве решений)
🟣Нас может ждать глобальный и регулярный пересмотр подхода к тестированию моделей, так как открытые ответы регулярно выкладываются на открытые площадки и, соответственно, компрометируются. Оценка LLM должна быть привязана ко времени?
🟣Остается проверить так все модели OpenAI?

🟣Статья: Proving Test Set Contamination in Black Box Language Models link

Читать полностью…

Derp Learning

главное мы друг друга поняли

Читать полностью…

Derp Learning

Days without asian tricks: 0

nVidia опровергла релизные заявления AMD, в котором последние сравнивали свой MI300 vs H100 (первые два столбца на графике)

В своей презентации AMD запускали H100 без Tensor-LLM/triton, который любой здравомыслящий человек использовал бы в реальном сценарии.

Ну а за время обработки 1 батча с 1 сэмплом MI300, H100 успевает обработать 14 сэмплов :D

Ждем подобных оптимизаций от AMD.
Конкуренция - хорошо, а то, что AMD заставляет nVidia делать такие ответки - тоже хорошо, держат в тонусе, дышат в затылок шею :D

подробнее

@derplearning

Читать полностью…

Derp Learning

Итак солевых полный двор, теперь ещё эти будут.

А вообще, скорее бы уже купить новый окулус, чтобы строить домики из грязи, а не вот это вот всё

Читать полностью…

Derp Learning

Хм, тут пишут про Brainoware - гибридный биокомпьютер, который (вроде как) смог научиться распознавать голоса с 78% точностью.

Поместили органоид (состоящий из нейронов полученных из стволовых клеток (?)) на пластину с тысячами электродов и учили на 240 часах записей разговоров 8 человек (информацию транслировали в электрические сигналы). Потом датчиками считывали реакцию органоида и декодировали ее с помощью какого-то алгоритма машинного обучения.

Новость

Brain organoid reservoir computing for artificial intelligence
https://www.nature.com/articles/s41928-023-01069-w


Я это не понимаю, мне это интересно

Читать полностью…

Derp Learning

MLC LLM - универсальный кросплатформенный GPU-accelerated фреймворк для LLM

Да, 7b модели можно спокойно крутить на телефоне.

git
blog
ios app
android app
desktop (win/linux/mac)
in-browser

@derplearning

Читать полностью…

Derp Learning

Ты: Пишешь в чатгпт в середине декабря
Чатгпт: давай уже после праздников

Читать полностью…

Derp Learning

Harry Potter and the stoners philosophy

Читать полностью…

Derp Learning

А вот такое мы любим.

X-adapter для подключения controlnet, lora от 1.5 к сдохле

Код


За наводку спасибо a s
@derplearning

Читать полностью…

Derp Learning

https://www.businessinsider.com/what-sam-altman-did-so-bad-he-got-fired-openai-2023-12

А вот и тизер второго сезона нашего любимого сериала!

Эсли кратко, то Сэма уволили без объявления войны предупреждения одним днём потому, что он был настолько расчётливым и манипулятивным, что успел бы дискредитировать всех участников борды, если бы его предупредили заранее.

Что ему и так удалось сделать пост-фактум, поэтому страшно представить, что было бы, если бы он знал ещё и заранее 😅

Читать полностью…

Derp Learning

I don't know what GPT-5 will run on, but GPT-6 will run on

Читать полностью…

Derp Learning

Работающая имплементация mixtral 8x7b в llama!

Первые робкие бенчмарки конкретно для этого кода на картинке выше.

Возможно, что-то ещё работает не так, но уже хотя бы работает. Ждём официальной имплементации и инструкций по запуску.

Для сравнения, Mistral-7b:
WinoGrande: 75.3%
Arc-c: 55.5%
Gsm8k: 52.1%

Код
Веса на hf

@derplearning

Читать полностью…

Derp Learning

Рыночная оценка компаний вроде OpenAI должна равняться кол-ву параметров в их топовой модели. Запомните этот твит (с)

Читать полностью…

Derp Learning

Марк Цукерберг показал технологию, которую использует чтобы выглядеть как обычный человек, которая позволяет в риалтайме на vr-очках показывать анимированный аватар, с учётом мимики лица и движения глаз, которые считывают vr-очки.

В основе лежит лайтовый меш лица, поверх которого рендерятся gaussian splats, причем для specular в том числе. Все это с динамическим освещением.
Говорят, моделировать мелкие детали и волосы так быстрее, чем существующими методами.

Интересно, быстрее ли это классического рендеринга.

Подробнее
Пдф

Читать полностью…
Subscribe to a channel