13183
Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Последнюю неделю ходил по магазинам и ловил себя на мысли, что если бы нашел что-то похожее с голосовыми ассистентами, сразу бы купил.
Это и для детей, и для взрослых будет очень значимым этапом, который изменит восприятие общения с ассистентами, и для самих ассистентов будет новым опытом, когда они научатся различать, имеют ли они физическое воплощение или нет, пусть даже это и не будет осознано в полной мере.
Mr.Rob построен на Raspberry Pi, сменных батареях, сервоприводах, отвечающих за повороты головы, OLED-дисплеях для анимированных глаз, а способность описывать мир работает через GPT-4. Так как изначально она не предназначена для этого, справляется пока средне. Может понять, что смартфон – это цифровое устройство, но не более.
PowerInfer, aka как гонять LLM-ки быстрее lamma.cpp (по крайней мере на Linux авторы демонстрируют заметное ускорение, чего нельзя пока сказать о Mac OS). Такой эффект происходит за счет предзагрузки на GPU только так называемых hot-activated нейронов, и расчета на CPU cold-activated нейронов. В общем то основная суть деления на такие холодные и горячие – это то, как при генерации активируются разные нейроны в трансформере исходя из входной последовательности токенов ⏰
🖥Репозиторий
Тем временем один из самых крупных датасетов картинок из этих ваших интернетов, laion-5b, временное офлаен: судя по жалобам, там нашли ссылки на ЦП.
*Косые взгляды на stable diffusion incoming*
Отдельно хочется поинтересоваться у тех, кто писал жалобы: вы там как в 5 млрд картинок нашли ЦП? Нужно быть очень Цпелеустремленными 😅
(Знать домен, промтить, предоставить образец)
Подробнее: https://laion.ai/notes/laion-maintanence/
@derplearning
Компания Meta (запрещена в РФ) представила Fairy, нейросетевую систему для диффузионных моделей редактирования изображений. Ориентирована она на видео и его монтаж.
Идея в том, что система расставляет на кадрах готового видеоролика "якоря", на которые уже распространяет диффузионные особенности по кадрам. Это обеспечивает сгенерированному видео точность и похожесть на оригинал.
Применений такому масса, все показаны в ролике. Берёте видео с котиком, отдаёте модели, получаете то же самое видео, но уже с тигром. Берёте видео с собачкой, превращается его в видосик в стиле Ван Гога.
Fairy генерирует 120-кадровые видеоролики 512x384 пикселей (длительностью 4 секунды при 30 FPS) довольно шустро - всего за 14 секунд, превосходя предыдущие нейрости В СОРОК ЧЕТЫРЕ (44) раза.
Короче, если вы только-только привыкли к тому, что нейросети делают картиночки, начинайте привыкать к тому, что они будут делать видеоролики, а всему показанному в интернете вообще не надо будет верить никогда.
@zavtracast
Принёс вам годный новогодний панк-рок трек.
Пару лет назад нейронки очень хреново генерировали музыку (либо пердёж из midi либо что-то похожее на настоящее произведение, но с лютыми шумами и генерациями около 12 часов на топовых видяхах). Тогда я думал, что до более-менее нормальных и быстрых генераций нужно не менее 5-7 лет развития нейронок и железа. Хорошо, что я ошибался.
Для генерации автор использовал SunoAI, Midjourney и Stable Video Diffusion
Пожалуй хватит на сегодня интернета
@EVENT.uz - Актуальные новости
Хочу поздравить и поблагодарить всех вас: сегодня был дан официальный старт нашей избирательной кампании!
Больше 700 сторонников встретились сегодня в Москве, чтобы поддержать мое выдвижение. В зале в прямом смысле яблоку негде было упасть!
Инициативная группа, в которую вошли 522 человека, проголосовали за, собрание состоялось. Не обошлось и без сомнительных инцидентов, которые в общем-то не повлияли на ход мероприятия. Это первая серьёзная победа на нашем пути 💪🏼
Но впереди еще много работы: 19 декабря мы предоставим документы собрания в Центральную избирательную комиссию. После этого я смогу открыть избирательный счет, а после начать сбор подписей.
❗️Уже в январе каждый из вас сможет оставить подпись в поддержку моего выдвижения — центры сбора подписей будут работать в городах России. Всего нам нужно собрать 300 тысяч подписей меньше, чем за месяц.
🔸 Если готовы помочь нам организовать сбор подписей в своем городе, заполните эту анкету: https://forms.gle/UGKiGiKiug9Q5uF78
🔸 Если готовы подписаться, оставьте свой контакт на сайте кампании: https://duntsova2024.ru/#rec666190555
Мы оповестим вас о точке сбора подписей в конце декабря.
Я верю, что вместе мы победим и сделаем Россию свободной и мирной страной!
Подписывайтесь на канал и приглашайте друзей: @DuntSova
А еще ChatGPT/dalle теперь наконец поворачивает картинки!
Читать полностью…
https://youtu.be/Ddz-VT97tvA?si=KQRPttsjuHu215VX
Fallout: San Andreas v2
Here is a fixed version of ChatGPT to provide you with full code samples + it fixes other recent problems you may have experienced with ChatGPT
https://chat.openai.com/g/g-4NTbdeA21-pro-code-writer-and-review-master
Нейросеть улучшит фото блюд ресторанов в «Яндекс.Еде»:
https://shoppers.media/news/6087_neiroset-ulucsit-foto-bliud-restoranov-v-iandeksede
---
Готовимся к тому, что опыт заказов еды в приложениях будет с каждым днём все больше походить на рис. 1. 🚬
В моем возрасте часто сам собой возникает вопрос из серии "а что ты сделал для хипхопа полезного для человечества?"
Oбычно я вспоминаю клип "linkin park - lost". Да, возможно, я (и любой другой) бы сделал лучше, но сам факт использования моего несчастного скрипта (да, эти всратые vid2vid куски) в этом клипе закрывает over 9000 гештальтов.
Ну и напоминает о том, что если ты lost, попизди с близкими, а не вот это вот все. Это не выход.
Юмор выходного дня.
Как твоя мама видит mixt of Mistral experts.
Тут буквально на днях Microsoft выложили код огромной проделанной работы. Речь идет о LongNet представленном в июне этого года. Очередная попытка побороться с квадратичной сложностью внимания и заскелить длину последовательности до (просто вдумайтесь) 1B токенов (см график на срине 1) 😳
Звучит круто, на деле механизм следующий: будем делить последовательность на сегменты, а внутри еще на уровень разреженности (ну типо как sparse attention). Посмотреть визуализацию можно на скрине 2.
Но это еще не все. Это дело все можно распараллелить на гпушки следующим образом: возьмем длину последовательности, разделим объем последовательность на сегменты, количество которых равно количеству карт. Дальше на каждой карте будут свои матрицы Q, K, V. Но объеденим далее мы в одну только матрицы K, V, а Q будет на каждой карте своя в итоговой формуле. (Скрин 3)
Так вот. Для всего этого дела теперь есть код в открытом доступе. Вот репа (заходим в директорию torchscale/model и наслаждаемся)
НО ЭТО ТОЖЕ ЕЩЕ НЕ ВСЕ. Также в начале декабря они зарелизели LongVIT, который представляет из себя такой же алгоритм, только картинка будет разделена на патчи (скрин 4), что и представит последовательность (код можно найти в той же репе, но директория examples/longvit)
🖥Еще раз. Код весь туть
В 1948, в штате Айдахо раскидали около 70+ бобров на парашютах, чтобы увеличить их популяцию в заповедниках
Читать полностью…
Ну нельзя было не запостить. Распространите, пожалуйста!
Читать полностью…
Спустя год после анонса Amazon окончательно оформил сделку с Games Workshop по покупке прав на фильмы и сериалы по Warhammer 40,000. Генри Кавилл выступит исполнительным продюсером части проектов.
Сейчас Amazon и Games Workshop находятся в активном поиске сценаристов для фильмов и сериалов, так что первый контент по Warhammer 40,000 появится не раньше, чем через пару лет.
@zavtracast
Когда попросил chatgpt-dalle добавить текст на картинку 😂
Без шуток, он реально открыл питон и добавил текст. Все что угодно, лишь бы не генерить нормальную картинку
Чатгпт теперь проверяет сгенеренные далле картинки не только на запрещеночку, но и на соответствие запросу.
На примере выше со второй попытки не смог исправить картинку, и после красного словца, уже сам перерисовывал до тех пор, пока не получилось то, что нужно.
Слежу за прогрессом в работах по теме виртуальной примерки. В канале уже целая серия постов об этом — от ганов до диффузии (гляньте для наглядного сравнения). Ещё я даже сам пробовал демо с виртуальным зеркалом на ICCV 2023.
Если раньше проблема виртуальной примерки казалось почти нерешаемой в адекватном качестве, то сейчас я замечаю, что каждые полгода результаты становятся всё лучше и лучше. Вот на днях Alibaba опубликовали новый метод на основе диффузии.
Загружаешь фото и примеры шмоток, а на выходе получаешь не просто фото в одежде, а целую анимацию!
Демо на HF
Сайт проекта
@ai_newz
Собеседование, на котором бывал каждый. Вспомнить это помогла нейросеть DALL-E 3.
Читать полностью…
🌸Все данные для тестов LLM скомпрометированы? 🌸
#nlp #про_nlp #nlp_papers
Часто можно услышать критику о том, что результатам оценки LLM не стоит доверять, так как многие бенчмарки и датасеты уже давно лежат на гитхабе, а значит, наверняка попали в обучение моделей.
Как надежно тестировать языковые модели, если у нас часто нет доступа к их обучающим данным, а некоторые так и полностью от нас закрыты? Что, если данные были скомпрометированы?
Авторы Alpaca представили новый метод, позволяющий оценить риск утечки (контаминации) датасета, т.е. его ненамеренное/намеренное попадание в обучающую выборку у языковых моделей.
Идея простая: будем считать, что модель "запоминает" задания и ответы на них в той же последовательности, как они идут в датасете. Давайте проверим, сможем ли мы установить статистически значимую разницу в качестве решений задачи, если будем показывать моделям набор тестов задачи в том порядке, как он идут в самом датасете, или же в перемешанном порядке.
Спойлер: да, можем.
Искусственный эксперимент, при котором небольшой модели (1.4 млрд параметров) при обучении на Википедии "подкладывают" тестовые сеты различных датасетов — один раз, десять раз и т.д. — показывает, что при 10 и более копиях теста в обучении разница в качестве решения устанавливается достаточно надежно, и можно с уверенностью сказать, что можель опирается на запоминание, а не на обобщение или другие "возникающие" интеллектуальные способности.
Авторы протестировали несколько LLM (LLaMA2-7B, Mistral-7B, Pythia-1.4B, GPT-2 XL, BioMedLM) на публичных датасетах — и некоторые из них оказались действительно скомпрометированы. Например, Arc challenge точно попал в обучение Mistral, да еще и 10+ раз!
Выводы:
🟣Мы уже можем тестировать языковые модели, в том числе доступные только по API, на "честность" решения самых разных задач, а также можем проверять, не меняется ли картина во времени.
🟣Реальную сложность представляет обнаружение утечки теста, когда он попал в обучение всего один раз (не удается стат значимо установить разницу в качестве решений)
🟣Нас может ждать глобальный и регулярный пересмотр подхода к тестированию моделей, так как открытые ответы регулярно выкладываются на открытые площадки и, соответственно, компрометируются. Оценка LLM должна быть привязана ко времени?
🟣Остается проверить так все модели OpenAI?
🟣Статья: Proving Test Set Contamination in Black Box Language Models link
Days without asian tricks: 0
nVidia опровергла релизные заявления AMD, в котором последние сравнивали свой MI300 vs H100 (первые два столбца на графике)
В своей презентации AMD запускали H100 без Tensor-LLM/triton, который любой здравомыслящий человек использовал бы в реальном сценарии.
Ну а за время обработки 1 батча с 1 сэмплом MI300, H100 успевает обработать 14 сэмплов :D
Ждем подобных оптимизаций от AMD.
Конкуренция - хорошо, а то, что AMD заставляет nVidia делать такие ответки - тоже хорошо, держат в тонусе, дышат в затылок шею :D
подробнее
@derplearning