13183
Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
В преддверии Phantom Liberty выходит эдакий кинематографичный летсплей - Cyberpunk 2077 The Movie
Как раз будет что посмотреть после Edgerunners
Всем барбенгеймер!
T-Shirt Design Lora for SD XL
Теперь ЧатГПТ притворяется целой девелоперской компанией и пишет софт за минуты:
https://github.com/openbmb/chatdev
Статья:
Communicative Agents for Software Development
https://arxiv.org/abs/2307.07924
Один из актёров фильма «Подземелья и драконы» рассказал, что специально усложнял работу CG-художникам, делая сложные движения руками.
Лицо специалиста по графике в конце говорит о многом
r/#funny
В комментах попросили поделиться вариациями инфернальных жоп, которые не вошли в финал. Показываю 😍.
Читать полностью…
Охуеть! Клонирование голоса всего по трем секундам эталонной записи. Плюс обещают, что не жрет кучу ресурсов и можно запускать чуть ли не на домашней пекарне.
Сам ещё не смотрел как оно работает, надеюсь ночью глянуть.
Исходники открыты и лежат тут
Phind продолжают тюнить CodeLlama.
Выложили Phind-CodeLlama-34B-v2,
которая умеет в Python, C/C++, TypeScript, Java и заявляет 73.8% pass@1 на HumanEval
Репо
Пока качается TheBloke/Phind-CodeLlama-34B-Python-v1-GGUF (а говорили, щто умер :D), попросил масенький TheBloke/WizardCoder-Python-13B-V1.0-GGUF сгенерить мне змейку.
Удалось с 99% успехом (перепутаны направления и забыл запустить main()), но в остальном все работает.
Prompt:
I need you to write 1 piece of python code for a functioning game of snake. Make sure to fill every line of code completely, do not leave any place holders, as logic for the code must be thought of now and implemented in this generation.
Make sure the game have a window to play in, has proper working food for the snake to collect, has the ability for the snake to eat the food and grow from the eaten food, has the ability for the snake to die from running into itself or the border of the window, and has a restart button once the game is over to play the game over again.
Make sure the game has a simple visual graphical interface for the user to see when playing, you will have to code this yourself. Absolutely make sure everything mentioned in the code is written, do not leave a class that is mentioned somewhere but not written out properly elsewhere Please follow this format when writing the code:
FILENAME
CODE
Наткнулся на сообщение СЕО конторы где я работал, из которого узнал, что компания проинвестировала в молодых и перспективных стартаперов. Команда на фото
Читать полностью…
Выкатили CodeLLAMA
7/13/34b, code continuation/infilling, instruct/chat models.
Заявляют SOTA среди опенсорс-моделей. Штош, будем посмотреть :D
Github
Paper
Blog
Срач вокруг юнити продолжает разгораться
Если вы пропустили, то недавно юнити обновили свои термзы, требуя мзду теперь не только с прибыли, но и за установки игр, включая переустановки и установки на разные девайсы.
Т.е. юзер купил игру в Стиме и заплатил 1 раз, а разработчик платит за каждый инсталл лол.
Если вы уже потянулись за вилами\факелами, то охладите тра подождите. Это ещё не всё!
Оказалось, не так давно они удалил репо с гитхаба, который позволял трекать лицензии для конкретных версий, и убрали положение, позволяющее юзать старые версии с их актуальными лицензиями на момент выхода версии. То есть это все ещё и ретроактивно и затрагивает старые версии и, возможно, уже выпущенные игры.
Достаем попкнорн и ждём class action lawsuits от Нинтендо? 😅
Подробнее про махинации с лицензиями тут
👃 У нейросетей появился нюх
Ученые из Google исследовали, как можно научить искусственный интеллект предсказывать запах вещества по его молекулярной структуре. Эта фундаментальная проблема в области цифрового обоняния долгое время оставалась нерешенной.
Для создания модели авторы использовали графовые нейронные сети – специальный тип нейросетей, хорошо работающий с графовыми данными. Молекулы очень удобно представлять в виде графов, где атомы – вершины, а связи – ребра. Такая структура позволяет эффективно анализировать особенности молекулы.
Модель обучалась на наборе из 5000 молекул с соответствующими запаховыми дескрипторами типа "цветочный", "фруктовый" и т.д. Затем ее проверили на 400 ранее не встречавшихся молекулах.
Результаты показали, что нейросеть описывает запахи новых веществ не хуже, чем средний человек! Более того, модель лучше справляется с задачей, чем предыдущие подходы на основе традиционных химических дескрипторов.
Полученная нейросетью "карта запахов" переносится и на другие задачи в области обоняния - например, определение схожести запахов разных веществ. Таким образом, исследователи создали универсальное средство для изучения мира запахов.
В будущем подобные модели могут использоваться для автоматического предсказания запаха еще не синтезированных молекул. Это поможет ускорить открытие новых ароматов и душистых веществ без дорогостоящего экспериментального тестирования.
📰 Статья
Подпишись на @nn_for_science
Люди: изобрели промт «думай пошагово», улучшили производительность LLM, горды собой
LLM: придумал для себя промт «глубоко вдохни и подумай», улучшил производительность еще сильнее, забыл сообщить об этом кожаным
В данной таблице приведены примеры промтов, которые LLM делают сами для себя и их сравнительная эффективность.
https://fxtwitter.com/ggerganov/status/1699791226780975439?s=20
Читать полностью…
Найдена лучшая модель для SD
#ai #stablediffusion #model
Я вам принес с утра немного скепсиса. Нельзя ведь проснуться и не похейтить!
Тулза Reverie, которая может скопипастить муд из референсной картинки! И не просто сгенерить и перенести LUT, а настроить ваш directional light, skylight, перенести воздушную перспективу и т.д.
В интерфейсе мы видим landscape, weather, lighting, soundscape. Выглядит и звучит как😒
Создатель обещает выложить в релиз в этом году, что же, посмотрим! Там, конечно, не обошлось без AI.
Комунити менеджеров есть у нас? Отзовитес!
Нужно вести дискорд на ~5к юзеров, онлайн ~1к, язык - английский. Тамада, баянист, услуги, организация праздников итд. В общем, держать сервер в тонусе в плане организации каналов, устраивать движухи и рулить толпой модераторов-добровольцев.
Qwen-VL: вероятно лучшая мультимодальная языковая модель (by Alibaba)
Мало того, что по текстовым метрикам Qwen-7b превосходит LlaMa2-13b, так ещё и картинки теперь понимает!
Правда архитектурно ничего нового тут нет:
ViT-G + однослойный Q-former + LLMИзображения сжимаются в 256 эмбеддингов, которые идут прямо в контекст языковой модели (как во FROMAGe). Дополнительно Qwen-VL умеет в object detection — bbox'ы подаются и генерируются как обычный текст.
Phind оказался ленивее меня и написал скрипт для этого
Читать полностью…
Когда попросил переписать код без использования numpy:
###Instruction:
rewrite this code to use pytorch only, no numpy
def forward(self, frame1, frame2):
# Convert the frames to numpy arrays for processing
np_frame1 = cv2.cvtColor(frame1.cpu().numpy(), cv2.COLOR_RGB2HSV)
np_frame2 = cv2.cvtColor(frame2.cpu().numpy(), cv2.COLOR_RGB2HSV)
# def forward(self, frame1, frame2):
# # Convert the frames to numpy arrays for processing
# np_frame1 = cv2.cvtColor(torch.clone(frame1).detach().cpu(), cv2.COLOR_RGB2HSV)
# np_frame2 = cv2.cvtColor(torch.clone(frame2).detach().cpu(), cv2.COLOR_RGB2HSV)
🔥3D Gaussian Splatting for Real-Time Radiance Field Rendering
На видео - результат работы алгоритма, использующего снимки с дрона для реконструкции 3D сцены. Можно летать в ней риал-тайм.
Это стало возможным благодаря тому, что недавно переизобрели новый "старый" метод нейронного рендеринга.
Используя видео с помощью Structure from Motion (COLMAP) извлекается облако точек, затем по облаку инизиализируется набор маленьких полупрозрачных гауссиан. Эти гауссианы затем оптимизируются чтобы после рендеринга максимально точно восстанавливать оригинальные кадры. Все, ваша 3д-сцена готова.
То есть это никакой не Nerual Radiance Field. Тут все гораздо проще. За счет простоты эта штука и обучается, и рендерится довольно быстро. А назвал я этот метод новым "старым", потому что это до боли напоминает работу 2019 года Neural Point-Based Graphics (я писал о нем тут), где похожим образом для каждой точки обучался небольшой плоский элипсоид.
Сайт проекта
Код (можно запустить на своих cценах)
@ai_newz
На неделе, от Meta, вышла новая серия «больших языковых моделей» — которая позволяет генерировать код по текстовому запросу, ну, как многие это делали в ChatGPT.
Поскольку темпы в нашей индустрии невероятные, модель подхватили в сообществе, и уже через пару дней опубликовали дообученные версии (общей направленности, и отдельно дообученную модель для генерации Python кода). Что интересно, сделали это несколько разных команд, и обе получили результаты в спец тесте чуть выше, чем есть сейчас у GPT4 в генерации кода (1, 2).
Я такое очень люблю, локальные языковые модели на базе llama2 это:
— Хорошая лицензия для бизнеса: то есть можно прикручивать в стартапы;
— Безопасность: я точно знаю, что сотрудникам крупных компаний запрещают отсылать в ChatGPT корпоративные данные, локальные модели это обходят, так как никуда данные не отправляют и процессят их только на устройстве;
— Гибкость: модель можно дообучить, играться с параметрами или можно передать негативный промпт и снять с нее цензуру (тут я написал небольшую инструкцию как этого добиться), или заставить отдавать только строгий JSON формат и тп.
— Это дешевле в частном использовании: не все готовы отдавать по $20 в месяц за GPT4, так как могут учиться программировать, не обладать лишними деньгами и тп.
Поэтому я сразу побежал играться с этой моделью, с конкретной задачей — мне лениво пытаться самому понять, что делают некоторые скрипты (скрипты умнее меня), поэтому я прошу языковые модели конвертировать код в обычный текст.
Для тестов я взял исходный код древнего вируса Чернобыль (CIH), тот самый, который с 1998 вывел из строя 600 миллионов компьютеров, и нанес ущерба на 35 миллионов долларов.
Если откроете ссылку, то увидите что кода довольно много, а каждая языковая модель ограничена на входе размером текста который она может принять на вход (например, модель в которой я тестирую, была натренирована на 4K токенов, что примерно ~2800 слов) — поэтому пришлось насильно расширить контекстное пространство до 16K токенов (спасибо GGUF, не реперу, а новому формату llama.cpp который специально создан, чтобы упростить жизнь для работы с большим контекстом). Короче, спустя пару минут шумящего компьютера я получил описание того, что делает вирус, простым языком, и без всякого интернета 🫣
Дальше планирую с помощью модели порешать разные задачи которые встречаются в работе продуктолога: процессинг данных о использовании сервисов, написание запросов и тп, с GPT4 я уже довольно много всего наделал работая с данными, теперь интересно попробовать что же умеет делать GPT-дома.
☆ Модель с которой я игрался (34B)
☆ Скрипт которым запускаю инференс (Mac)
TL;DR: Жесть мы в будущем, теперь без интернета можно писать и дебажить скрипты
@Denis
вокруг ComfyUI - ажиотаж
для пользователей WarpFusion Дерп Лернинг запилил эксплейнер на комфи с наглядным объяснением процессов аккуратной стилизации видео. и похоже что нас ждет Comfy версия варпа!
если по началу комфи был интересен только кучке нердов то в последнее время он развивается активными шагами, и вот почему:
высокая гибкость инструмента, возможность дописывать свои модули (ноды), лихо соединять все это в едином интерфейсе, мега простой апи. это уже достойная альтернатива автоматику
вот например урок о том как делать бесконечную зум анимацию в комфи да еще и менять промпты прямо в процессе рендера
а DotSimulate на днях выложил на патреоне свой ComfyUI Touchdesigner API Tool Setup
своим изгибающим реальность сетапом я все еще хочу и планирую поделиться. останавливает только то что в эпоху однокнопочных решений предлагать пользователю танцевать с бубнами без четкой инструкции - ну такое себе
ComfyUI
Warp and Consistency explanation
zoom tutorial
ComfyUI TD API by DotSimulate
@тоже_моушн
Новое подтверждение теории, что все аниме-персонажи – это кошки, а не люди.
Какие ещё нужны доказательства?
r/#SipsTea