13183
Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Бесплатные облачные кредиты для стартапов
Многие из нас что-то пилят (или как говорят в Долине we are builders). Одно дело делать блокнотик в колабе, и совсем другое запускать что-то в продакшен. Для этого нужны деньги.
К счастью, у больших организаций типа AWS, Microsoft, NVidia и Google есть программы для стартапов, в которых они дают бесплатные облачные кредиты для реализации ваших идей.
Мне удалось получить их все, без официальной регистрации компании
Формы заявки довольно простые для заполнения:
AWS Activate - $1000+
NVidia Inception - $10000+
Microsoft for Startups -$1000+
Google for Startups - $2000+
Попадание в каждую из этих программ дает множество дополнительных плюшек, типа бесплатных кредитов на Notion, Miro, Assana, Vercel и тд
Happy building!
В х-иттере вирусится пост про прохождение верификации из r/stablediffusion.
И пока твиты набирают миллионы просмотров, оригинальные посты на реддите уже потерты модераторами.
До прохождения видео верификации навскидку даю ещё ну где-то полгода 😅🥲
Последний пост автора на реддите с воркфлоу (в комментах схороню скрин с ним на всякий)
@derplearning
Кулибины из Stanford University x DeepMind из говна и палок собрали робота за $32k
Он управляется нейросеткой с ноутбука с GPU 3070TI и способен обучаться сложным задачам всего за 50 демонстраций. «Демонстрацией» тут называется последовательность действий, осуществляемая человеком со специальными контроллерами в руках (см. тут и на видео). Авторы тестировали робота на многих задачах, и в целом в более чем 50% случаев у него всё получается после шага обучения «подражанию» людям.
Делает ну буквально всё: готовит, заправляет стиралку, подметает, заправляет подушку в наволочку, протирает мебель... был бы у меня такой робот — я б может и не женился 🍷
Инструкция «собери сам» доступна тут, в основе лежат покупные робо-детали и распечатанные на 3D-принтере компоненты.
Больше демок: тут, тут, тут и тут. Тем, кто досмотрит приложенное видео до конца — бонус с нарезкой людей фейлов бота при готовке. Тут платформой управляет человек (пока), то есть происходит та самая демонстрация.
———————————
Начинаем 2024й год в AI с хороших новостей для сотрудников фастфуда☕️
Мой любимый формат загадки – в видео ниже:
🏬 – ставьте домики если считаете что это реальное видео
🪿 – ставьте гуся если считаете, что это компьютерная графика
Результаты подведем завтра ☕️
AnyText: Multilingual Visual Text Generation And Editing
Ну що, с наступающим?
Alibaba, очевидно, не дают покоя лавры dalle3 в части генерации всратого текста, поэтому они выкатили свою вариацию LDM, заточенную на генерацию текста с картинками.
Назвать этот пайплайн "генераций картинок с текстом" язык не поворачивается :D Также поддерживает добавление текста на картинку, его редактирование и, как следствие, удаление вотермарков
Диффузная модель теоретически совместима со stablediffusion, так что скоро и все привычные свистоперделки можно будет подключить.
Го кидать сгенеренные открытки в комменты, я создал!
Git (apache 2.0)
Demo (если вы китаец :D)
Paper
@derplearning
Немножко странного на ночь.
Нейронка сгенерила людей, которых арестовывает полиция за ношение огромных ботинок.
в конце прошлого года мы делали предположения про что будет год следующий. много кто считал что после картинок - на очереди конечно же видео и 3д.
и видео сетки за год действительно проделали лихой путь от ультра криповых (один, два) до вполне артовых (один, два) и довольно реалистичных результатов (один, два, три, четыре). конечно со своими нейро-артефактами которые с каждой новой моделью выглядят все более естественно и все меньше бросаются в глаза
с 3д дело обстоит куда сложнее. уже есть неплохие решения (один, два, три, четыре) но все равно в основном шляпа на выходе
внезапно к концу года оказалось что если усилия 3д и видео моделей объединить - можно получить ну очень качественный псевдо 3д результат. не могу перестать удивляться - иллюзия работает почти идеально.
запускается это дело конечно же в ComfyUI. воркфлоу положу в комменты. там же дополнительные прикольные результаты
это видео от разработчика расширения IP-Adapter для комфи - обязательно к просмотру. чел сооружает похожий сетап и крутит девушку в 3д, сохраняя примерно ее внешность. вообще канал этого парня для меня настоящий исайт, уровень полезной информации зашкаливает
гайд о возможностях StableZero123 от Оливио
гайд от Матео Latent Vision
страничка воркфлоу в дискорде banodoco
всех с наступающим и пусть следующий год будет лучше чем этот! всем лучи добра
@тоже_моушн
Последнюю неделю ходил по магазинам и ловил себя на мысли, что если бы нашел что-то похожее с голосовыми ассистентами, сразу бы купил.
Это и для детей, и для взрослых будет очень значимым этапом, который изменит восприятие общения с ассистентами, и для самих ассистентов будет новым опытом, когда они научатся различать, имеют ли они физическое воплощение или нет, пусть даже это и не будет осознано в полной мере.
Mr.Rob построен на Raspberry Pi, сменных батареях, сервоприводах, отвечающих за повороты головы, OLED-дисплеях для анимированных глаз, а способность описывать мир работает через GPT-4. Так как изначально она не предназначена для этого, справляется пока средне. Может понять, что смартфон – это цифровое устройство, но не более.
PowerInfer, aka как гонять LLM-ки быстрее lamma.cpp (по крайней мере на Linux авторы демонстрируют заметное ускорение, чего нельзя пока сказать о Mac OS). Такой эффект происходит за счет предзагрузки на GPU только так называемых hot-activated нейронов, и расчета на CPU cold-activated нейронов. В общем то основная суть деления на такие холодные и горячие – это то, как при генерации активируются разные нейроны в трансформере исходя из входной последовательности токенов ⏰
🖥Репозиторий
Тем временем один из самых крупных датасетов картинок из этих ваших интернетов, laion-5b, временное офлаен: судя по жалобам, там нашли ссылки на ЦП.
*Косые взгляды на stable diffusion incoming*
Отдельно хочется поинтересоваться у тех, кто писал жалобы: вы там как в 5 млрд картинок нашли ЦП? Нужно быть очень Цпелеустремленными 😅
(Знать домен, промтить, предоставить образец)
Подробнее: https://laion.ai/notes/laion-maintanence/
@derplearning
Компания Meta (запрещена в РФ) представила Fairy, нейросетевую систему для диффузионных моделей редактирования изображений. Ориентирована она на видео и его монтаж.
Идея в том, что система расставляет на кадрах готового видеоролика "якоря", на которые уже распространяет диффузионные особенности по кадрам. Это обеспечивает сгенерированному видео точность и похожесть на оригинал.
Применений такому масса, все показаны в ролике. Берёте видео с котиком, отдаёте модели, получаете то же самое видео, но уже с тигром. Берёте видео с собачкой, превращается его в видосик в стиле Ван Гога.
Fairy генерирует 120-кадровые видеоролики 512x384 пикселей (длительностью 4 секунды при 30 FPS) довольно шустро - всего за 14 секунд, превосходя предыдущие нейрости В СОРОК ЧЕТЫРЕ (44) раза.
Короче, если вы только-только привыкли к тому, что нейросети делают картиночки, начинайте привыкать к тому, что они будут делать видеоролики, а всему показанному в интернете вообще не надо будет верить никогда.
@zavtracast
Принёс вам годный новогодний панк-рок трек.
Пару лет назад нейронки очень хреново генерировали музыку (либо пердёж из midi либо что-то похожее на настоящее произведение, но с лютыми шумами и генерациями около 12 часов на топовых видяхах). Тогда я думал, что до более-менее нормальных и быстрых генераций нужно не менее 5-7 лет развития нейронок и железа. Хорошо, что я ошибался.
Для генерации автор использовал SunoAI, Midjourney и Stable Video Diffusion
Пожалуй хватит на сегодня интернета
@EVENT.uz - Актуальные новости
Paranoid Pandemonium
Психоделический таймлапс создания не менее психоделического полотнища. 2 недели времени и 6000+ инпейнтов.
сорс
Какой на самом деле саундтрек играл в демо-видосе из этого поста
Ну что, кто уже заказал все запчасти для DIY-сборки, скачал клип известной группы, и с нетерпением ждет возможности обучить эту несчастную железку по-настоящему социально полезным навыкам? :D
Три минуты худших способов изменения громкости.
Потому что почему бы и нет.
@derplearning
Новогоднее поздравление сына маминой подруги.
Будьте собой.
Мы живем не во вселенной Altered Cabron Carbon, и все люди, к счастью, смертны.
(кекаю с этой пасты)
НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ (НАИМЕНОВАНИЕ, ФАМИЛИЯ, ИМЯ ОТЧЕСТВО (ПРИ НАЛИЧИИ), СОДЕРЖАЩАЯСЯ В РЕЕСТР ИНОСТРАННЫХ АГЕНТОВ) ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА (НАИМЕНОВАНИЕ, ФАМИЛИЯ, ИМЯ, ОТЧЕСТВО (ПРИ НАЛИЧИИ), СОДЕРЖАЩАЯСЯ В РЕЕСТР ИНОСТРАННЫХ АГЕНТОВ)
https://www.youtube.com/watch?v=0DgX9136eKc
MonadGPT is a chatbot trained on 11,000 early modern texts in English, French, and Latin — up to the 17th century.
Chat now: https://huggingface.co/spaces/Pclanglais/MonadGPT
Я всегда любил маленькие умные модели. Не очень сложно на большом масштабе получить хорошие результаты, а вот на маленьком - сложно.
Чуваки сделали 1.3b(mini llama based) в стиле llava модель, которая почти не уступает (3 цифра после запятой) 7b llava.
Hf
Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis
Собственно, позволяет в реальном времени рендерить видео-нерфы на основе видео с нескольких камер.
Сама оптимизация, конечно, не риалтайм, но рендер заявлен в 60 фпс на 4090 @ 8k
Когда уже увидим воксельные игры с таким подходом к рендеру?
Git (MIT)
Подробнее
Демки
Ютуб
@derplearning
Юмор выходного дня.
Как твоя мама видит mixt of Mistral experts.
Тут буквально на днях Microsoft выложили код огромной проделанной работы. Речь идет о LongNet представленном в июне этого года. Очередная попытка побороться с квадратичной сложностью внимания и заскелить длину последовательности до (просто вдумайтесь) 1B токенов (см график на срине 1) 😳
Звучит круто, на деле механизм следующий: будем делить последовательность на сегменты, а внутри еще на уровень разреженности (ну типо как sparse attention). Посмотреть визуализацию можно на скрине 2.
Но это еще не все. Это дело все можно распараллелить на гпушки следующим образом: возьмем длину последовательности, разделим объем последовательность на сегменты, количество которых равно количеству карт. Дальше на каждой карте будут свои матрицы Q, K, V. Но объеденим далее мы в одну только матрицы K, V, а Q будет на каждой карте своя в итоговой формуле. (Скрин 3)
Так вот. Для всего этого дела теперь есть код в открытом доступе. Вот репа (заходим в директорию torchscale/model и наслаждаемся)
НО ЭТО ТОЖЕ ЕЩЕ НЕ ВСЕ. Также в начале декабря они зарелизели LongVIT, который представляет из себя такой же алгоритм, только картинка будет разделена на патчи (скрин 4), что и представит последовательность (код можно найти в той же репе, но директория examples/longvit)
🖥Еще раз. Код весь туть
В 1948, в штате Айдахо раскидали около 70+ бобров на парашютах, чтобы увеличить их популяцию в заповедниках
Читать полностью…
Ну нельзя было не запостить. Распространите, пожалуйста!
Читать полностью…
Спустя год после анонса Amazon окончательно оформил сделку с Games Workshop по покупке прав на фильмы и сериалы по Warhammer 40,000. Генри Кавилл выступит исполнительным продюсером части проектов.
Сейчас Amazon и Games Workshop находятся в активном поиске сценаристов для фильмов и сериалов, так что первый контент по Warhammer 40,000 появится не раньше, чем через пару лет.
@zavtracast