13183
Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Derpth Anything (25M q8) теперь и в transformers.js
Можно делать это ваше псевдо-3д-шевеление картинок прямо в браузере.
Мелкая моделька звезд с неба не хватает, но 27 мегабайт - это 27 мегабайт.
Вариации модели побольше тоже есть, но вряд ли вы будете каждый раз добровольно тянуть 300мб :D
tweet
github
demo
@derplearning
Apple vision в facetime делает ваш аватар похожим на персонажа Симс2, ну или ГТА Сан Андреас.
Наконец-то можно охладить трахание с друзьями, всего за 3500 бакинских.
All we had to do was follow the hype train, CJ!
Аспирантка Лорен Рамлан запустила Doom на клетках кишечной палочки.
Клетки функционировали как пиксели, отображая флуоресцентной подсветкой по одному кадру каждые 8 часов 20 минут. На прохождение уйдет около 666 лет.
#оффтоп
Models: getting out of business because of ai models trained on perfect photos of perfect people.
Men with dad bods:
/channel/dankmarketing/12903?single
Согласитесь, забраться на крышу, чтоб попить пивка на диване - охуенная идея.
Забраться на крышу, чтоб в трусах накачанным полежать на диване - даже звучит странно.
Hugging Face 🤗 х Google Cloud 🖥 объявили о Партнерстве.
Hugging Face и Google Cloud объединяют усилия, чтобы сделать ИИ и облачные технологии доступными для всех.
Сотрудничество заявляет своими целями укрепить открытую науку, открытый код, облачные решения и обеспечить OSS проекты передовым оборудованием.
Этот колаб (pun intended) — шаг к более открытому, безопасному и эффективному ИИ.
🔗 блог-пост
Всегда считал дополненную реальность хуитой без задач, но вот такое применение для настолок — вполне годно! Ток с вот такой гарнитурой на башке всрато как-то долго сидеть. Если бы это все было небольшим и аккуратным (примерно как у Google Glass) было б ваще огненно.
Читать полностью…
moondream1
Небольшая визуальная языковая моделька, всего 1.6b
В основе микс из SigLIP и Phi 1.5, тюненый на LLaVa.
Для такого размера работает вполне даже хорошо, местами на уровне 3b моделей.
Вчера мы слушали мемы, сегодня почитаем.
demo
code
model card
tweet
@derplearning
Image to SFX
Любопытный Спейс до генерации аудио по картинке с двумя моделями:
MAGnet & AudioLDM
Го слушать как звучат мемы, я создал!
Твит
Веб демо
@derplearning
Скрейпинг веб страниц в эпоху GPT-Vision
Последние пару недель, я много эксперементировал с парсингом и скрейпингом веб страниц. В итоге я пришел к выводу, что сайты были сделаны для того что бы на них смотрели глазами, и соответственно парсить их эффкетивнее всего тоже будет глазами.
Собрал для вас старый добрый Colab, с помощью которого можно сделать summary любой страницы в интернете (в пределах того, на что не обидится OpenAI).
Как это работает:
- с помощью selenium я делаю скриншоты сайта
- объединяю их в одну картинку
- отправляю эту картинку в GPT-vision
- получаю summary
🚀 Google Colab
Приглашаю всех попробовать и присылать PR c новыми функциями, исправлением багов и прочими правками.
В качестве бонуса (для продвинутых пользователей), добавил в pipeline создание эмбедингов поверх полученных summary.
Если пойдет, может быть сделаем крутого open-source Web-scrapping Assistant или типа того
DragNUWA x ComfyUI
Недавно RunwayML показали новую фичу: multi motion brush, позволявшую управлять направлением движения сразу нескольких областей исходной картинки.
Думаю, ни для кого не секрет, что это их имплементация августовского пейпера dragnuwa.
Но опенсорс не дремлет, и реализация DragNUWA уже доступна для SVD, а с ней и соответствующие ноды в ComfyUI.
ComfyUI workflow
Git comfyui dragnuwa
Git dragnuwa 1.5 svd
DragNUWA paper
Твит
@derplearning
https://fxtwitter.com/business/status/1748400673614336471
После этой новости сэм альтман нашел у себя в кровати голову единорога.
Со следами кожаной куртки.
Чикагский Университет выкатил Nightshade - тулзу, призванную усложнить жизнь коварному ИИ, который так и норовит украсть работы у художников, вот это вот все.
Если верить тогдашнему пейперу, то работает через оптимизацию пикселей картинки на соответствие ложному концепту (cat -> dog например), при сохранении визуального сходства с исходником.
Хоть они и заявляли, что метод нельзя обойти кропом, поворотом или пережатием картинки, вангую, что он работает только если вы будете размечать картинки с помощью конкретной модели, которая выступала критерием для оптимизации. Т.е. меняете CLIP на что-то еще, размечаете вручную - и вуаля. Ну и к тому же таким образом удастся разве что испортить концепт чьего-то конкретного стиля, потому что по их же пейперу для похеривания обучения на датасете размером с LAION5b нужно 5м испорченных картинок. Пока не вижу реальных кейсов, кроме усложнения тюна существующих моделей\lora на базе SD.
Сайт
Скачать
Гайд
Срач на reddit
@derplearning
А вот и действительно актуальный девайс - кибердек судного дня.
Жаль, нет нормального списка запчастей.
Ну и давай не ламповый, где клетка Фарадея, спрашивается?
https://youtu.be/bsT4CR9Jw-c?si=cdjCSjAQUw8SyE79
Apple 3d maps vs Apple Vision pro avatars: и там и там - зловещая долина, хотя в случае с картами долины были буквальными.
Читать полностью…
Нущто, лед тронулся?
Большие студии уже официально созрели для генеративного ИИ.
Одна из карманных VFX-студий Netflix, Scanline VFX, ищет Research Scientist, Computer Graphics, Computer Vision, and Machine Learning. (первая картинка)
Понятно, что готовые опенсорсные решения и модели, обученные на LAION-CP LAION-5b-like датасетах, официально юзать никто не будет.
Скорее всего, пойдут по пути Adobe и аккуратно впишут во все свои контракты пунктик о возможности обучения моделей на результатах жизнедеятельности подрядчиков. Design and implement high-quality training data acquisition efforts, ну ты понел. Схожим образом недавно тинёк опрокинул своих актеров озвучки, например.
Выходит, теперь в нетфликсе можно не только эти ваше таблички процессить с рексисами.
з.ы. в твиторе вирусился пост с более мемной вакансией в этой же студии (вторая картинка), но он либо удален, либо никогда и не существовал, ибо много опечаток и кринжа в описании. Веб архив его тоже не помнит.
вакансия
твит с вероятным фейком
Вот и новое поколение wearable AR девайсов на подходе - челики из стартапа Blinkenergy разрабатывают AR-линзу!
Пока это ранний прототип, но выглядит очень круто! На веко лепится тоненький контроллер, который питает линзу энергией и соединяется с телефоном для передачи информации, которую нужно отрендереть на линзе.
Убеждают, что дизайн удобный и глаз от линзы не болит. Думаю, что со временем контроллер станет еще меньше и линзы еще тоньше.
Пока это первый стартап, работающий над AR-линзами. Мне кажется довольно естественным такой подход к AR, где дополненная реальность напрямую накладывается на видимую реальность через глазные линзы.
Это же прям то, что нужно каждому обывателю эпохи киберпанка - листать тиктоки со стеклянным взлядом, сидя в метро, вместо того, чтобы пялиться в телефоны!
Посмотрим, появятся ли конкуренты со своими линзами в ближайшее время.
@ai_newz
Если у вас завалялось 10кг меди и штук 10 башенных кулеров, то у меня есть для вас инструкция по сборке пассивного радиатора для rtx 3080 😂
Source
На что только не готовы пойти Эппл, лишь бы игры на маке не делать 😅
Читать полностью…
The elder scrolls LXXIX: Herculaneum
Если вы не в курсе, в прошлом году начался челлендж по расшифровке чудом уцелевших при извержении Везувия древних свитков. Советую ознакомиться с лонгридом от Антона, который большую часть прошлого же года занимался этой самой расшифровкой, и небезуспешно.
Ждём исков от древних греков за использования рукописей в датасете без их согласия
/channel/repushko_channel/1953
Ai-powered бинокль за $5k со встроенной классификацией живтоне.
Теперь, когда жена попросит модный аксессуар от Swarovski на годовщину свадьбы, вы знаете, что делать.
@derplearning
В ноутбуке Тесея Framework появились сменные дискретные видеокарты.
Причем меняются они почти как картриджи в этих ваших геймбоях. (Надо 4 болта под клавой открутить)
Пока только 8гб карточка от АМД, но все данные для создания своих картриджей уже есть, так что скрестили пальчики и ждём A100 :D
What a time to be alive!
Мы релизнули вихрь💨 Нормально.
Проблемы: мы не очень уверены что оно точно аутперформит mistral и saiga mistral. Формально - да, все хорошо.
Цитируя классику
Если вам интересно что мы сделали: хабр
А еще оформили все в красивую HF репу: https://huggingface.co/Vikhrmodels
Обсуждение очередного пейпера без весов, кода, и демо от нвидии.
Читать полностью…
В японском интернете ещё 16 января появился большой пост-мортем Palworld и вот самые дикие и интересные факты о разработке игры:
- Бюджет хита составлял что-то около 6.7 миллионов долларов, причём его толком никто не вёл. Разработчики занимались игрой пока банковский баланс не стал нулевым
- Это был первый опыт студии в создании моделей и ассетов, а не покупки их на площадках. По этой причине никакого контроля над источниками или наименованиями не было вообще
- Главный художник Palworld провалил собеседования в сотню с хвостиком компаний
- Анимации "пушек" делал 20-летний парнишка, закончивший лишь среднюю школу, а своё рабочее время ему надо было распределять между Palworld и подработкой кассиром в продуктовом магазине
- Вся команда понятия не имела что такое "риг" (каркас для анимаций)
- В определенный момент в команду пришел старший инженер работавший с Unreal и весь билд на Unity отправили в мусорное ведро, а инженеру в одиночку пришлось переучивать команду
- В оптимизации Palworld прямо до самого релиза принимал участие CEO компании
- Сейчас Pocketpair наняла ветеранов индустрии и отладила процессы, но путь игры до релиза является не меньшим чудом, чем рекорды Palworld в Steam.
@zavtracast
Zoochosis
Наконец-то, достойный симулятор контактного зоопарка \ обычного дня в австралии боди-хоррор в модной же нынче бодикам-стилистике.
Суть такова: эльфы в лесу вы обычный смотритель зоопарка и занимаетесь обычными для вас делами - спасаете подопечных от неизвестного паразита, превращающего их в кровожадных мутантов, попутно изобретая противоядие. Визуально выглядит неоч, но идея интересная.
Давно хотелось чего-то в духе The Thing, но не на полярной станции, так что будем посмотреть.
https://www.youtube.com/watch?v=zx76uvIDU3s&ab_channel=IGN
Ненейросетевой генератор изображений
Он работает так же, как другие генераторы: пользователь вводит текстовый промпт и через некоторое время получает готовую картинку. Разница в том, что по ту сторону монитора находится не нейросеть, а живой художник.
Это проект нью-йоркского графического дизайнера Адриана Делкана. Он рисует по несколько десятков изображений в день и планирует продолжать проект до конца года, потому что получает от него удовольствие.
Делкан считает, что проект позволяет немного посмеяться над проблемой влияния искусственного интеллекта на людей, к которой все относятся серьёзно. Сам он смотрит на это так:
В основном я рад видеть изменения, которые принесёт искусственный интеллект. До сих пор, на текущем этапе, это был чрезвычайно полезный инструмент.
Подписывайтесь 👉@techno_yandex
Не пропускайте новости Яндекса тут @yandex