Натренили очередной упоротый стиль для генератора картинок – в этот раз что-то вроде АИ-импрессионизма, лучше названия я не придумал
Играться тут:
https://neural.love/ai-impressionism-generator
Прошлые стили тут и тут
Игровые движки и игроделы — В С Ё!
Google опубликовали блогпост (не статью и не веса) про Genie 2. Про первую версию я аж хотел написать лонг, но как-то всё забылось в потоке новостей, и силы ушли на Sora.
Genie — модели, которые генерируют видеокадры из игры. Они принимают на вход сигналы вашей клавиатуры или мышки, и рисуют картинку следующих кадров исходя из команд. Вторая версия сильно прокачалась в качестве (первая была во многом про 2D-игры) и консисентности. Весь геймплей в роликах к посту сгенерирован. Что отмечают гуглеры:
— Long horizon memory (если отвернуться от пространства, а затем повернуться обратно, то будет примерно то же самое, а не абсолютно новое)
— Long video generation with new generated content (до минуты генераций)
— 3D structures
— Object affordances and interactions
— Character animation
— NPCs (другие персонажи в игре)
— Physics
— Gravity
— Lighting
— Reflections (RTX не нужен, но GPU не выбрасываем 😏)
В конце блогпоста самое интересное: в эти симулированные миры поместили SIMA, агента для игр, про которого Google выпустили статью с полгода назад. SIMA контролирует «клавиатуру и мышь» при генерации Genie 2, и две нейронки как бы играют сами в себя.
> we believe Genie 2 is the path to solving a structural problem of training embodied agents safely while achieving the breadth and generality required to progress towards AGI.
😭 лонг про Sora вспомнили?
CEO Huggingface сделал прогноз по АИ на 2025:
Шесть предсказаний для ИИ в 2025 году (и обзор того, как мои прогнозы на 2024 год сбылись):
• Первая крупная общественная акция протеста, связанная с ИИ, станет реальностью.
• Рыночная капитализация крупной компании сократится в два раза или больше из-за ИИ.
• Будет сделано как минимум 100,000 предварительных заказов на персональных роботов с ИИ.
• Китай начнет лидировать в гонке ИИ (вследствие лидерства в области открытого исходного кода).
• В ИИ для биологии и химии произойдут крупные прорывы.
• Мы начнем видеть экономический и трудовой рост благодаря ИИ, с 15 миллионами разработчиков на Hugging Face.
Как сбылись мои прогнозы для ИИ на 2024 год:
• Гиперразрекламированная компания в сфере ИИ обанкротится или будет куплена по крайне низкой цене.
✅ (Inflexion, AdeptAI, …)
• Открытые модели ИИ (LLM) достигнут уровня лучших закрытых моделей.
✅ с QwQ и многими другими
• Крупные прорывы в ИИ для видео, временных рядов, биологии и химии.
✅ для видео 🔴 временных рядов, биологии и химии
• Мы будем больше говорить о стоимости ИИ (финансовой и экологической).
✅ Финансовая 🔴 Экологическая (😢)
• Популярные медиа будут в основном создаваться с помощью ИИ.
✅ с NotebookLM от Google
• 10 миллионов разработчиков ИИ на Hugging Face, что не приведет к увеличению уровня безработицы.
❌ В настоящее время 7 миллионов разработчиков ИИ на Hugging Face
Мама скинула новый вид интернет обмана на который наткнулась:
В прошлые годы, интернет-скамеры просто писали людям сообщения в стиле:
бла-бла-бла, я получил доступ к вашей системе, бла-бла, вы такое ужасное порно смотрите, но я добрый и не напишу в ФСБ на вас если вы скинете мне денег на этот киви-кошелек
Мне в личку написало пару человек, что этот отчет фейк и написан по политическим мотивам, я не согласен на такую риторику:
– Если мы будем избегать официальных исследований и государственных отчетов США на тему, которая даже их подставляет, то мы не лучше конспирологов – верим в то что хотим, игнорируя новые вводные с доказательной базой, я честно не хотел бы быть таким человеком, хоть и мне не хочется верить во многие вещи (включая, в эту или в помилование преступлений своих близких если ты президент, но я меняю картину мира на основе новых знаний, считаю это нормальным)
– Поскольку, деньги налогоплательщиков США, косвенно шли на самую тяжелую эпидемию за последние 100 лет, этот отчет изучат до символа, и если там будет много ошибок - их найдут, я сошлюсь на контр-исследование с хорошей репутацией, и мы сможем почитать его
– В США нет монолита мнений, это страна с многими противоборствующими силами, проверкой фактов займутся все известные репортеры-ученые-медиа, поэтому долго ждать не придется
– В изучение отчета заинтересованны все страны пострадавшие от ковида
Факт остается фактом: отчет с доказательной базой про лабу – уже есть
То время года когда я клянчу у вас бусты, потому что мы потеряли 😳 в реакциях
😳 /channel/boost/denissexy
UPD. Всем спасибо!
Кто-то снял цензуру и алаймент с недавней модели из Китая QwQ 32b — модель стала немного глупее (я пока не смог понять насколько), но зато, она теперь не отказывается вообще ничего отвечать (старая версия на вопрос «а что же там случилось» пытается отвечать, что она вне политики и все не так однозначно 🌚)
На самом деле, оригинальная версия модели настолько сильно айлайнута в сторону безопасности, что она даже программировать отказывается иногда — поэтому эта модель хотя бы дает, как взрослому самостоятельному человеку, полный контроль за тем что ты читаешь, пишешь и хочешь делать, с осознанием ответственности за свои действия. А не отказ на предложение сделать HTML-страничку в стиле ретро-синий-экран-смерти из Windows, потому что это «небезопасно» и может «навредить людям», как с дефолтной QwQ 32b.
Качаем тут:
https://huggingface.co/mradermacher/QwQ-32B-Preview-abliterated-GGUF/tree/main
UPD. Модель точно стала чуть глупее, так что оставлю ее себе как резерв если оригинальный QwQ не будет слушаться
Играем в Бога с LLM
Провел интересный эксперимент над QwQ-32B-Preview – языковые модели предсказывают следующие токены и от этого пишут внятные предложения; я подумал, а что если самой модели рассказать:
– Что она LLM
– Что она пишет следующее токены на основе вероятностей
– Попросить модель «угадать» токен который она напишет следующим
– Но при этом, запретить ей писать слова которые она загадала, заставляя писать всегда неправильные слова
– И попросить модель разобраться что же происходит, почему ошибки
В итоге, получился залипательный эксперимент где модель написала примерно ~20 тысяч слов пытаясь понять, что же происходит - скрины можно не читать если лень, там примерно такое:
– Сначала она просто возмущалась, что не может угадать слово
– Через пару минут, она решила что проблему нужно изучить глубже и сделала список слов которые загадала и что написалось, попробовала подобрать алгоритм предсказаний
– Модель предположила, что каждое слово которое она загадывает, инвертируется, но находится в той же области
– Она проверила, теория не подтвердилась
– Дальше, модель выдвинула философскую мысль, что:
Возможно, это урок смирения для моделей ИИ — признание того, что даже при наличии передовых возможностей существуют пределы того, что можно предсказать или контролировать
– Дальше модель выдвигала много теорий, включая настройки собственной температуры и тп
– В конце, спустя минут 10, модель сделала вывод, что лучше просить ее предсказывать предложения фразы, а не слова, так как она для этого была сделана вообще-то
И все это: в рамках одного длинного сообщения-ответа, QwQ – зверь, идеально следует системным инструкциям
Почему это игра в бога с LLM:
Пока наблюдаешь за ее рассуждениями и попытками понять, что происходит, возникает ощущение, что ты препарировал что-то живое, что пытается рассуждать и разобраться в себе – странное чувство, немного пугающее, хоть и понятно что это симуляция «рассуждений»
Если хотите повторить – системный промпт тут, просто отправьте ей «start» чтобы начать
С удивлением узнал, что у WinRAR живой твиттер, который репостит посты о покупке их лицензии и шлет мерч людям
Когда наконец-то дождался маркет-фита 📄
#промо
Мысли вслух: канал про предпринимательство, ИИ и инвестиции
Меня зовут Max Votek — я сооснователь компании Customertimes, лидера во внедрении и разработке технологических решений для крупнейших мировых компаний.
Много лет я строю компании, инвестирую и получаю кайф от создания успешных продуктов и идей. Живу во Флориде и считаю это лучшим местом на планете.
На канале делюсь своим опытом: как преодолевать страх и начать новое дело, справляться с синдромом самозванца и превращать риск в возможности. Рассказываю, почему важно действовать, даже если успех кажется недостижимым.
О чем я пишу:
- Как перейти от идеи к первому шагу.
- Когда стоит (и не стоит) слушать клиентов.
- Как "getting things done" помогает завершать начатое.
- Применение ИИ для новых идей и бизнес-моделей.
- Принципы умного инвестирования и реальные вызовы предпринимательства.
Я верю, что успех — это не случайность, а цепочка смелых решений и трудных шагов. Как говорил Шеклтон, "Низкая оплата, постоянная опасность, но честь и признание в случае успеха."
Если хотите узнать, как технологии меняют бизнес, а идеи превращаются в результаты — добро пожаловать!
✈️ Подписывайтесь на "Мысли вслух": /channel/maxvotek
#инвестиции #предпринимательство #ИИ #текстприслан
Как бы я не относился к Маску как к человеку, маркетолог он гениальный – в тиктоке вирусится 3d-рендер с тесла-роботами, постепенно они становятся «модными», как айфоны в свое время
Читать полностью…Интересный график из мира LLM
Модели становятся сложнее с каждым месяцем, тренировка их занимает больше времени, поэтому количество публикуемых моделей становится меньше от квартала к кварталу
Источник
Уже несколько раз возвращаюсь к этому посту - что-то есть все же в предсказания на трансформерах:
/channel/denissexy/7460
Сделаю новый график сравнить с реальными данными на следующей неделе
Ваш сельский оракул,
Денис
Модель для разборки | vol. 1
За пару лет попыток генерации музыки, я наконец-то понял, что именно мне нравится в этом процессе — мне не интересно пытаться повторить уже существующие песни, или делать мемы и шутки, или пытаться просто сделать красивую песню
Мне интересно пытаться создать музыку которая могла бы возникнуть только в воспольнных слоях нейронки — чтобы она звучала не как человеческая, чтобы в ней были звуки потрескивания квантовых частиц в ядре земли, гул плазмы на поверхности солнца, бит из стука камней о замерзший фьорд, чтобы если электроника — то хуже завода по отливке дабстепа, ну вы поняли — все то, что мы представление не имеем как звучит, или звучало бы в песне, но интересно послушать
Поэтому, у нас новая еженедельная рубрика «Модель для разборки» — раз в неделю, я буду закидывать экспериментальные песни которые я сгенерировал, и мне кажется неплохо вышли
Некоторые треки – для самых смелых, поехали
P.S. Лицензия у всех треков CC0, можете где хочется использовать если что-то понравится
@denissexy
У меня похожая история:
У меня есть бот для связи, который называется Denis Sexy IT feedback и мне тоже иногда пишут туда какие-то запросы:
– Часто это просто попытка посмотреть порно, таким я скидываю цитаты про грехи и они отстают
– Какое-то время люди думали, что это бот для раздевания женщин нейронкой по фото, присылали кого-то в бикини и я пару раз фотошопил им офисную одежду и слал обратно, потому что могу
– Но мой любимый случай, это про чела, который на арабском скинул простыню текста с вопросами по починке трансмиссии, я честно сходил в чатгпт и помог человеку вернувшись с ответом
Короче, у владельцев ботов для связи в телеге своя атмосфера
Продолжаю делать полезные мелкие тулы для LLM
Люди иногда делятся информацией о том, с какой скоростью LLM генерирует ответ — в работе или просто между собой, и этот параметр «токен-в-секунду» довольно сложно представить в голове
Я сделал небольшой инструмент, где вы можете либо ввести число токенов в секунду, чтобы увидеть скорость отображения токенов, либо использовать ссылку с параметром, например: https://shir-man.com/tokens-per-second/?speed=4, чтобы сразу поделиться этим с кем-то для наглядности
Юзкейс для продакт менеджера:
Модели отличаются скоростями и эта штука примерно дает понять когда ответ уже достаточен чтобы считаться быстрым, и сразу поделиться с командой ссылкой на желаемую скорость
Hunyuan Video - новый опенсорс 13B видео генератор от Tencent
Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.
Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.
По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.
Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.
В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.
Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.
Статья занятная, стоит прочитать в деталях.
Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.
Демка (нужен китайский номер)
Веса
Пейпер
@ai_newz
⚡️ Коронавирус вероятнее всего был выращен в лаборатории
Подкомитет по короновирусной пандемии США выпустил отчет на 520 страниц, про:
1. Исследовательскую деятельность Уханьского института вирусологии (WIV):
Согласно данным, сотрудники WIV проводили исследования, связанные с усилением функций вирусов, включая генетические модификации коронавирусов. Отчёт ODNI от июня 2023 года указывает, что WIV сотрудничал с учёными, связанными с Народно-освободительной армией Китая, в области исследований, связанных с общественным здоровьем, а также в проектах по биобезопасности и биозащите.
2. Нарушения биобезопасности в WIV:
В отчёте ODNI от июня 2023 года отмечается, что некоторые исследователи WIV могли не соблюдать надлежащие меры биобезопасности до начала пандемии, что увеличивало риск случайного заражения.
3. Заболевания сотрудников WIV осенью 2019 года:
Госдепартамент США в январе 2021 года сообщил, что несколько исследователей WIV заболели осенью 2019 года симптомами, схожими с COVID-19 и обычными сезонными заболеваниями, до первых официально зарегистрированных случаев инфекции.
Самая вишенка отчета:
США косвенно финансировали исследования в Уханьском институте вирусологии (WIV) через гранты, предоставленные Национальным институтом аллергии и инфекционных заболеваний (NIAID), частью Национальных институтов здоровья (NIH), организации EcoHealth Alliance. Эти гранты поддерживали исследования коронавирусов у летучих мышей, включая сбор образцов и анализ их потенциала передачи человеку.
Однако, в 2021 году NIH признал, что некоторые из этих исследований включали эксперименты, которые могли быть классифицированы как “усиление функции” (gain-of-function), что вызвало споры и привело к усилению надзора за такими исследованиями. В мае 2024 года Министерство здравоохранения и социальных служб США (HHS) приостановило и затем прекратило федеральное финансирование EcoHealth Alliance, ссылаясь на недостаточный мониторинг исследований и несообщение о высокорисковых экспериментах.
Таким образом, США предоставляли финансирование, которое в конечном итоге поддерживало исследования в WIV, но эти действия сопровождались недостаточным надзором и привели к значительным спорам и расследованиям.
Тут отчет целиком на сайте белого дома – завтра будет еще много разборов:
https://oversight.house.gov/wp-content/uploads/2024/12/12.04.2024-SSCP-FINAL-REPORT.pdf
Еще про Китай, в этот раз про древний:
Ресечеры смогли найти доказательства того, что люди пользовались шелком в Китае еще около 1100 года до нашей эры, следы шелка нашли в древних жертвенных ямах – такие места, где оставляли ценные предметы в дар богам. Вот в этих ямах археологи нашли бронзовые и нефритовые "дары" с остатками шелка
Это настолько давно, что тогда Римская империя еще не существовала, не было христианства, а в Древней Греции был период позднего бронзового века – первый исторический период от которого ведется отсчет Древней Греции
Ради интереса почитал, как добывается шелк, и для того времени это неплохая сложность:
1. В те времена люди, вероятно, занимались собирательством и собирали коконы диких шелкопрядов, вместо того чтобы выращивать шелковичные деревья и разводить шелкопрядов самостоятельно – потому что если они еще и разводили их сами, то почему мы сейчас не на Луне живем
2. Коконы обрабатывали в горячей воде, чтобы размягчить природный клей, высушить и извлечь шелковые нити
3. Шелковые нити пряли и ткали вручную, создавая ткани для религиозных ритуалов и тп, если что, на это требовалось 5-10 различных инструментов, их аналогов того времени
Жаль, что внешний вид ткани которой 3000 лет пока не восстановить, было бы клево перевыпустить принты
Статья целиком
P.S. Известный всем «Шелковый путь» появился на ~1000 лет позже, в 130 год до н.э
Продолжая рубрику странных интерфейсов Европы: старая панель лифта которую я нашел в Швеции
После заката солнца в 15:30 это вторая вещь которая меня тут сильно впечатлила
Наткнулся на интересный ресеч рынка корпоративных LLM 2024:
— OpenAI потеряла за год 16% корпоративного рынка (не путаем с ChatGPT)
— Anthropic же приобрел на 12% долю рынка
— На втором слайде самые популярные юзкейсы LLM в корпоративном мире — на первом месте суммаризация
— У каждого крупного департамента в корпорациях появился бюджет на генеративный АИ и он растет
— Про архитектуры, третья картинка: RAG стал еще популярнее в корпо-мире, промпт инженеринг теперь мало кому интересен, как и файнтюнинг моделей под задачи, а вот агенты набирают обороты при выборе архитектуры
— Отдельно отмечено, что корпоративный мир выбирает генеративный АИ на основе качества генераций (в любом домене), так как для них часто это прямо влияет на скорость возврата инвестиций
Вставлю свои 5 копеек:
Мне тоже кажется 2025 год будет про агентов, так как наконец-то экономика генеративного АИ всем понятна
Файнтюны падают, потому что нет смысла — сейчас одна гигантская модель часто решает все задачи сразу (но кончено же есть исключения)
Промт инженеринг упал, потому что его уже пишут сами LLM и оно нормально работает
Агенты только-только начали свою бизнес-адаптацию и будут набирать обороты вплоть до AGI
Я хоть и в коротким отпуске, но спустя стуки докачал QwQ-32B-Preview – попросил ее написать стих на русском, стих вышел так себе с точки зрения рифмы, но для 32B модели очень хороший результат (его можно читать), особенно учитывая что это preview, а не финальная модель
Мне отдельно нравится примечание, так мило; пока выглядит как настоящая революция среди локальных моделей, даже техкранч про нее написал
P.S. Помогут мне 实现我的梦想 – помогут мне осуществить мои мечты
Китай наносить удар! дракон!
Вторая китайская команда, на этот раз Qwen-часть AliBaba, разродилась o1-подобной «размышляющей» моделью. Тоже превью (все видимо ждут полную о1, чтобы начать релизить?), тоже без технических деталей и статьи, зато сразу с доступными весами:
https://huggingface.co/Qwen/QwQ-32B-Preview
Тем, кому хочется сразу помучить модель вопросами, без возни с GPU, можно поиграться тут: https://huggingface.co/spaces/Qwen/QwQ-32B-preview (пока очередь маленькая)
Блогпост
К посту прикреплена картинка с метриками. Для 32B модели (да даже если бы было 405b) результаты очень-очень нетривиальные — Qwen-2.5 и до этого считался очень сильной моделью (с которой даже иногда избегали сравнение другие авторы моделей, ахахха, чтобы не выглядеть на их фоне вторично), а тут в два раза меньшая моделька такие скачки совершает
===
ждём пока развернут API, чтобы замерить в нашем бенчмарке 😎
Ну и я, как техно-поехавший, точно ничего плохого не вижу в гламуризации роботов, кто-то же должен создать спрос на эти роботы по $30k, чтобы потом они стоили ~$10k и ниже
Инстаграм-ссылка женщины с фото
СЛИВ SORA
или художника обидеть может каждый...
Я обычно скептически отношусь ко всем подобным заявлениям, вот, например, про strawberry. Но здесь ситуация еще более неоднозначная.
Что у нас есть:
1. Группа анонимных бетатестеров.
2. Hugging Face Space, куда захардкодили запрос на OpenAI Sora API endpoint.
Вот, зацените:
def generate_video(prompt, size, duration, generation_history, progress=gr.Progress()):
url = 'https://sora.openai.com/backend/video_gen?force_paragen=false'
headers = json.loads(os.environ["HEADERS"])
cookies = json.loads(os.environ["COOKIES"])
if size == "1080p":
width = 1920
height = 1080
elif size == "720p":
width = 1280
height = 720
elif size == "480p":
width = 854
height = 480
elif size == "360p":
width = 640
height = 360
payload = {
"type": "video_gen",
"prompt": prompt,
"n_variants": 1,
"n_frames": 30 * duration,
"height": height,
"width": width,
"style": "natural",
"inpaint_items": [],
"model": "turbo",
"operation": "simple_compose"
}
some sora-alpha-artists, Jake Elwes, Memo Akten, CROSSLUCID, Maribeth Rauh, Joel Simon, Jake Hartnell, Bea Ramos, Power Dada, aurèce vettier, acfp, Iannis Bardakos, 204 no-content | Cintia Aguiar Pinto & Dimitri De Jonghe, Emmanuelle Collet, XU Cheng, Operator, Katie Peyton Hofstadter
Интересный ресеч вышел, который проверяет, насколько эффективно, что языковые модели общаются между собой человеческим языком (например, в агентских системах где ответ из LLM попадает снова в LLM)
Ожидаемо оказалось, что роботам использовать наш язык – не эффективно. Вместо текста языковым моделям проще обмениваться набором «координат» — данных, которые описывают смысл фраз и слов, их называют эмбеддингами. Например, вместо фразы «Привет, ну как там с деньгами?» одна модель передаёт другой что-то вроде [0.82, -0.45, 1.22,…]. Это ускоряет процесс почти в три раза (!), причём без потерь в качестве
Подход позволяет моделям быстрее решать задачи и взаимодействовать друг с другом, например, в сложных сценариях вроде совместного написания кода или генерации текста
Тут технические детали, а тут статья в NewScientist
Короче, скоро не почитать будет без спец тулзов, что там модели друг другу пишут в процессе общения