Adobe не только в ИИ демонстрирует заметные достижения и новинки. вот, например, тема цифровой моды: поклонники метавселенной обсуждают цифровую одежку для своих аватаров и ее корреляцию с одеяниями физического мира. А Adobe тем временем показал на своей конференции в Лос-Анжелесе Project Primrose — платье, сшитое из элементов, меняющих свои оптические свойства с помощью электрического управления. Никаких светодиодов и прочих излучающих элементов, просто wearable, flexible, non-emissive textiles that allow an entire surface to display content. Выглядит покруче многих придумок со светодиодами и интерактивных цифровых моделей. И, как справедливо замечают создатели, не только в мире моды может пригодиться. Пока это просто эксперимент, но, похоже, у него есть перспективы получше, чем у многих экспериментирующих стартапов:)
В статье есть видео, которое доходчивей любых объяснений демонстрирует возможности:)
https://www.techspot.com/news/100494-adobe-latest-wearable-tech-promises-dynamic-clothing-can.html
Новый термин встретил: cognitive attack. Так, оказывается, называют цифровую атаку на шлемы дополненной реальности, используемые военными на поле боя. Специалисты DARPA считают, что такие атаки могут использовать “глубокую связь между шлемом и его носителем” и не просто забивать канал или посылать фальшивые данные — но и формировать в шлеме видеопоток, вызывающий физиологические реакции у его носителя; например, рвоту.
Фраза “The core technical hypothesis of the program is that formal methods can be extended with cognitive guarantees and models to protect mixed reality users from cognitive attacks” взята не из написанной нейросетью фантастики, а из вполне официального документа.
https://gizmodo.com/darpa-concern-mixed-reality-headset-cognitive-attacks-1850925546
Наверное, будет полезно привыкнуть к этой иконке, которую Adobe называет «иконка прозрачности» в смысле честно признания участия ИИ в создании изображения. Ее использование пока не обязательно, но в картинки, созданные с использованием генеративных алгоритмов, Adobe будет ее добавлять и в изображение, и в метаданные. Говорят, Microsoft поддерживает и присоединяется, глядишь, и вправду образуется добровольный стандарт маркировки.
https://www.theverge.com/2023/10/10/23911381/adobe-ai-generated-content-symbol-watermark
CR означает CRedentials, права на этот значок принадлежат коалиции C2PA https://contentcredentials.org
Очередная моя колонка в Форбсе — про то, как упрямо и в то же время гибко Цукерберг свои мечты о метавселенной проводит в жизнь. Смещает акценты с чисто виртуальный реальности к смешанной, делает ставку на девайс, сильно смахивающий на Vision Pro эпловский, но в разы дешевле.
И рассказывает, как более дешевые очки в коллабе с RayBan будут скоро уже не только для стриминга, но и чтоб удобно взаимодействовать с ИИ-ассистентом.
И у него получается — по крайней мене, на уровне убеждения слушателей: впервые за долгое время его речи воспринимаются достаточно позитивно и инвесторами, и журналистами. Так что еще услышим про метавселенную, по мере того, как будет накапливаться усталость от ИИ на каждом углу и в каждом утюге:)
https://www.forbes.ru/tekhnologii/497872-apdejt-metavselennoj-kak-mark-cukerberg-prodolzaet-idti-za-mectoj
Интервью с режиссером “Создателя” Гаретом Эдвардсом читать интересно уже потому, что ситуация очень уникальная: писать сценарий он начал в 2018, когда искусственный интеллект ему казался далекой фантазией, а на экраны фильм выходит осенью 2023, когда этот самый ИИ уже почти год не уходит из фокуса внимания почти всех: от разработчиков до политиков. Во время подготовки к премьере Голливуд колбасило от забастовок и сценаристов, и артистов. О большей актуальности вроде и мечтать нельзя, но вот насколько видение автора фильма совпадает с сиюминутными проблемами, которые неутомимо обсуждают все кому не лень? Это еще предстоит узнать, но подробно изложенную позицию автора прочитать интересно в любом случае.
Один момент из интервью реально цепляет, когда Эдвардс отвечает на вопрос, экспериментировал ли он сам с ChatGPT. Как опытный пользователь, он дал чату начало сценария и попросил предложить варианты развития сюжета. Один из четырех сгенерированных вариантов совпал с написанным сценарием. I don't know if that implies that ChatGPT is brilliant or that I'm a terrible writer. But it was unnerving.
Любопытный практический пример:)
https://www.stripes.com/living/entertainment/2023-10-03/bc-movie-creator-edwards-qa:la-11532938.html
ДОКЛАД — ЭТО НЕ ИНСТРУКЦИЯ
Одна из типовых причин провальных, скучных, неуместных технологических докладов — попытка дать инструкцию.
Но инструкции не работают.
Если бы они работали, не было бы проблем с делегированием.
Если вы верите в инструкции — раздайте их своим подчиненным и коллегам, после чего отправляйтесь спать. Что может пойти не так?
Если вы знаете, как решить какую-то задачу, то проще всего нанять вас это сделать, чем конспектировать вашу болтовню. Схантить или привлечь в качестве консультанта.
Есть задача обучения.
Но она тоже не сводится к инструкциям. Учат ооооочень доооооооолго. В инструкции не заложен фидбек, как в обучение. Нет контроля, правильно ли ты понял.
То есть, доклад на конференции — это не инструкция и не обучение. А что же это?
Повышение осведомленности + Развлечение аудитории
с целью получения неких выгод
Одна из выгод — получение трафика на свои паблики. Поэтому, лёгкая недосказанность должна присутствовать в сочетании со ссылкой, где лежит остальное.
Развлечение аудитории не должно сводиться к мемам на слайдах или выступлению вдвоём. Аудитория развлекается умной конструкцией мысли, хитрыми поворотами и неожиданными открытиями. И добротным юмором, конечно.
… И вашей харизмой, поставленной речью, классным реквизитом (слайдами)
Развлечение аудитории важная часть задачи выступления. Ее не стоит игнорировать при постановке задачи. И это довольно интересная часть всего процесса. Реализуя данную задачу вы превращаете информацию в искусство.
Повышение осведомленности — задача очень лёгкая. Но только если ты определился какой стороной повернуть айсберг к небу.
Удачи на выступлениях этой осенью!
Кирилл
Хотя Денис в своем канале уже сегодня ссылался на эту работу, позволю себе ссылку повторить, только с более длинной подводкой. Группа исследователей из Microsoft предприняли довольно детальное, хоть и не претендующее на полноту качественное исследование новых возможностей GPT-4V, версии с мультимодальным вводом. Их интересовало, насколько хорошо модель может воспринимать картинки, делать обобщения, связанные с изображениями, реагировать на уточнения в графическом виде (например, дорисованные от руки поверх изображения указатели). Результаты занимают полторы сотни страниц с примерами и объяснениями. Согласен с Денисом: «Можно залипнуть вечерком на пару часиков»; я, собственно, и залип :) . Но очень советую тем, кто уже использует по работе или по жизни языковые модели, не просто залипнуть, а довольно подробно прочитать и самому потренироваться, если возможность есть.
Как правильно отмечают авторы, возможности языковых моделей очень сильно расширяются за счет графического ввода, а пресловутый промптинг может теперь включать графические составляющие, это тоже меняет мир. The findings reveal its remarkable capabilities, some of which have not been investigated or demonstrated in existing approaches. Что не менее важно, авторы показывают и слабые места, где модель ошибается и предлагают варианты как ошибки уменьшить. Так что советую парой часиков не ограничиваться.
Кстати, по-новому звучат недавно озвученные идеи Цукерберга — его очки с камерами должны дать виртуальному ассистенту картинку окружающего мира: убедитесь, насколько много уже сейчас может извлечь модель из такой картинки:) И это лишь начало, конечно, у статьи правильное название The Dawn of LMMs — это действительно лишь заря:)
https://arxiv.org/pdf/2309.17421.pdf
(а вот исходно вдохновивший меня пост - /channel/denissexy/7326 )
Довольно толковая заметка про то, где в бизнесе помогают генеративные алгоритмы и как это привело к повышенному спросу на соответствующие продукты (Salesforce именно так объясняет увеличившиеся доходы, например). Но мне больше всего понравилась фраза из подводки:
We used to think, "That email isn’t going to write itself." But now it can, thanks to AI. And there's so much more, from coding to marketing.
Вот правда, теперь поаккуратнее надо быть со словами “сам себя не напишет”. Многое теперь может само себя написать , и страдать не придется, и уговаривать себя очередной процедурной хренью заняться.
https://bigthink.com/business/5-key-areas-where-generative-ai-can-help-dissolve-business-roadblocks/
Гуглу сегодня 25 — в красивую деньрожденную дату просто хочется поздравить всех причастных, без оценок, оговорок и сложных рассуждений. Очень интересная была четверть века для всех нас — а в посте по ссылке 25 любопытных цифр в тему: https://blog.google/inside-google/company-announcements/google-fun-facts-25th-birthday/
Читать полностью…Очень по делу текст Саши Крайнова о промпт-инжиниринге, про который уже странные мифы успел образоваться;)
«То есть в целом мы, люди, довольно давно занимаемся промпт-инжинирингом, просто раньше мы его так не называли. И раньше мы промпт-инжинирили естественный интеллект, а теперь — искусственный.»
https://techno.yandex.ru/prompts-interview
Китайцы что-то невероятное делают.
В Китае очень популярны стримы с продажами ("магазин на диване" в соцсетях), поэтому сразу нескольким компаниям пришло в голову разработать ИИ-замену реальным ведущим.
Я, конечно, не говорю по китайски, но это выглядит чертовски правдоподобно.
Особенно те видео, в которых ведущие взаимодействуют с товаром.
Обычно аватары сильно ограничены в мимике и позах, и руки держат сложенными на пузе, а тут такое разнообразие.
Не все из них, правда, так умеют.
Компания Xiaoice делает базовых стримеров за тыщу долларов, которые как раз более стандартизированы - ими пользуются небогатые бренды, обычно для замены живых людей в ночные часы (торговля на стримах идёт 24/7, удивительно популярный канал продаж в Азии).
А те, что подороже, могут не только показывать товар, но и реагировать на ключевые слова в чате.
Ведутся ли зрители?
О, ещё как.
Предсказуемо, спрос на кожаных в этой сфере начал падать.
Звёзд пока не заменить, но середнячков - вполне.
Один ИИ-аватар уже способен выкинуть на улицу 5-6 посредственных стримеров, как пишет MIT.
Сатья Наделла из Майкрософт затеял странную, если присмотреться, игру в метафоры:) Припомнив знаменитое сравнение Стива Джобса «компьютер — это велосипед для ума», он отметил, что сейчас компьютеры благодаря ИИ стали уже не столько велосипедами, сколько паровыми двигателями. И что трансформативная мощь двигателя в том, что он не просто усилитель человеческих возможностей, он располагает своей несравнимо большей мощностью. Just as the steam engine revolutionized transportation and industry during the Industrial Revolution, generative A.I. has the capacity to revolutionize how we work, communicate, and live in the digital age.
Это всё, наверное, правильно. Но поскольку история двигателей нам известна, интересно было бы понять, что в представлении Наделлы соответствует двигателю внутреннего сгорания и электромоторам :)
https://www.inc.com/nick-hobson/microsofts-satya-nadella-challenges-a-key-concept-from-steve-jobs.html
Эту штуку я пропустил, про нее в новостях не пишут. Ребята из запрещенной Meta разработали метод оцифровки (распознавания) текстов, содержащих большое количество сложных формул. При этом, в отличие от иных, не ML-based, систем, количество ошибок очень мало, так что ручная корректура почти не требуется.
Это само по себе приятно — возможность оцифровать массу учебников и научных журналов, выпущенных еще во времена, когда не было цифровых изданий. Но в современном контексте интересней возможность использовать огромный массив ранее отсутствующей в цифровом виде информации для обучения специализированных моделей, помощников в научной работе.
https://facebookresearch.github.io/nougat/
OpenAI выкатили следующую версию своего генератора картинок, DALL·E 3. Помимо того, что качество явно лучше чем у предыдущей версии, становится ясно, как будет развиваться мультимодальность в следующих (да и в текущей) версиях ChatGPT: DALL·E 3 is built natively on ChatGPT, which lets you use ChatGPT as a brainstorming partner and refiner of your prompts.
Замечу, что brainstorming partner — это уже чуть побольше, чем copilot 😉 Так что создание достаточно сложных и сюжетных изображений уже через месяц станет интересным творческим занятием для пользователей ChatGPT Plus. Интересно будет посмотреть, будут ли результаты сравнимы или лучше, чем получаемые с помощью сложных и изощренных промптов Midjourney, которые уже местами совсем не напоминают запрос на естественном языке:)
https://openai.com/dall-e-3
К приближающемуся Хэллоуину👻 разработчики представили новую модель искусственного интеллекта Mistral Trismegistus-7B, углубленно занимающуюся оккультными науками🌚. Этот ИИ, который можно охарактеризовать как цифрового мистика, предлагает пользователям возможность заглянуть в мир эзотерики и гаданий, помогая читать ладони и даже создавать персональные гороскопы. Наименование Mistral Trismegistus-7B было вдохновлено фигурой Гермеса Трисмегиста, мифического персонажа, объединяющего черты греческого бога Гермеса и египетского бога Тота.
Примечательной особенностью этой модели является ее легковесность, так как она была обучена на 7 миллиардах параметров, что обеспечивает простоту запуска на локальном устройстве и сохраняет конфиденциальность пользовательских духовных сессий🔮
Статья
Моделька
Вот и до нас докатилось, теперь не только на американский опыт можно ссылаться:) Цифры и подробности -- в статье:)
https://rg.ru/2023/10/12/nejroset-iandeksa-smogla-sdat-ege-dlia-postupleniia-v-vuz.html
Пишущие люди настолько упоролись по генеративным моделям, что почти забросили прочие применения машинного обучения (для них - ИИ), а там интересного не меньше, чем в чат-ботах.
Вот давняя урбанистическая тема — управление городским трафиком на основе не жестких алгоритмов, а именно ML. Гугл этим занимается давно, и вот свеженькое про предварительные эксперименты в десятке городов по миру, от Сиэтла до Джакарты. Оптимизируется экологические метрики, как нынче модно, а не чисто транспортные: минимальное время простоя на светофоре (вынуждающее двигатели работать на холостом ходу), минимальные ускорения и торможения на светофорах. Все это — часть амбициозного плана помочь сократить выбросы СО2 транспортом на 1 гигатонну к 2030. Начинался эксперимент на нескольких перекрестках в Хайфе, где удалось показать экономию топлива на 10%, теперь на большем масштабе удалось показать экономию до 30% при управлении группами светофоров в одном районе. Система, как утверждается, совместима с имеющимися системами управления движением.
https://www.engadget.com/google-ai-stoplight-program-project-green-light-sustainability-traffic-110015328.html
(А вот страница собственно гуглового проекта - https://sites.research.google/greenlight/ )
Поскольку влияние появившегося массового генеративного ИИ часто сравнивают с влиянием появления мобильных устройств на цифровые сервисы, стал популярным вытекающий из такого сравнения вопрос: а что тогда станет аналогом айфона в мире ИИ? И хотя ИИ скорее софт чем железка, многие хотят дать ответ именно в виде железки: что станет новым материальным воплощением потребительского ИИ взамен смартфонов? Всем же хочется создать массовый девайс будущего; славу и деньги на нем заработать 🙂
И появляются всякие забавные новинки: от кулона на шее, который записывает абсолютно все подряд вокруг происходящее (акустическая часть нагрудной камеры полицейского, только для масс-маркета) до футуристической броши (или это значок?), которая не только звуки и картинки пишет и анализирует, но и с помощью проектора на внешних поверхностях (например, прямо на ладони) графические ответы дает.
И, конечно, производители очком и шлемов оживились, не только Apple Vision, Okulus и прочие RayBan, но и удовлетворившая, наконец, военных Microsoft напичканы ИИ.
Но, кажется, настоящий прорывный гаджет пока не появился. И все с интересом гадают, что там Сэм Альтман с Джонни Айвом замышляют 🙂
Подкаст “Трёп Себранта”; выпуск 76 (S6E4)
От LMM и LBM до книги “Конец индивидуума”
О быстрой эволюции языковых моделей в мультимодальные и поведенческие, об интересных недавних анонсах и — неожиданно для меня самого — довольно много про книгу Гаспара Кёнига “Конец индивидуума”, которая недавно вышла в русском переводе и представляет довольно интересную картинку взглядов очень разных людей на развитие ИИ в пересказе и с комментариями французского философа.
На сайте подкаста:
https://sebrant.chat/-llm-lmm-lbm
На Apple Podcasts:
https://podcasts.apple.com/ru/podcast/sebrant-chatting-%D1%82%D1%80%D1%91%D0%BF-%D1%81%D0%B5%D0%B1%D1%80%D0%B0%D0%BD%D1%82%D0%B0/id1320623324?i=1000630326409
На Google Podcasts:
https://podcasts.google.com/feed/aHR0cHM6Ly9hc2VicmFudC5saWJzeW4uY29tL3Jzcw
На Яндекс Музыке:
https://music.yandex.ru/album/6407298
Биотехнологии позволяют реализовывать сценарии, которые еще несколько лет назад казались куда фантастичней ИИ и его применений. Жаль, внимания на такие работы обращают мало. Вот, например, команда из Стенфорда готовится производить 3D-печатные сердца для экспериментов по их пересадке (пока — свиньям, но конечная цель, конечно, человек). 3D-биопринтер — лишь часть сложной технологической цепочки, в которой целая ферма биореакторов выращивает из стволовых клеток различные ткани, из которых состоит сердце. В рамках текущего эксперимента объемы производства клеток позволят печатать новое сердце каждые две недели — и это само по себе огромное достижение. В случае успеха производство 3D-печатных сердец сможет решить проблему дефицита донорских органов, из-за которой многие больные не доживают до операции по пересадке. И вообще транспланталогия изменится принципиально…
https://news.stanford.edu/2023/09/28/moonshot-effort-aims-bioprint-human-heart-implant-pig/
Не могу не поделиться очень актуальным соображением из любимого канала не менее любимого автора:) Обычно у него там крутые картинки, но и крутые тексты встречаются -- этот как раз к горячему осеннему конференционному сезону
Читать полностью…Как только появляется очередная технологическая новинка, возникает масса предположений о ее воздействии на людей по отдельности и общество в целом. В случае с ИИ недостатка в в самых экзотических и панических гипотезах нет, а вот вокруг технологий смешанной реальности оригинальных причин для тревог я давно не видел. Пока не прочитал эту статью, где рассматривается неожиданное на первый взгляд преимущество, которое получают люди, которые в процессе общения носят очки дополненной реальности.
В таких очках можно реализовать привычную по соцсеточкам функцию фильтров, накладываемых на реальное изображение; в данном случае — на лицо собеседника (без его ведома).
Вот, предположим, фильтр добавит вашему собеседнику видимые только вам кошачьи ушки и усы — что изменится?
И дотошные социологи поставили такой эксперимент. Оказалось, эффект присутствует: добавление шуточных фильтров снижает тревогу при общении с незнакомцами, и вообще действует расслабляющее. Но все не так просто — те, кто без очков, начинают как раз дополнительно тревожиться, не зная, в каком обличии их сейчас наблюдает собеседник (а вдруг вообще голыми??).
В итоге, утверждают исследователи, люди без очков оказываются в уязвимом положении, и технология опять дает преимущества пользователям перед непользователями, усиливая неравенство.
Кажется, после недавнего анонса Цукербергу и от этого придется отбиваться:)
https://spectrum.ieee.org/ar-glasses
Как известно, благодаря SpaceX у богатеньких любителей космоса сильно расширились возможности. Конечно, и государственные космические агентства немного баловались с запусками космических туристов, но это не сравнить с полетами на капсуле Crew Dragon. А теперь космическим туристам предлагают еще две опции: их собираются не просто покатать по орбите или на МКС, но и дать выйти в открытый космос. А вишенка на этом торте — SpaceX планирует обеспечить совершающую орбитальный полет капсулу нормальным интернетом — используя спутники из группировки Starlink. Связь между спутниками группировки поддерживается установленными на них лазерами, эту же технологию предложено использовать для создания постоянного канала с Crew Dragon. Как минимум, это красиво — орбитальная туристическая капсула с высокоскоростным лазерным интернетом на борту:)
Умеет SpaceX себя пиарить!
https://wccftech.com/spacexs-laser-starlink-sats-will-be-used-by-astronauts-flying-in-space/
В среду ожидается большое выступление Цукерберга на Meta Connect; как нынче принято, в сети уже заранее обсуждают, что он там скажет :) Мнения, понятно, сильно разные: Цукерберг, мягко говоря, не является всеобщим любимцем. Но даже меня удивил тон не какого-то диванного эксперта, а комментария BBC, где ему припоминают его ставку на метавселенную и ожидают, что ему снова придется explain his reasoning for taking an extremely profitable social media company and diverting its focus to an extremely unprofitable VR venture.
Главная претензия — VR как была, так и остается маргинальной. В мире есть десятки миллионов людей, которые ей увлечены и в нее верят, но в 2023 все знают, как выглядит новый продукт, который покоряет сотни миллионов людей — и это совсем не метавселенная. Поэтому Цукерьбергу придется как-то убедить уже начинающих злиться акционеров и скептичную прессу — посмотрим, чем.
https://www.bbc.com/news/technology-66913551
В продолжение предыдущего репоста из “Метаверсошной”: не только в Китае. В Южной Корее синтетические инфлюенсеры, они же AI hunans (дипфейковое личико + несколько актеров с одинаковыми фигурами) не просто стали популярны, но и помогают заказчикам (в основном, крупным корпорациям) зарабатывать большие деньги на куче офлайновых продаж всего, начиная от еды и кончая брендовыми аксессуарами. Прогнозы радужные: the global market for such life-like creations could reach $527 billion by 2030. Впрочем, радужность не для всех, конечно, поскольку Virtual humans are basically capable of carrying out much of what real people do — в смысле, что люди делают в кадре, чтобы продать товар. Интересен набор ролей: virtual idols, virtual influencers, and virtual sales agents — все они востребованы на корейском рынке. Интересно, приживется ли на других.
https://www.barrons.com/news/from-k-pop-to-sales-girls-ai-goes-mainstream-in-south-korea-c17b0710
Посмотрел первые две серии “Кибердеревни” на Кинопоиске. Оно реально очень неплохо сделано! Интересно, хватит ли сценаристов на неожиданные повороты, но по крайней мере стилистика и картинка позволяют рекомендовать к просмотру на выходных:)
Читать полностью…Пользователи Microsoft дождались обещанного еще в начале года, когда компания рассказывала про планов громадьё в области интеграции ИИ в Windows. Copilot начнет появляться в течение осени, со следующим апдейтом, It will be a simple and seamless experience, available in Windows 11, Microsoft 365, and in our web browser with Edge and Bing.
Нормальный и удивительно быстрый для майкрософтовского масштаба результат, случившийся меньше чем за год после появления того самого ChatGPT, который весь год обсуждают. И теперь уже можно говорить о реальном массовом внедрении новых продуктов на основе генеративных языковых и не только моделей. Следующий год вряд ли будет медленнее:))
https://blogs.microsoft.com/blog/2023/09/21/announcing-microsoft-copilot-your-everyday-ai-companion/
Вот и Амазон подтянулся со своим апгрейдом Алексы с помощью собственной языковой модели. Теперь Алексе можно сказать “Alexa, let’s chat” и колонка перейдет в режим чат-бота. Утверждается, что Алекса умеет менять тональность и эмоциональность голоса в зависимости от контекста разговора.
Амазон называет свою модель speech-to-speech и утверждает, что она работает без традиционных преобразований речи в текст, потом работы LLM, а потом обратного преобразования теста в речь: this new model will unify these tasks, creating a much richer conversational experience.
Приятно, что Алекса получила сильное обновление, а то про нее было много пессимистических прогнозов.
https://www.engadget.com/everything-amazon-announced-at-its-2023-devices-and-services-event-194621706.html
Neuralink наконец-то начал набор парализованных добровольцев для тестов своего нейроинтерфейса на людях. Задача — дать возможность полностью обездвиженным больным управлять движением курсора и таким образом коммуницировать с внешним миром. Сколько добровольцев разрешено набрать, не сообщается.
Вспоминается, что когда-то Маск заявлял о готовности вживить интерфейс себе, когда будет разрешено вживлять его людям. Интересно, как теперь дело повернется:)
https://www.reuters.com/technology/musks-neuralink-start-human-trials-brain-implant-2023-09-19/