Пишу про будущее: AI, web3, технологии и общество. Ускоряемся. Автор: @sgershuni Инвестирую: cyber.fund Построил: Credentia, Deep Skills, Codex Town
Напоминаю про наш пятничный вебинар про голос и уши у ИИ. Вот список тем, которых мы коснемся:
1. Как работает voice to text
2. Сценарии использования voice to text
3. voice-to-text модели по API
4. Open Source voice-to-text модели
5. Инференс моделей
6. Оценка качества моделей
7. Фреймворк для оценки качества
8. Практический пример использования voice to text для анализа аудио
9. Разделение на спикеров (Diarization)
10. Модели для разделения спикеров
11. Text To Voice модели
12. Примеры использования Text To Voice моделей
13. Text To Voice по API
14. Text To Voice Open Source (включая примеры кода)
15. Бот с voice to text + LLM + text to voice
Вебинар полезен для тех, кто хочет разобраться в том как работают речевые модели ИИ, как использовать их в бизнесе или при создании своих продуктов.
Регистрация: https://lu.ma/codextown (может требоваться VPN)
Для оплаты картами СНГ вам достаточно подписаться на Boosty: https://boosty.to/codextown При регистрации вы гарантированно получите запись мероприятия и все материалы, даже если не сможете присутствовать.
Астрологи объявили неделю крипто-экспертов, поэтому повторим основы. Это поможет вам сэкономить деньги и избежать эйпинга.
1. Биткоин - первая криптовалюта. Это деньги, а не то что вам там чудики расскажут. 90% уже в обращении, новых не будет, многие из обращаемых уже навсегда потеряны. Поскольку бренд знают все, а ликвидных монет мало и больше не будет, цена растет быстро. Каждому не хватит, а у Дрейпера уже 40к.
2. Эфир - децентрализованный компьютер. Дефляционен, количество монет в обращении сокращается каждый день и будет сокращаться быстрее с ростом стоимости транзакций. Все "перспективные" монеты (GNO, OP, ARB) построены поверх эфира. А еще Эфир — это бонд, его можно без кредитного риска застейкать под 4.8% годовых в эфире. Не сильно конкурент биткоину, хоть и может все то же самое и еще немного больше.
3. Альткоины. Хотят быть эфиром, но пока не очень получается. Сильно более централизованные, но некоторые имеют прикольные фичи: например, Соляну люто шилят в твиттере, ТОН люто шиллят в телеге, а ATOM люто шиллят аноны.
4. Щиткоины. Все остальное, что не имеет никакой фундаментальной экономической ценности, но живет (и растет) исключительно засчет веры неведующей толпы и остервенелого хомяка: LINK (проект веселый, но токен там не нужен, Ripple (тоже), Stella (кому это надо?) и, боже упаси, Cardano.
5. Мемкоины. Монеты, которые созданы ради развода хомяка и прямо про это сообщают. Могут вырасти х100 за неделю с приличной ликвидностью. А могут так же, но упасть.
И ещё:
Децентрализация = это всего-навсегда часть политического спектра, мера того сколько людей имеет контроль над системой.
Криптография = это технология обеспечения приватности данных, а не наука о том как лично вы должны заработать на ламбо.
Web3 = это программируемые рынки и incentives.
DAO = метод координации людей и капитала, и им не всегда нужен токен.
Деньги = способ учета, сохранения и передачи ценности
Если вы вдруг хотите разобраться в главных трендах этого булмаркета, то посмотрите наш с Васей подкаст (там 3 части) про LST (ликвидный стейканный эфир), ve-токеномику (рынок взяток) и автоматизацию смарт-контрактов. Если вы прям шарите, то забейте на трейдерастинг и копайте в zk / FHE, там будущее. Подкасту год, но все тренды на 100% сбываются пока что.
Ничего нового не сказал, но постарался причнить максимум пользы, а то мало ли.
Что ждать от ИИ в 2024?
Уже декабрь, а значит время подведения итогов и выливания ведер прогнозов. Начнём с последнего. Сегодня говорим только об использовании ИИ в бизнесе, не про технологический прогресс и инновации.
Повсеместное использование ассистентов и агентов. Я вижу куда меньше критики к внедрению ИИ по сравнению с интернетом («кому это нужно когда есть факс») или телефонами («зачем платить за мобильник с экраном, когда дома компьютер»), а значит скорость адопшена будет быстрее. ИИ-ассистенты будут на каждом звонке (в пятницу на вебинаре расскажем как именно и почем), в каждом письме, пул реквесте.
Де-иификация. Фраза «этот пост написал человек» будет показателем качества и персонального подхода.
Дефрагментация. Сегодня стоимость запуска ИИ-стартапа по анализу звонков колл-центра или генерации SEO текстов это примерно $10 и двухчасовой курс по питону. И такие продукты успевают за первый месяц заработать $50-100к+ выручки. Поскольку у компании которая просто берет API и добавляет туда промт нет никаких конкурентных преимуществ, эти функции будут встроены в реальные рабочие процессы: от мессенджеров до 1С-Бухгалтерии.
Fine-tuning is the new prompting. Массовое распространие и монетизация файнтьюн моделей, включая персонализированные бизнес-модели по типу «файнтьюн GPT для product management процесса конкретно в Miro»
Локальные и OSS модели как минимум уровня GPT-4. Тут все очевидно: бесплатные и локализованные модели достигнут и превзойдут GPT-4 бенчмарки, но SOTA уйдет куда дальше.
Массовый суицид бизнесов с моделью «завалим оравой джунов». Консалтеры, разработчики, юрфирмы, агентства очень часто любят модель когда сделку закрывает умный и красиво одетый партнер, а саму работу делает толпа слабо- (если вообще) оплачиваемых стажеров. Стажеры никуда не денутся, но только теперь вместо 5 стажеров достаточно будет одного с подборкой кастомных ИИ-инструментов для (проверки договоров|анализа отчетности|рисования баннеров|исследования рынка). Важно! Стажер + GPT не справится, тут нужен будет кастомный софт. Поэтому любое агентство вынуждено будет стать ИТ-компанией.
Я тут за выходные перезаписал свою вводную лекцию про ИИ, на этот раз на английском. Тут рассказываю про то что такое ИИ, генеративный ИИ, как его использовать в личной жизни и в бизнесе. Максимальная практика: много примеров инструментов, промтов, разных бесплатных альтернатив GPT.
Идеально для новичков.
https://youtu.be/u05Q1fsl1II?si=RjMrHp_4mXKXlXmWг
Если вы испытываете стресс относительно ускоряющегося и неостановимого развития ИИ и скорого приближения AGI, то вот милое видео, которое вас успокоит. Что может сделать бездушная машина человеку?
Ой, погодите…
Делать ставку на технологию — это значит всегда и везде быть последним. Если про конкретную технологию (BTC, LLM) говорят из телевизора и пишут на Техкранче — значит, вы уже опоздали. Инвестировать, изучать, строить бизнесы надо было чуть-чуть заранее. Потому что, разобравшись в ней, вы попадете в самое мясо отстающего большинства. Успешный бизнес начинается с инсайта — продуктового (понимание боли пользователя) или технического (ноу-хау, изобретение) — а не с легкости поднять денег.
Делать ставку на Технологию — это значит никогда не опоздать. Потому что Технология, то есть прогресс, за всю историю человечества были единственным реальным фактором любых изменений в цивилизации. Политика, границы империй, образ жизни и структура экономики в целом меняется в первую очередь из-за технологических изменений.
Взвешенный подход к e/acc
— прогресс это хорошо
— но централизация прогресса имеет последствия
— EA и e/acc одинаково вредны своей тягой к диктатуре
— мы можем создать децентрализованный, defense-first и «разумный» прогресс
Как? Виталик аки боженька молвил: https://x.com/vitalikbuterin/status/1729251834404249696
О приватном и децентрализованном ИИ (бизнес-кейсы использования)
Цель ИИ — принести нам избыток, пост-дефицит, в тысячи раз увеличив объём интеллекта на планете. Крипта же, наоборот, про строгость ограничения, про защиту данных, денег и гарантию приватности.
Последние полгода я периодически пишу о соединении технологий искусственного интеллекта и крипты (криптографии). Сегодня говорим о применимости ZKML (zero-knowledge machine learning), то есть технологии запуска ИИ моделей с гарантией неразглашения информации.
Глобально у нас есть три способа использования ML/AI в приватной форме для решения различных задач.
1) Вы продаёте доступ к модели, сохраняя её приватной
— маркетплейс моделей (я сделал GPT для грибников, продам один вызов за $0.001) и маркетплейс файн-тьюнингов и Лор (я натьюнил модель генерировать красивое видео или писать стихи в стиле Пушкина, продаю каждый вызов). В обоих случаях веса модели остаются приватными, но покупатель получает криптографическую гарантию что это именно та модель.
— маркетплейс данных для тренировки (я даю вам возможность использовать свои данные для тренировки модели, но вы ни в один момент времени не видите данные)
— доказательство аутентичности генерации (я могу доказать (всегда в этом посте слово “доказать” значит сгенерировать математический zk proof) что эта картинка или текст созданы именно моей моделью именно сейчас)
2) Публичные модели с публичными данными aka trustless AI
Это доказуемые ML алгоритмы в публичных сервисах. Например:
— использование нейронок для торговых стратегий ончейн без разглашения стратегии, но с возможностью доказать любые параметры этой стратегии (в тусовке такое называют zkAMM)
— использование нейронок для генерации рекомендаций (например, в децентрализованных социальных сетях) с возможностью аудировать, но не манипулировать алгоритмом
3) Приватность данных
Отправляя в публичные модели zk пруфы вместо сырых данных, вы получаете:
— Гарантию аутентификации без разглашения. Например, Worldcoin орбы Альтмана работают именно так: ваши биометрически данные исполняются в нейронке, но ни она, ни владельцы сервиса не видят сырые данные
— Обработка приватных данных в облаке. Вы можете загрузить zk proof от текста / отчета / договора в облако, его обработает нейронка, но сам этот текст никогда физически не покинет пределы вашего компьютера
Как получить от Суно законченную песню с нужной вам структурой:
1. Старайтесь соблюдать размер в стихах. Если ваш текст сложно петь, получится речитатив независимо от жанра. Если вы сделаете в припеве и куплете разные размеры, то Суно будет проще придумать между ними переходы. Между соседними куплетами вставляйте пустую строку, получится пауза.
2. Ударения в словах можно выделять большой буквой, вот так: "ПоросЯтам". Когда это не работает, измените само слово: вместо "прямЫ" напишите "примЫ". Иногда помогает разбить слово на две части, вместо "элЕктрогенератор" написать "элЕктро генерАтор".
3. В круглых скобках можно добавлять бэк-вокал. Неплохо работают звуки типа (О-о-о, у-у-у-у).
4. Размечайте песню тегами. Точно работают: [Verse], [Chorus], [Bridge], [Solo]. К Соло иногда можно добавлять конкретику, например [Piano solo], но это может изменить инструменты всей песни. [Coda] помогает сделать концовку. С переменным успехом у меня работали [Calm] и [Aggressive]. Надо экспериментировать с другими тегами в квадратных скобках.
5. Иногда можно кастомизировать жанр, добавляя слова типа Energetic, Rhythmic, Aggressive, Slow, Fast. Обязательно пишите With Female/Male vocals, чтобы избежать инструментала и указать пол певца (тоже не всегда срабатывает). Разработчики не рекомендуют смешивать разные жанры, но, например, Chiptune Punk мне очень зашёл.
6. Максимальный размер одной генерации 1:20. Когда вам понравился кусок, выбирайте меню с тремя точками и пункт "Continue fom this clip". В тексте оставьте только те строки, которые не влезли в прошлый фрагмент, и нажимайте Generate. Так можно делать несколько раз, например у вас может быть три-четыре таких последовательных фрагмента. В самом конце в меню выбирайте пункт "Get Whole Song" и песня склеится из всех фрагментов.
К сожалению нельзя перегенерировать только кусок песни, поменяв что-то локально в тексте. Поэтому приходится прощать мелкие ошибки или править результат в вашем DAW.
Песни пишутся здесь в пункте Create (Custom):
https://app.suno.ai/
#suno
Андрей Карпаты (один из ключевых людей в OpenAI) недавно записал часовую лекцию про то, как работают LLM (большие языковые модели типа GPT-4), какие у них ограничения и какие перспективы.
В этом видео настолько хорошо все объясняется, что если раньше ChatGPT казался мне магией, то теперь мне кажется, что я примерно понял, как он работает и какие у него ограничения. За три дня видео посмотрели уже 500 тысяч раз, поэтому я решил упороться и сделать его выжимку на русском языке на VC.
Потратил несколько часов, поэтому большая просьба: поставьте, пожалуйста, сердечко на VC, чтобы статью увидело больше людей!
https://vc.ru/chatgpt/931112-vvedenie-v-llm-dlya-teh-kto-vse-propustil-vyzhimka-video-andreya-karpaty-so-osnovatelya-openai
PS. Также можете писать здесь в комменты, если найдете какие-то опечатки или косяки
Будущее ритейла и маркетинга с ИИ
Очень интересный скриншот(от классного автора) про будущее ритейла.
Дано: теперь у каждого человека на планете есть личный ассистент, который, например, во время распродажи может по скриншоту или фотографии из магазина оценить качество бренда и то насколько скидка на ценнике является истинной по сравнению с оригинальной ценой. Это не требует никакой когнитивной нагрузки на покупателя, но приводит к выравниванию рынка: теперь много маркетинговых ходов (типа завысить цену и поставить огромную скидку) работать не будут.
С другой стороны, открывается новый класс продуктов в маркетинге под названием AIO (Artificial Intelligence Optimization), где используя трюки, промт инжекшен (третий скриншот) специалисты могут умышленно повышать качество ответа ассистентов для своих владельцев-покупателей.
Это я уже не говорю про то, что SEO как индустрия фактически переросла в индустрию по генерации текстов на лету, как для людей, так и для краулеров.
Если бы Кен Уилбер был GP венчурного фонда...
Note that there's no clear borders. Правая половина (почти) всегда строится на левой.
1. Most of robotics will have AI component to make decisions, actions. etc.
2. Most network state will use web3 infra for money, voting, etc.
Так вот, к чему была эта прелюдия. В Reuters пишут, что якобы катализатором увольнения Альтмана стало письмо сотрудников OpenAI совету директоров. В нём говорится о прорыве в исследовании ИИ, которое, «может угрожать человечеству».
Правда, Reuters не смогло ознакомиться с копией письма. А автор(ы) не ответили на запросы о комментариях. Так что особо почвы у теории под ногами нет.
Масла в огонь подливает тот факт, что за сутки до увольнения Sam Altman на оффлайн-саммите сказал следующее:
— Четыре раза за всю историю OpenAI, и последний раз был вот несколько недель назад, я присутствовал в комнате, когда мы как бы отодвигаем завесу невежества и подталкиваем границу открытий вперед. Сделать это — профессиональная честь на всю жизнь.
Что он там такого увидел?
Согласно новости, модель (система?) Q* смогла решить некоторые математические задачи, сообщил источник на условиях анонимности. Это само по себе выглядит странно — ведь даже в примере выше пример куда сложнее, это конец средней школы. И как будто никакого прорыва и нет. Возможно, журналисты всё перепутали — ну или история выдумка.
Теперь о том, как на это смотреть и чего ждать:
1) OpenAI точно занимается разработкой модели, которая будет осуществлять научные исследования. Они про это пишут открыто.
2) Для того, чтобы это произошло, нужно, чтобы модель-учёный умела решать сложные задачи и планировать исследования. Часть этой работы уже сделана — см. статью из поста выше.
3) Вся концепция заключается в том, что модель будет генерировать тысячи неправильных кусочков решений, иногда выдавая верные — главное, чтобы их можно было отранжировать в списке гипотез выше, чем мусорные (вспоминайте модель-оценщика из поста выше).
4) Для этого нужно огромное количество мощностей. Поэтому деньги тут решают. OpenAI пока привлекли больше всех инвестиций, и моё видение такое, что через 2 года это станет большим препятствием для входа. Останется 5-10 игроков, кто готов столько денег сжигать.
5) Вопрос в том, насколько большим будет следующий скачок. Сможет ли модель писать решения на уровне магистра? PhD? Постдока? Доктора наук? Будет ли она ограничена 2-3 доменами, или же обобщится на любую научную область, где есть вычисления?
6) Однажды вы проснётесь, и слух из новости станет правдой: появится модель, которая будет хотя бы частично (>50%) заменять одного учёного в лаборатории. С этих пор прогресс начнёт двигаться гораздо быстрее — потому что нанять 100 учёных за день нельзя, а запустить 100500 моделей на кластере за день — можно.
Более подробно с моим видением дальнейшей стратегии OpenAI и направлениями, в которых они будут копать, вы можете ознакомитсья в моей недавней лекции «What's next for OpenAI?». Там я, конечно, не предсказал шумиху с увольнением CEO, но много говорю про агентов-исследователей и подход OpenAI.
А почитать больше спекуляций по поводу Gemini и Q* можно на LessWrong.
О кейсах ИИ, темпоральном конфузе и операторах
Меня конфузит и морозит, когда речь заходит о кейсах применения ИИ. Помню, 10 лет назад меня так же мучали о кейсах применения крипты (биткоина). Я говорю: деньги. В ответ: ну как же, бла-бла-бла, золотой стандарт, гав-гав-гав, центральный банк и фиат, мяу-мяу-мяу, АБИСПИЧЕНИЕ!!11 А сегодня эти же люди получают и платят зарплату большей части сотрудников в крипте, переводят деньги заграницу, даже эфир застейкали, ибо кому будет 4.8% годовых в дефляционной валюте лишними.
Спрашивают про ИИ. Я говорю: интеллект. Чего тут, господи помилуй, еще обсуждать? Какие отсюда по дереву течь пространным дискуссиям? В ответ что угодно: Коран, Библия, душа, мозги, даже, говорят, без мяса не может быть интеллекта (видимо, пропустили урок биологии про вирусы).
Я это называю сектантство: убежденность в истине своей картины мира просто потому что, без явной или скрытой логики. И Бог бы с ними, но ведь люди часто неглупые такие вещи говорят.
А вот почему: они операторы. Оператор это тот, кто получает удовольствие управляя бизнесом, который десятилетиями производит абсолютно одинаковые шоколадки, лепит одинаковые макбургеры и добывает уголь тем же способом, что деды при Николае II. Такое тоже нужно, кстати, так что никакого неуважения.
Но я для себя давно понял, что мне принципиально не интересно думать о любой технологии, которая уже полностью и идеально работает; бессмысленно решать проблемы, которые кто-то хоть где-то уже решил; скучно обсасывать вчерашние новости и доступные любому решения, потому что свой вклад в будущее человечество они уже внесли. От нас тут больше ничего не зависит. Операторы поднимут и втиснут это во все места, где это имеет смысл.
Нам же остается будущее. А думая про то как с помощью ИИ увеличить продажи мы впадаем в темпоральный конфуз. Мы решаем то, что уже решено и без нас.
Друг запустил очень любопытный и неоднозначный AI-продукт, который не только помогает нам, но и берет на себя роли, которые ранее были исключительно человеческими. Называется Glambase, вот описание от основателя:
"Подумайте: OnlyFans заработал 3 млрд долларов в прошлом году благодаря настоящим людям. На Glambase каждый может создать виртуального персонажа, который будет общаться и создавать контент. Это открывает новые возможности для заработка, но также ставит под вопрос будущее тех, кто сейчас зарабатывает в подобных платформах.
Необратимо ли AI забирает работу у женщин, особенно в индустрии, где они доминировали? Если раньше можно было зарабатывать 50 тыс. долларов в месяц на OnlyFans, теперь подобную прибыль может принести виртуальный персонаж на Glambase, созданный школьником.
Более того, AI меняет саму суть человеческих отношений. Теперь вы можете создать виртуального друга, девушку или парня на Glambase. Это революционно, но одновременно ставит вопрос: убивает ли AI нашу способность строить реальные отношения?"
Что думаете?
Я примерно раз в месяц в фб публикую подборку #ИИ-вакансий в компаниях, в которых я либо фаундер, либо инвестор, либо хороший друг фаундера или инвестора (то есть, не левых). Продублирую сюда.
Сегодня в выпуске две вакансии:
— (Digital) Маркетолог Gen AI продуктов
— Full-stack Python Разработчик
Описание и контакты тут: https://stepa-dot-eth.notion.site/f10c78aa8be645e6b15ee90013130fe4?pvs=4
Кидайте друзьям, кто жутко угорает по глубоко интересуется ИИ и хочет получить практический опыт работы с интересными проектами на (пожалуй) самом перспективном рынке сегодня. Ну и денег заработать, чего тут греха таить.
Анализ и синтез речи является сегодня одним из самых больших и практических кейсов применения ИИ в бизнесе.
На вебинаре в эту пятницу мы поговорим о том как работают модели, которые переводят голос в текст и как на практике с ними работать (включая бесплатные и локальные). Разберем то как сравнивать различные модели и посмотрим на практические примеры. Разберем методы разделения голоса нескольких участников при расшифровке. Так же поговорим о моделям синтезирующих и клонирующих голос и разберем практические кейсы использования таких моделей, включая бесплатные опции и создание бота.
Этот вебинар для вас, если вы:
— Хотите автоматизировать расшифровку звонков и совещаний
— Хотите использовать синтезированную речь для продаж и поддержки
— Используете речь для анализа и генерации контента
— Интересуетесь последними моделями в области речи
— Ищете решение для локализации, дубляжа, субтитров
— Хотите создать ИИ ассистентов или ботов с ушами и голосом 🙂
При регистрации вы получите запись мероприятия и все материалы, даже если не сможете присутствовать.
За последние 6 месяцев в вебинарах Codex.Town поучаствовало больше 10,000 человек и больше 40,000 посмотрели и послушали в записи. Присоединяйтесь 8 декабря в пятницу в 15:00 UTC | 16:00 CET | 18:00 по Москве
Регистрация: https://lu.ma/codextown (может требоваться VPN)
Для оплаты картами СНГ вам достаточно подписаться на Boosty: https://boosty.to/codextown
Два дня в твиттере гуляет картинка, показывающая что GPT-4 работает лучше (то есть, пишет более развернуто), если ему пообещать $200 чаевых.
Это они еще с биткоинами не пробовали. Зачем машине грязные бумажки?
Рубрика «Что там с AGI?»
Во вчерашнем интервью помимо посланного на три буквы Боба Айгера, Маск уверенно заявил, что «AGI грядёт через три года». По его словам, это машинка которая:
1. Пишет романы не хуже Роалинг
2. Открывает новые законы физики
3. Создает новые технологии
Джейсен Х. (СЕО NVIDIA) почти одновременно заявляет, что по его мнению AGI придет в течении 5 лет. И добавляет: obviously. Говорит, все наши чипы давно дизайнит ИИ. Но не очень понятно как это связано с AGI.
Парни заработали по сотне миллиардов каждый, поэтому, наверное, шарят. Хотя, как всегда с AGI, вопрос его определения. Должно ли там быть сознание? Желания? Воля? (Мой ответ — нет. Эти вещи возникают вследствие возможности и оттого страха смерти).
Но вот что любопытно:
Год назад массовый ИИ казался неизбежен, но скорее куда-то глубоко в бекэнд тех гигантов, типа внутри поиска гугла или анти-спама фб.
Но сегодня чат-боты на сайте бронирования билетов, в приложении для знакомств или умный помощник в PowerPoint могут решить тест на лицензию адвоката или практикующего доктора.
Если вы кодируете в Cursor, вы можете просто перетащить картинку в окно чата и попросить редактор написать код для визуальных элементов. Работает с HTML/CSS/React, Swift и наверняка другими языками, но я не тестил. Бесплатно, но нужен ваш личный ключик gpt-4.
Из всех языков программирования, самый universally hated one, CSS, наконец, повержен.
Если копирайтеры и юристы боятся, что их заменит ИИ, то программисты молят "Быстрее!"
Если картинок в одну итерацию вам мало, то вот вам сервис для создания полноценных видео по промту. Сам себе режиссер 2.0. Ну, и целая планета режиссеров.
Очередное проявление post-scarcity. Но это не значит что конец экономики настанет мгновенно:
ИИ куда быстрее (по очевидным причинам) решил задачу создания топовой музыки, картин, рассказов, видео, мультфильмов лучше, чем задачи менеджмента, распределения ресурсов или уборки помещений.
Pika вышла вчера, генерировать можно бесплатно, но возможен вайтлист на регистрацию.
Вы обязаны это попробовать!
SDXL turbo умеет генерировать картинки уровня типичной модели SD/MJ, но делает это в один шаг, то есть меньше чем за секунду. Разрывает мозг.
Напомню, ровно 2 года назад вершиной диффузионок было сгенерировать размытую 64х64 пикселя фотку собаки. Сегодня вот это. Это как прогресс от телеграфа до айфона с 5G, но за пару лет.
То же самое нас ждет с другими модальностями, затем мультимодалками, затем агентами.
Бесплатно пробуем тут: https://clipdrop.co/stable-diffusion-turbo
Сама модель тут: https://huggingface.co/stabilityai/sdxl-turbo
Всегда сложно сделать выбор, что читать, когда вокруг так много бизнес-книг.
Павел Анненков — предприниматель и инвестор с 19-летним опытом сам ведет Telegram канал, где пишет обзоры на лучшие бизнес-книги и нон-фикшн литературу. А еще делится своим опытом и идеями для развития бизнеса.
Теперь вы точно будете знать, что важно прочитать и при этом не потратить время впустую на проходные и неинтересные книги.
Это не типичный канал с банальными и заезженными книгами и советами. Загляните и убедитесь в этом сами — ANNENKOV_ideas_and_books
#реклама
Теперь и вы можете написать экспериментальный джаз пост-панк хит сидя на скучном зум звонке!
Читать полностью…Чудесный и прекрасный слайд от Виталика на конфе о программируемой криптографии. Доклад называется d/acc, речь о defensive / decentralized accelerationism.
Но именно мне понравилась правая часть графика. Очень ёмко описывает парадигму совеременной цифровой безопаности.
Если мы знаем кто атакующий, то это кибербезопасность (крипта и прочий SSL, аудит, пентест, стандартный набор).
Если мы не знаем кто атакующий, то это инфобезопаность, то есть попытка выяснить истину (например, x.com community notes и алгоритмы консенсуса)
GPT5?
Вчера было 8+ часов звонков нон-стоп и я пропустил весь хайп про Q*
Кто не в курсе: есть теория заговора гипотеза, что одной из причин увольнения Альтмана был якобы какой-то лютый прогресс в работе над новой моделью, который скрыли от борда.
И якобы эта модель работает не через авторегрессию (генерация исключительно следующего токена в тексте), а через планирование и контроль, то есть модель сначала думает, а потом говорит.
И, более того, якобы это обучено на архитектуре на основе архитектуры Q-Learning, то есть когда модель (агент) учится исследуя мир вокруг и получая подкрепление (reinforcement learning) делая более "правильные" действия. Так примерно работают модели типа AlphaGo или AlphaStar, которые учатся с нуля играть в сложные игры. Если у LLM, как у самурая, есть только путь (они не знает какое слово будет следующим в предложении), то у таких моделей есть целеполагание, что, в целом, классная фича.
Ну а "*" потенциально относится к алгоритму поиска под названием "A*", который очень эффективно позволяет найти кратчайший путь до цели. Например, в случае, когда сложная математическая задача делится на кучу промежуточных шагов и логических выводов.
Честно говоря, это первый раз в истории, когда интернет умудрился восстановить архитектуру ML модели исключительно по названию, но интернет любит теории заговора и шизотерику.
Я не сомневаюсь, что OAI, Google, Meta и все остальные безусловно работают над моделями, которые могут самообучаться и планировать решение задач. Наверняка у OAI даже есть проект с таким названием, но насколько он работает и для каких задач мы пока ничего не знаем.
Почитать больше теорий и мемов от ML-тусовки можно, например, тут.
Написал пост, удалил, но понял, что ничего честнее я давно не писал, поэтому возвращаю.
О кейсах ИИ, темпоральном конфузе и операторах
Меня конфузит и морозит, когда речь заходит о кейсах применения ИИ. Помню, 10 лет назад меня так же мучали о кейсах применения крипты (биткоина). Я говорю: деньги. В ответ: ну как же, бла-бла-бла, золотой стандарт, гав-гав-гав, центральный банк и фиат, мяу-мяу-мяу, АБИСПИЧЕНИЕ!!11 А сегодня эти же люди получают и платят зарплату большей части сотрудников в крипте, переводят деньги заграницу, даже эфир застейкали, ибо кому будет 4.8% годовых в дефляционной валюте лишними.
Спрашивают про ИИ. Я говорю: интеллект. Чего тут, господи помилуй, еще обсуждать? Какие могут пространные дискуссии? В ответ что угодно: душа, мозги, даже, говорят, без мяса не может быть интеллекта. Но интеллект это решение проблем. Может тебе песню спеть и анекдот рассказать. А можешь напрячься и сделать агента, который какой-нибудь бизнес-процесс автоматизирует.
Но ответ тот же: как же так! это же жопу с дивана надо поднимать! а у меня вот не работает! а чо так дорого? Я это называю сектантство — убежденность в истине своей картины мира просто потому что, без явной или скрытой логики. И Бог бы с ними, но ведь люди часто неглупые такие вещи говорят.
А вот почему: они — операторы. Оператор это тот, кто получает удовольствие управляя бизнесом, который десятилетиями производит абсолютно одинаковые шоколадки, лепит одинаковые макбургеры и добывает уголь тем же способом, что деды при Николае II. Такое тоже нужно, кстати, так что никакого неуважения.
Но я для себя давно понял, что мне принципиально не интересно думать о любой технологии, которая уже работает (DeFi был интересен в 2018 но не сегодня); бессмысленно решать проблемы, которые кто-то уже решил; скучно обсасывать вчерашние новости и доступные любому решения, потому что свой вклад в будущее человечество они уже внесли. От нас тут больше ничего не зависит. Операторы поднимут и втиснут это во все места, где это имеет смысл.
Нам же остается будущее. А думая про то как с помощью ИИ увеличить продажи мы впадаем в темпоральный конфуз. Мы решаем то, что уже решено и без нас.
Оказывается, Альтмана уволили из-за того, что LLM слишком хорошо научилась в математику, ну в целом в науку. По крайней мере, спекулируют об этом.
Читать полностью…Кстати, у нас новый вебинар в пятницу про применение computer vision для бизнес-задач. А на следующей неделе еще один про vision у мультимодалок (LLaVA, BakLLaVA, GPT-4V).
Компьютерное зрение – технология, которая на практике используется редко и часто для несложных задач. Однако она имеет большой потенциал и может вывести бизнес на новый уровень.
24 ноября на вебинаре “Computer Vision для бизнеса” мы разберем:
— задачи, которые быстро и легко можно решить с помощью компьютерного зрения
— его возможности для улучшения бизнес-процессов
— реальные кейсы успешного использования
План вебинара:
— Как бизнесу помогает CV?
— Использование в спортивной аналитике
— Определение брака и износа
— Отслеживание поведения и эмоций человека
— Поиск по фотографиям
— Подходы и способы решения CV задач для бизнеса
Присоединяйтесь ко встрече и узнайте, как с помощью компьютерного зрения открыть новые возможности для бизнеса. За последние 6 месяцев в вебинарах Codex.Town поучаствовало больше 10,000 человек и больше 30,000 посмотрели и послушали в записи. Присоединяйтесь 24 ноября в пятницу в 16:00 UTC | 17:00 CET | 19:00 по Москве
Все зарегистрированные участники получат запись. Регистрация: https://lu.ma/codextown (может требоваться VPN) Либо вы можете подписаться на Boosty и получить ссылку на вебинар там: https://boosty.to/codextown