Привет! Я Леша Хахунов, основатель Dbrain.io, и это мой канал про искусственный интеллект. По всем вопросам @Ahahun (рекламы нет)
Вчера прошла презентация Apple, на которой рассказывали о том, как большинство людей будут использовать AI (любая другая аудитория любых GPT моделей меньше количества активных iPhone). На 2024 год в мире насчитывается около 1,334 миллиарда активных пользователей iPhone.
Обзор всех "фич" можно почитать, например, тут: [vc.ru]. По моему субъективному мнению, ключевых две:
1. Siri теперь стучится в ChatGPT для решения вопросов. Отправлять туда будет не только текст, но и картинки, и, предполагаю, видео. Вроде будет уточнять, ок ли тебе это.
2. Запили свою модель, которая будет работать на девайсе с данными без интернета.
Теперь мысли:
1. Вообще не ясно, как неконкуренция относительно Apple - OpenAI будет работать. Если даже 100 миллионов человек начнет пользоваться моделью GPT-4о и Apple видит вход-выход, то обучить свою станет очень просто.
2. Мне с этими моделями, видимо, павербанк лучше сразу не вынимать? Новый iPhone 15 Pro умирает у меня ровно за сутки. Если даже на М процессорах сетки, например, в камерах убивают аккумулятор, то что будет с кучей фоновой работы, я боюсь представить.
3. Что будет с Siri, которая распознает голос? Их старые модели? Если да, то с английским будет все ок, а с другими может быть не очень.
Отдельно хочу сказать про "вой", что Apple украдет ваши данные. Мне кажется это а) глупо, б) популистски. Почему я так считаю:
1. А кто вообще лучше Apple защищает ваши данные из крупных игроков? Вы давно пробовали покупать таргет рекламу? Там Apple отдает наружу ровно ни-ху-я, как говорит Тиньков. Все действительно у вас на устройстве и зашифровано.
2. Также там был интересный блок про Private Cloud Compute. О чем это вообще? Это говорит, что с вашего устройства в облако (не в OpenAI) Apple будет уходить недешифруемый кусок данных. Давно ждал, когда такие вещи начнут использовать крупные игроки.
@aihappens
Примеры возможностей нового GPT4o ассистента – серьезно, фильм "Her" теперь реальность
Читать полностью…💜 шанс повидаться и поговорить про GPT
запланировали сделать лекцию вместе с бизнес-медиа Справочной. Пройдёт 14 мая ака завтра в 17:00мск (16:00 CET), зарегистрироваться можно в боте. На лекции посмотрим на практические кейсы из моей жизни. Приходите, буду рад вас видеть.
Смешная история!
GPT очень любит слово "delve" (англ. "копаться") в текстах. Это слово стало встречаться в десять раз чаще во многих публикациях, включая медицинские. (см твиты)
Причиной этого стало его большое распространение в англоязычных странах Африки, где работает большинство разметчиков моделей GPT.
Вот так культурный контекст переносится через океаны и континенты.
@aihappens
Тестируем разные форматы с @Matskevich. Подкасты сложно делать, долго монтировать. Новый формат! Записали два видео про разборы кейсов с GPТ, держите первое. В нем мы обсуждаем и смотрим кейсы из инсты + рассказываю как работает suno и мы генерим бомбический трек (он будет ниже, послушайте!).
Читать полностью…Год я исследую вопрос - как научить людей пользоваться GPT моделями (тут остались те, кто считает это бесполезным навыком?). Главный вывод такой:
Нужно не давать сложные промпты, замороченные примеры дообучения опенсорс моделей или информацию о том, как работает векторный поиск, а нужно закрыть для человека базовые проблемы: доступы, простые бытовые примеры, азы того, как это устроено, и познакомить со всеми функциями внутри (со всеми не знаком, мне кажется, никто). Казалось бы - если это дать, то точно все получится! Но ни-хре-на. Часто, чтобы учиться и меняться нам еще нужны другие люди :)
Из этого концепта появился gconf.io - интенсив, где ты изучаешь все про GPT вместе с хорошими людьми (еще есть много инфы тут @gptlovers). Мы его придумали с Олей Маркес и Димой Мацкевичем, где они помогают сдерживать мою гиковость, за что я им очень благодарен.
Мы провели этот формат в прошлом году, и отзывы были супер. В этом году мы часть вещей поменяли - контент записан сразу, и на звонках только обсуждаете и решаете задачи. Появились мини-клубы:
·помогающие профессии
·контент
·автоматизация личных дел
·про детей, семья
·как найти партнера
Которые проводим даже не мы, а приглашенные фасилитаторы и участники с прошлой конференции.
В общем, сообщество и формат меняются, и туда еще можно запрыгнуть. Ближайший интенсив начинается 15 апреля, будем тебя ждать на нем.
@aihappens
миджорни перестанет быть доступным только через дискорд (с которым у всех было кууууууча проблем). Ну и наконец мне куда-то прислали early access!
Еще чуть-чуть и дадут промпты писать на человеческом языке, а не по их сложным шаблонам.
Хочется попробовать предсказать будущее; Чтобы понять, что будет с ИИ в ближайшие годы, давайте взглянем на ожидаемые тенденции:
- От GPT-3 к GPT-4, а потом к GPT-5. Это как переход от лошадиной тяги к автомобилю, а затем к беспилотникам (которые, к слову, ещё не стали повседневной реальностью). То есть должны быть действительно качественный переход, а не просто быстрее разгон или меньше расход;
- Вот как выглядят модели в цифрах (весах): GPT-3 имеет 0,18 триллиона параметров, GPT-4 — около 1,7 триллиона, а у GPT-5, скорее всего ждем, будет порядок 15 триллионов.
- Интересный момент: последние чипы от NVIDIA рассчитаны на модели с 27 триллионами параметров, что в точку соответствует нашим прогнозам.
Соответственно, я не верю в слухи о том, что модели следующего поколения выйдут в 2024 году, новые "патчи" - да, кардинально переходы - нет. Но готов поспорить, что увидим их в 2025. Еще раз - с качественным переходов пользовательского опыта.
А ещё вот вам интересный факт: крутое интервью с Сэмом Альтманом, которого я считаю ключевой фигурой в мире технологий, за два дня посмотрели всего миллион человек. И это при том, что интервью на английском. Странно, правда?
(линк интервью)
@aihappens
Хорошие специалисты на помойке не валяются. Поэтому ищем здесь. Помогайте искать (пожалуйста)
Ищем специалистов в команду Dbrain. Если ты крутой менеджер проектов по интеграции (B2B API) или специалист техподдержки, пиши нашему HR-Яне в ТГ: @lupandina
Если ты SMM-щик и можешь сделать этот пост круче, а ещё продвинуть его и задизайнить в фигме, пиши нашему контент-райтеру Кристине:
kristina@dbrain.io
@dbrainfriends
Будем скоро писать еще один подкаст с Димой Мацкевичем про текущее состояние в мире AI/GPT. Накидайте вопрос и тем, о чем хочется узнать.
Читать полностью…Мы в одном чате выяснили, чем пользуется Telegram для расшифровки аудио. Ответ окажется очевидным, но путь к нему интересный.
Хронология:
- Я отправляю аудиосообщение в чат, его расшифровывает друг, и в конце видит следующий текст: "Ну, в общем, мы это узнаем завтра. Зав. Редактор субтитров А. Семкин, Корректор А. Егорова". Я, конечно, так не заканчивал своё сообщение, но это хорошо, что не "directed by Robert B. Weide".
- Мы гуглим и находим интересную тему на GitHub: https://github.com/openai/whisper/discussions/928, где люди описывают баги расшифровки Whisper:
1. Иногда он выводит (на французском) ❤️ Translated by Amara.org Community.
2. Когда музыка затихает, он выводит: "Thank you for watching".
3. Во время проигрывания закрывающей темы: Legendas pela comunidade Amara.org.
- И так далее.
Что интересного в теме: там есть список фраз, которые встречаются как артефакты, и если вы используете Whisper в проде, то можете их просто исключить. Для РФ это, например, "ru": ["Редактор субтитров А.Синецкая, Корректор А.Егорова"].
Саммари:
1. Telegram перешёл с Google на Whisper (раньше точно был Google, и было стрёмно, что данные уходили ещё и туда).
2. Whisper обучали на данных сериалов, в том числе с странных платформ, но на комбинации звука и субтитров.
3. Если вы используете Whisper, возьмите из ссылки выше слова, которые надо вырезать из текста (это сообщение специально для Паши Д.).
4. Генеративные модели смешно галлюцинируют 🙂
@aihappens
я думаю вы прочли и в других канал про Sora, подъехало кое-что не менее интересное:
Neuralink: В понедельник вечером, на мероприятии X Spaces, организованном известной журналисткой Кэтрин Бродски, Илон Маск сделал поразительное заявление. Первый человек, получивший мозговой чип Neuralink, успешно восстановился после операции в январе!
Что произошло?
Сентябрь: Neuralink получает разрешение на эксперименты с пациентами для восстановления утраченных функций у парализованных.
Январь: Пациент получает мозговой чип Neuralink.
Сейчас: Пациент полностью выздоровел, без побочных эффектов!
Как это работает?
Маск говорит, что пациент теперь может управлять мышью компьютера, просто думая об этом. Это знаменательный момент для компании в её стремлении соединить мозг с компьютером напрямую.
Больше, чем две кнопки
Следующая цель Neuralink - достичь более сложного управления, включая такие действия, как удержание кнопки при перемещении мыши. Маск уверен в прогрессе, заявляя, что в конечном итоге они хотят перейти за рамки простого нажатия двух кнопок.
вы бы были готовы сделать себе операцию, чтобы внедрить чип через пару тройку лет? а если бы он умел передавать картинки из Sora напрямую в мозг?)
@aihappens
читал новость про массовые подделки документов KYC в финансовых компаниях используя сгенерированные с помощью ИИ документы, Тинек и подтверждение в видео звонке и Сотрудника компании который поговорил со сгенерированным CFO и хочу сказать следующее:
1) надо помнить с чего все начиналось! Еще в 2021 году лицом Димы собирали деньги не пойми на что.
2) Dbrain.io давно работает с поиском сгенерированных паспортов/id, поэтому если вы боитесь такой проблемы и все еще используете наши сервисы для обработки документов - call me.
и еще я вышел из новогодней тоски, отметил 29 летие. Привык обновлять цели и делать ретро не по новому году, а именно по дню рождения. Может черкану пару ключевых выводов этого года для себя.
@aihappens
Пока я пишу пост о новой модели от Google, рекомендую вам послушать подкаст, который мы записали совместно с Forbes о GenAI. После записи у меня было потрясающее чувство, что удалось многое рассказать. Благодаря ведущим, подкаст получился не скучным лекционным, а супер эмоциональным. В общем, настоятельно рекомендую: https://gostudy.mave.digital/ep-67, потом пишите как вам. ❤️
@aihappens
👨🎨В чем проблема GPT или какая разница бытовых и бизнес разговоров.
GPT отлично отвечает на вопросы и следует инструкциям. Он действительно хорош в этом, потому что он обучен большому количеству разговоров. Но, как говорится, есть нюанс: он на самом деле не «общается»🌝. Он не задает вопросы, чтобы убедиться, что понимает, чего вы хотите. И на это у него есть весовая причина - модель обучалась на диалогах людей, где обычно на любой наш вопрос следует ответа, а не идет встречный вопрос - точно ли мы имели ввиду вот это?
Вы можете подумать, что я считаю GPT тупым. Нет-нет, мы лишь сами его так научили.
Большая часть обучения GPT проходит в режиме вопросов и ответов. Он не привык задавать уточняющие вопросы или брать на себя инициативу в разговоре. Но именно этой инициативы не хватает рядовому пользователю, которому сложно описывать каждый раз инструкции, по которой модель понимает, что нужна помощь в тексте или создании презентации. И связано это с тем, что чаще всего мы сами не до конца понимаем, а что вообще мы хотели сделать и с этим нам нужна такая же помощь как и с решением самой задачи.
Чтобы сделать GPT более подходящим для бизнеса, а не обычных чатов, ему необходимо учить, когда просто отвечать, а когда задавать больше вопросов. И я думаю в 2024 году модели будут обучаться делать именно это. Сначала слушать и понимать, а потом уже давать решение.
@aihappens
То ли я дурак, то ли моделей GPT-4😮 черт знает сколько, но в официальном письме от OpenAI сказано, что модель знает информацию до октября 2023 года. В веб-браузере, где мне (ура!) сразу выдали эту модель, она знает до начала 2022 года. Простой тест на финал Лиги Чемпионов 2023 года (лето 2023) модель пошла гуглить.
Но вообще новая модель просто восторг. Казалось бы, простая продуктовая фича - скорость ответа - меняет качество диалога настолько, что это сложно передать словами. Бомба.
@aihappens
Сегодня была весенняя презентация OpenAI.
Я поначалу думал стримить сюда все, что там происходит, но решил, что это все же слишком для гиков и лучше соберу для вас главное. А рассказать есть о чем:
Первое и самое главное для многих - новая модель GPT4o будет доступна без регистрации и бесплатно.
Второе - новая модель по сути очень близка к привычному нам человеку. Видит, слышит, реагирует быстро, отвечает голосом и даже с эмоциями! (Пока не очень понятно, как на языках, отличных от английского, посмотрим).
Третье - приложение для вашего ПК, куда вы можете стримить части своего экрана и говорить с ассистентом о своих вопросах прямо в реальном времени, как с человеком.
Последнее - все это доступно через API, дешевле, быстрее, ну и вот это вот. Вы поняли.
Когда все это ждать у себя? Да хер его знает. Обещают через 2 недели, но я думаю, что снова будет постепенно и не для всех.
фул видео
фул статья
@aihappens
Как я историю чата обрабатывал с помощью GPT моделей с шокирующим результатом! (детям не смотреть).
Дано:
Чат, где сейлз команда задает вопросы тех команды.
Total Messages: 3848
Total Characters: 417353
Русский язык.
Хотим получить FAQ - самые частые вопросы и ответы, чтобы добавить их в документацию.
Число токенов в начальном запросе около 450к, в общедоступные модели нормально не впихуивается. Что делаем?
шаг 1 - вычищаем json выгрузку из тг от всего кроме Отправитель:Сообщение и конвертим данные в txt формат с помощью GPT4.
шаг 2 - открываем google translate и пихаем туда файл для автоперевода
на этом этапе вместо 450к токенов получаем около 100к токенов, значит уже влезают в большинство моделей.
шаг 3 - берем в Poe Claude 200k и пихаем туда файл с задачей собрать FAQ на основе переписки.
шаг 4 - радуемся!
ни-хе-ра....Opus обрабатывает данный супер криво. Очевидно, что проблема неравномерного внимания к началу\концу относительно середины встала во весь рост. Ну ладно, у нас же Poe в руках, давай пихнем этот же запрос в Gpt4-128k. ВУАЛЯ!
СНОВА ВСЕ ПЛОХО!
шаг 5 - удаляем все GPT модели, нанимаем аналитика, пусть руками разбирает все.
ладно, случайно по рекомендации Poe жмем кнопку повторить запрос в Gemini-1.5-Pro-128k, модель от Google в которую веры 0. И бинго! Она делает классную структуру, читает явно все, и сама даже делает красивую разметку ответа на FAQ. А мы в них не верили.
@aihappens
В чём проблема с добавлением новых данных в GPT-модели?
Возможно, вы заметили, что с каждым обновлением продвигается дата "knowledge cutoff" — момента, до которого модели знают, что происходило в мире.
Какова же проблема? На самом деле, существует два этапа при обучении моделей:
1) Создатели собирают всевозможные данные из интернета, тратя сотни миллионов на обучение модели.
2) Создатели собирают основные новости по разным направлениям и делают дообучение модели.
ChatGPT Knowledge Cutoff — 12/23, Opus — 8/23.
Какие последние версии библиотеки python-telegram-bot знают сети:
GPT-4 — 13.12 (выпущено 2022-05-26), Opus — 20.3 (выпущено 2023-05-07).
Версии библиотек — это самый простой пример, хотя OpenAI и GitHub, находясь в одной компании, могли бы постараться сделать больше! Если вы погрузитесь глубже в любые вещи за пределами новостей, ситуация будет такой же. Статьи, мемы в интернете и т.д.
Проблема здесь в том, что собирать массу новой информации и делать incremental learning на текущий момент почти нереально, насколько я знаю - технически эта задача не решена, а это на самом деле достаточно сильно ограничивает области применения моделей, особенно в написании кода и в индустриях, где все меняется очень быстро (условный маркетинг в интернете, где хуки, работающие год назад, становятся совершенно не актуальны). Такие дела.
@aihappens
ну и еще (не пропустите пост выше) - дядюшка Сэм был на втором месте лучших моделей меньше недели. Новая модель OpenAI снова в топ "человеческого" лидерборда. Смотреть тут. Я думаю у них в загашнике есть модели и покруче текущей. И кстати - теперь дата обновления знаний конец 2023 (был апрель).
@aihappens
Почти год лидером среди открытых решений для распознавания речи был Whisper от OpenAI. Но теперь пальму первенства среди API сервисов перехватила новая модель Universal-1 от AssemblyAI.
(я постестил на длинном звонке - работает правда хорошо. Можно 100 часов бесплатно потестить)
Universal-1 превосходит Whisper и другие коммерческие решения по нескольким ключевым параметрам:
Качество: на 10% и более точнее распознает речь на английском, испанском и немецком языках в сравнении с лучшими протестированными аналогами. При этом генерирует на 30% меньше некорректных вставок слов (так называемых "галлюцинаций") на обычной речи и на 90% - на фоновых шумах.
Скорость: в 5 раз быстрее благодаря оптимизации архитектуры и распараллеливанию инференса. Теперь 1 час аудио обрабатывается всего за 38 секунд на одном GPU.
Многоязычность: умеет распознавать речь сразу на нескольких языках в рамках одного аудиофайла (code switching).
В 71% случаев пользователи предпочитают транскрипции Universal-1 по сравнению с предыдущей моделью Conformer-2.
Новая версия Universal-1 уже доступна клиентам AssemblyAI через API. Похоже, лидерство в гонке решений для speech-to-text переходит от открытого Whisper к проприетарному Universal-1.
Учитывая такой технологический рывок, теперь AssemblyAI может составить серьезную конкуренцию гигантам вроде OpenAo, Google, Amazon и Microsoft на быстрорастущем рынке Speech AI.
Классный блог-пост про модель Sora.
https://openai.com/blog/sora-first-impressions
Лучшим (по мнению компании OpenAI) художникам предоставили ранний доступ к модели, чтобы получить обратную связь о ее работе, и знаете, какой основной был фидбек?
"ААААА, ОНА УБЬЕТ НАШУ РАБОТУ!!!"... Нет.
Working with Sora is the first time I’ve felt unchained as a filmmaker,” he states. “Not restricted by time, money, other people’s permission, I can ideate and experiment in bold and exciting ways.”
Генеративные модели расширяют возможности профессий, снимают ресурсные ограничения и бесконечно усиливают тех, кто проявляет к ним любопытство.
@aihappens
Ян Лекун шарит:
Язык имеет низкую пропускную способность: менее 12 байт/сек. Человек может прочитать 270 слов/минут или 4,5 слова/секунду, что составляет 12 байт/с (предполагая 2 байта за токен и 0,75 слов за токен). Современный LLM обычно тренируется с двухбайтовыми жетонами 1x10 ^13, что составляет 2x10 ^13 байт. Это займет около 100 000 лет для чтения (по 12 часов в день).
Зрение гораздо выше пропускная способность: около 20 МБ/с. Каждый из двух оптических нервов имеет 1 миллион нервных волокон, каждый несет около 10 байт в секунду. 4-летний ребенок не спит в общей сложности 16 000 часов, что означает 1х10 ^15 байт.
Другими словами:
- Пропускная способность данных визуального восприятия примерно в 16 млн раз превышает пропускную способность данных письменного (или разговорного) языка.
- Всего за 4 года ребенок увидел в 50 раз больше данных, чем самые крупные LLM, обучаемые по всему тексту, доступному в интернете.
Это говорит нам о трех вещах:
1. Да, текст излишен, а визуальные сигналы в оптических нервах еще лишнее (не смотря на 100-кратные сжатые версии выходов фоторецептора в сетчатке). Но избыточность данных — это *точно* то, что нам нужно для Самоконтрольного Обучения для улавливания структуры данных. Чем больше избыточности, тем лучше для SSL.
2. Большая часть знаний человека (и почти все знания животных) исходит из нашего сенсорного опыта физического мира. Язык - это вишенка на торте. Нам нужен торт для поддержки глазури.
3. Нет *абсолютно ни за что* мы никогда не достигнем ИИ на человеческом уровне без того, чтобы машины обучались на сенсорных входов с высокой пропускной способностью, таких как зрение.
Да, люди могут умнее без зрения, даже довольно умнее без видения и прослушивания. Но не без прикосновения. Прикосновение тоже довольно высокая пропускная способность.
@aihappens
я перестал участвовать в гонке "расскажи все новости про AI", но новости от компании Антропик заслуживают вашего внимания.
спустя год появилась модель, которая со смешной припиской (о ней в конце) обгоняет GPT4 по качеству и это модель ОПУС, которая еще и умеет принимать за 1М токенов контекста.
ключевое из блог поста:
1. Серия Claude 3: Включает модели Haiku, Sonnet и Opus, каждая из которых адаптирована под определенные задачи. Такое разнообразие позволяет пользователям выбрать модель, наилучшим образом соответствующую их потребностям.
2. Усовершенствованные Возможности: Среди заметных улучшений - повышенные способности визуализации и расширенные функции обработки изображений, а также широкое окно контекста.
3. Ориентация на Бизнес: Пост акцентирует внимание на сильной ориентации на рынок B2B, что указывает на стратегическое направление для широкого применения.
Теперь про смешную приписку - все бенчмарки и история про обгон на повороте GPT4 сделаны до момента, когда гугл пару месяцев назад уже "обогнал" openai и те выпустили метрики для свежей модели с прокаченными промптами(см картинки), где видно, где и антропик и гугл все еще отстают. Те еще раз - за год GPT4 так реально никто и не обогнал :(
но модель антропик точно заслуживает больше внимания, чем гугл и ближайший месяц погружусь в нее.
@aihappens
вышел концерт моего друга, над которым он страдал, а я (без шуток) плакал, сильная в общем работа. Он только что вышел на ютубе - гляньте, поставьте лайк, коммент оставьте плз, для меня это очень важно)
https://www.youtube.com/watch?v=wjuvaaxccAQ
🦶Как я начал много ходить: история и наблюдения.
Раньше я думал, что занимаясь спортом 4-5-6 раз в неделю, я точно двигаюсь достаточно. Однако, в какой-то момент я понял, что активность внутри дня важнее, чем разовые спортивные сессии. Сравнивая регулярный спорт и много ходьбы, я бы выбрал ходьбу. И вот почему:
·Ходьба - это идеальный вид активности с низкой вероятностью травм и 0 порогом входа (нет необходимости в спецзалах, расписаниях, других людях или тренере).
·Ходьба способствует улучшению настроения и снижению уровня стресса благодаря выработке эндорфинов.
Но я все же за комбинацию спорта + ходьбы.
Теперь о том, как я увеличил среднее количество шагов до 15 тысяч в день. Два простых фактора:
1) Я стал выбирать звонки, где мне не нужен экран и где я не ключевой спикер, чтобы ходить во время них. AirPods Pro и Zoom обеспечивают отличный звук. Особенно ценю Zoom за низкую чувствительность к шумам по сравнению с другими платформами. И да - я хожу на звонках и в -20 (спасибо что аирподсы выключают/включают звук на девайсе), и в ливень и тд.
2) Жена - важный фактор. Мы гуляем вместе каждое утро за кофе и вечером перед сном, по крайней мере 30 минут.
Отдельно хочу упомянуть про звонки на улице с точки зрения СДВГ и концентрации. На улице я гораздо более сосредоточен: не открываю YouTube или мессенджеры, ведь у меня уже есть параллельная активность - ходьба. Она помогает мне погрузиться в бесконечный транс, позволяя внимательно слушать даже трёхчасовой контент. Нет звонков? Слушаем аудиокниги!
А еще когда ходишь по улице, то видишь много смешных моментов и вывесок)
Рекомендую пробовать!
@aihappens
Андрей Карпатый, лекции которого я глубоко советую (последняя) сообщил, что уходит из open.ai
Интересно, что одного из самых известных исследователей пробыл всего год в компании Sam Altman’a (я честно пропустил переход из Tesla, где он отвечал за весь AI). Выходит на хаях))
Война за кадры - самая сложная часть разработки своих GPT/LLM, так как у всех безлимитные бюджеты. Но фигур вроде Андрея даже в калифорнии единицы.
Почитать, что хочет делать Андрей можно тут, но если коротко - это что-то вроде джарвис в виде операционной системы, которой он скорее всего должен был заниматься последний год.
@aihappens
вышла MidJourney v6, свежая версия субъективно лучшей text-to-image модели, хочу сравнить ее с DALL-E 3.
Midjourney vs DALL-E 3: Битва Гигантов AI??
Midjourney: Шедевр с Загадками
Midjourney, это как тот умник на вечеринке, который все знает, но объяснять не умеет. После обновления v6, картинки стали ещё круче, фотореализм и вот это все. Они реально опережают DALL-E 3 и форки из Stable Diffusion по качеству. Но есть проблема в том, как заставить эту прекрасную модель понимать себя.
Запросы в Midjourney - АД
Сформулировать запрос для Midjourney - это целое искусство. Скажешь DALL-E 3, например, "нарисуй мне человека, стоящего где-то на природе, с соотношением сторон 16:9", и он, как понимающий друг, переведет это другой модели "человек стоит на скале ar 16:9" и сделает то, что надо. А Midjourney? Тут тебе придется точно описывать каждый пиксель, иначе ничего не выйдет. Нет, серьезно, иногда кажется, что надо знать какой-то секретный язык, чтобы он тебя понял.
Почему без LLM модели внутри, Midjourney? 2023 год уже кончается!
Тут возникает вопрос: ребята, а почему бы вам не подружиться с какой-нибудь open source LLM, типа LLaMA? Это же могло бы реально упростить жизнь пользователям. Представьте, как это могло бы расширить вашу аудиторию! Но видимо, они решили, что лучше быть крутым технологическим чудом, но недоступным для обычного пользователя, чем делать что-то действительно удобное.
Вывод
В итоге, Midjourney - это как Ferrari без руля: выглядит шикарно, но попробуй управлять этим! DALL-E 3 может и не такой острый на поворотах, но зато не заставляет тебя учить новый язык для общения с ним. Иногда, кажется, что создателям Midjourney надо было немного сместить фокус с качества генерации на пользовательский опыт.
@aihappens
ну и раз ChatGPT сегодня годик 🎂
я хочу еще поделиться мыслями о трех самых сильных изменениях, которые произошли за этот год благодаря open.ai
1) они создали супер аттеншен (задротская игра слов) к AI. И это действительно главное. Благодаря ChatGPT объем инвестиций, аудитории, специалистов вырос кратно. Не нашел сходу конкретных значений, но очевидно они повторили успех Маска в космосе и электрокарах.
2) open.ai показали, что компания, которая стоит B$ может делать продукты быстро, говорить не только про экологию, но и создавать офигенные пользовательский опыт. Да иногда все падало и не работало, но эта открытость коммуникации и супер отдача пользователям прощала все. Всем около T$ стоит задуматься.
3) несмотря на масштаб и возможность рубить кэш, OpenAI проводят супер интересный эксперимент, как ограничить свою прибыль, прибыль своих инвесторов и сотрудников, потому что уверена, что увеличение в десять раз сделают все, а больше может быть и не нужно? Google и Meta пару лет назад заявили, что их новая цель - не просто прибыль, а польза людям и благо сотрудников. Но таких шагов от них я пока не видел.
да и вообще - спасибо, что дали повод прожить этот год так ярко.
@aihappens
До слёз
Sama — CEO. При этом, не член совета директоров. То есть дальнейшую судьбу компании решают:
Bret Taylor, ex-CEO Salesforce и создатель Google Maps — станет председателем совета директоров.
Larry Summers, президент Harvard University с 2001 по 2006 — получит место за столом директоров.
Adam D'Angelo — сохранит своё место за столом директоров.
Что будет с Ilya Sutskever — пока не уточняется. Моё предположение что он останется в компании без права голоса в совете директоров.
Greg Brockman также возвращается в компанию.
Остальные детали появятся позже. Согласно источникам TheVerge, совет директоров будет расширен до 9 человек, а задача состава выше — определить, кто это будет.