Получается, я почти угадал с фотореализмом, просто это не новая версия Dalle, а GPT-4o которая умеет генерировать картинки помимо всего прочего
Генерацию запостил сотрудник OpenAI
Фотореализм, получается ✅
1. OpenAI: Показывают на телефоне шикарную демку ассистента с новой моделью
2. OpenAI: Добавляют свежую модель в приложения
3. Люди: начинают пытаться ей пользоваться как в демке
4. OpenAI: пикачуфейс.jpg, вы не поняли, это не так работает
Такой они стартап конечно иногда 🥹
Интересно, что Google вчера со сцены сказал 112 раз слово «Gemini» — настолько они сильно пушат свою LLM. 112 раз – или меньше, или больше, потому что я подсчитал это все используя Gemini 1.5 Pro и видео анализатор, поэтому точного ответа у нас нет.
1) Открываете, выбираете Gemini 1.5 Pro и загружаете туда видео: оно должно быть меньше часа, и лучше сделать температуру 0, чтобы избежать галлюцинаций
2) Пишете промпт в стиле: «Сделай список таймкодов когда произносили слово Gemini», можете добавить еще деталей как лучше это сделать, потому что в моих тестах посчитались и надписи «Gemini» в видео тоже. А еще, Gemini 1.5 Pro иногда забывает что оно умеет работать с видео 👍 и просит пойти программированием заняться если так хочется видео проанализировать, умная самая, посмотрите
3) Получаете список таймкодов, и тут начинается самая нудная часть: потому что GPT4o все еще пишет код с ошибками не слушая системные промпты и Gemini 1.5 ей не уступает в этом плане 💃поэтому я пошел в GPT4 и она написала скрипт, который нарезает видео на фрагменты — вот он. Он даже сработал с первого раза.
4) Все, дальше просто думаете зачем вы потратили на это время
#промo
Как разработчику или менеджеру в IT запустить свой пет проект?
Сидеть и работать в корпорации – страшно, жизнь-то мимо проходит. Уходить строить бизнес – страшно, а вдруг прогорит.
Один из вариантов – пилить свой проект по вечерам. Ведь многие успешные компании, типа Twitter, начинались как Пет проекты.
Мы не говорим, что пет проект обязательно заработает миллиарды. Но заработать денег больше, чем в найме, вполне реально, а уж опыта получить точно больше можно.
Но есть куча проблем и вопросов:
- Как выбрать идею для пет проекта?
- Что нужно знать про маркетинг?
- Как запуститься и довести до первых продаж не имея бюджета на рекламу?
Михаил Табунов сделал про все это телеграм канал Твой пет проект, в котором пишет для разработчиков и менеджеров про свой опыт – где брать идею, что надо знать про маркетинг, как запускать и искать первые 10 клиентов, и многое другое.
Так что подписывайтесь на Твой пет проект, получайте пользу от практиков рынка.
#текстприслан
На Google I/O показали новые AI штуки и пока я не увижу в проде, я не вижу смысла о них писать свои мысли – это уже второй Goole I/O где показывают AI-фичи для поиска, для Gmail и тп. и их как в меме с рыбами, только показывают (или уже встроили и показывают повторно, типа быстрых ответов на почту 🙂)
Из любопытного (как по мне):
– Показали конкурент SORA который понятно, что никто из нас не потрогает;
– Показали новый генератор картинок Imagen 3 который пока что никто из нас не потрогает (вход по заявкам и не для всех стран);
– Вернули функцию «Magic» в Google Sheets, если помните, была такая – выделяли ячейки и появлялись быстрее инструменты процессинга данных, теперь работает на Gemini и эта фича которую я правда ждал назад;
– Сделали свой платный аналог ChatGPT – Gemini App, буквально копия почти 1 в 1 – там есть свои GPT которые называются Gems, поддержка 35+ языков; сказали что аудио-асситента можно перебивать и угадайте показали ли демку этого ассистента 👍 (нет, дайте угадаю когда добавили эту фразу в презентацию хехе);
– Gemini еще больше интегрируют в Android, прям на уровень системы – удобно для пользователей Android. Ждем такое же в Siri + OpenAI;
– А это вызовет wild fire среди любителей безопасности данных: Gemini теперь слушает ваши телефонные разговоры сама по себе, процессинг случается на устройстве и может предупредить что вам позвонил «сотрудник тюрьма-банка и пытается вас заскамить». Надеюсь дадут отключать постоянную прослушку, в мире для этого уже есть органы.
Остальное вы уже видели в том или ином виде, саму модель Gemini 1.5, я бы хотел увидеть в результатах тестов.
P.S. Довольно кринжово выглядит когда спикер замирает ожидая аплодисменты и зал никак не реагирует, думаю разойдется на нарезки
#промo
Всем привет!
Сейчас практически ежедневно происходят сенсации в сфере ИИ. Буквально несколько часов назад OpenAI сделали ещё один прыжок в сторону личных ассистентов.
Мы (конечно же, не без помощи OpenAI 🙃) создали личного гида для прогулок по городу или виртуального туризма - Tourly Immersive Audio Guide. Почему виртуального? Потому что в самое ближайшее время мы добавим в приложение возможность гулять по локациям в режиме Gaussian Splatting.
Сегодня мы запускаем наше детище на Product Hunt 🚀 и нам очень нужна ваша поддержка! Если у кого есть аккаунт там – будем также благодарны за объективные отзывы на платформе. За самые интересные комментарии предусмотрены приятные промокоды 😊
🔶Ссылка на AppStore: https://apps.apple.com/app/id6473921781
🔶Android версия: на подходе )
🔶 Ссылка на Product Hunt: https://www.producthunt.com/posts/tourly-immersive-audio-guide
#текстприслан
С утра читаю отзывы людей (негативные опущены, они тоже есть):
— Вау, такой голос! Как живое!
— Невероятно, всё утро веду диалог, мне теперь живые люди не нужны!
Штука в том, что свежая модель на данный момент для пользователей генерирует лишь текст. Генерацию голоса новой моделью, а также создание картинок завезут позднее, «в ближайшие недели».
Представьте, что будет когда включат эту функциональность, как люди обрадуются 😀
То есть как работало мобильное приложение ChatGPT раньше:
— Одна модель слушает вас, переводит речь в текст. На этом этапе теряются все эмоции, никаких тегов <вздох> или *радостно* там нет — просто текст
— Текст подаётся в GPT-4-Turbo (вторую модель) на вход (как будто бы вы сами написали сообщение своими руками)
— Эта модель генерирует ответ текстом
— Этот текст озвучивается третьей моделью. Она не может петь, шептать, играться интонацией. Если в запросе попросите её это сделать — она не будет следовать инструкции
Насколько я понимаю, на сегодняшний день эта функциональность сохраняется — несмотря на то, что модели с номерами 1 и 3 можно заменить на новую GPT-4o (она может нативно слушать вас и генерировать голос сразу, без вспомогательных средств). OpenAI не выкатывают всё сразу. А вот модель 2 как раз заменили. То есть сами ответы могут показаться умнее, уровень понимания тоже повысился — потому что LLM стала мощнее. И скорость выросла.
Не верите? Попробуйте попросить отвечать медленнее/быстрее, или даже шёпотом.
Sorry to disappoint you 🤷♂️
Я одного не понимаю, Google показал это в 2018 году – робот резервирует прием в салон красоты:
/channel/denissexy/788
Как они умудрились не сделать масс продукт из этого?
Спустя 6 лет OpenAI просто обыграла их как дешевок ¯\_(ツ)_/¯
Буду радоваться когда Сундар Пичаи уйдет с поста, честно – риторические вопросы все
У новой модели контекстное окно 128k токенов, это две копии книги «Великого Гетсби» примерно – столько она может держать «в уме» работая с данными.
Это немного, хочется миллионы конечно
Примеры возможностей нового GPT4o ассистента – серьезно, фильм "Her" теперь реальность
Читать полностью…Через 15 минут начнется трансляция OpenAI с новыми моделями и всяким таким:
https://www.youtube.com/live/DQacCB9tDaw?si=DvCLorkJUWR3MbGU
Подключайтесь, попробуем подсчитать сколько сегодня стартапов закроется от их анонсов – свое саммари сделаю после трансляции 😇
Помните Саудовская Аравия обещала построить мега-город с названием «NEOM»? Такая зеркальная полоска через пустыню диной в ~170 км (первые две картинки)?
Так вот, они начали его строить — но чуть-чуть скорректировали планы:
полоска теперь будет длиной всего 2.5 километра, высотой в 500 метров и шириной в 200 метров.
Мне кажется там будет прекрасные фильмы сниматься про дистопийное будущее, особенно если проект забросят. Но 2.5 км звучит куда более достижимо, так что может и построят.
А учитывая, что власти готовы применять жесткую силу если что-то помешает строительству, я думаю к 2030 правда увидим зеркало в пустыне – с одной стороны нафига, с другой стороны это просто такой майнкрафт для сверх-богатых
#промo
Стартап Exactly.ai ищет Machine Learning стажеров
Exactly.ai это маркетплейс, который позовляет художникам тренировать ML-модели на своих иллюстрациях и давать брендам свои модели в аренду. Бренды могут создавать иллюстрации для маркетинговых кампаний с помощью моделей лучших художников.
Exactly - самый большой хаб персональных моделей, созданных профессиональными художниками и иллюстраторами. В сентябре Google включил Exacly.ai в топ-15 лучших стартапов 2023 года. Компания привлекла Seed Round и хочет расширяться.
Стили ML-моделей могу отличаться самыми разными скрытыми паттернами, поэтому для каждого из них нужен свой подход. Мы ищем ML-стажеров, которые помогут исследовать и разработать уникальные пайплайны для переноса уникальных стилей.
После стажировки успешные кандидаты получат контракт с компанией.
Если вам интересно, отправьте ваше резюме и сопроводительное письмо на адрес nikita@exactly.ai
Подробнее о вакансии:
https://exactly.ai/career/ml-intern-MBb358K3
#текстприслан
И второе странное видео на ночь:
AI-doomers попали в аналог «Своей игры» в США. Мы все стали мейнстримом?
Google наконец-то начнет искать в вебе, фух, я уже заволновался что не выкатят
Там будут текстовые ссылки, как раньше, без виджетов
О, пара интересных фич из грядущего iOS 18:
— теперь управлять айпадом и айфоном можно будет глазами
— если вас укачивает в транспорте когда вы сидите в телефоне, то можно будет включить специальный режим который добавит «точки» на экран, которые двигаются в такт с транспортом, так будет меньше укачивать
Тут новые «Accessibility» фичи:
https://www.apple.com/newsroom/2024/05/apple-announces-new-accessibility-features-including-eye-tracking/
Кстати, если вы хотите прямо сейчас поиграться с новыми моделями Google, то они доступны тут, бесплатно:
https://aistudio.google.com/app/prompts/new_chat
Контекст 1М токенов;
Google молодцы с релизом этой штуки, потому что вынесли уровень модерации в ползунки – чтобы модель не читала вам лекции когда встретила что-то в промпте, что ей не нравится. Но это не означает, что там нет модерации 😂
Про Gemini 1.5 Pro / Flash модели будет позже, тестирую как раз
Стадии принятия деградацим модели
Гнев - да хейтеры closed Ai все врут
Дебаг - щаща промпт поменяю и нормально будет
Торг - ну, зато быстрее... И в ASCII рисует лучше... И e2e мультимодалка...
Депресия - блять ну как так то, почему я должен писать: I give you 100$
Принятие - ну, зато дешевле и быстрее и слава богу
/channel/denissexy/8156
Короче, я потратил сегодня весь день пытаясь делать разные промпты «эксперта в написании кода» под GPT-4o и у меня пока не очень хорошие новости:
— Чистый ChatGPT на GPT-4o пишет код лучше (!) чем запромченый эксперт через API, такого я еще не видел;
— Помните я писал раньше про модель «im-a-good-gpt2-chatbot» о которой мы мало что знаем и она мне понравилась больше всего? Она все еще лучше всех, не пропускает инструкций и слушается;
В видео есть 3 вида змейки написанных с первого раза (то есть я не дебажил код самой моделью, просто копировал его и запускал — все модели прекрасно дебажат сами себя если попросить, я тестировал генерацию с первого раза):
— GPT-4o БЕЗ какого-либо промпта, кроме системного промпта ChatGPT: модель сделала симпатичную игру которая сразу работает, нормально считает очки и тп. Код.
— GPT-4o С моим системным промптом, где я ей говорю какая она классная в разработке и описываю детально как лучше писать код: во-первых, не с первого раза игра заработала, пришлось пару раз делать перегенерации — я пробовал и длинные и короткие системные промпты, ей все равно. Во вторых, игра с багами — очки считаются x10, при врезании в стену показывается алерт JS с очками который я отключил потому что невозможно же. Код.
— Im-a-good-gpt2-chatbot с тем же самым промптом разработчика выше: сделала прекрасную игру, которая считает правильно очки, содержит игровое сообщение «Game Over» и в целом норм работает. Код.
Я утром читал какие-то негативные комментарии про GPT-4o, и подумал что люди просто хейтят ClosedAI, такое часто происходит — а сейчас вижу, что есть за что — модель плохо промптится.
Поэтому:
1) Или так задумано
2) Или у OpenAI баг в API
3) Или нас ждет скорый релиз еще лучшей модели – «im-a-good-gpt2-chatbot», а GPT-4o чисто для аудио-ассистента сделана (это мое мнение, высосанное из пальца)
P.S. Мой текущий промпт разработчика, который хорошо работает (execution mode штука только для моделей OpenAI и не ясно он вообще работает или нет, удалите если в другие модели понесете)
Давно не было милых новостей в стиле SimCity 3000 – вот версия от GPT-4o:
🔸 Кошка захватила мэрский офис, требуя бесплатного тунца для всех. Жители города поддерживают её кандидатуру.
🔸 Робот-пылесос стал героем дня, спасая хомячка из-под дивана. Теперь его зовут Суперпылесос.
🔸 Гигантская тыква выросла на крыше мэрии. Теперь она служит новой городской достопримечательностью и кафе.
🔸 Местная белка стала звездой социальных сетей, собирая орехи в форме сердечек. Жители дарят ей орехи каждый день.
🔸 Птица-певчая взяла под контроль городской светофор, поет песни на зеленый свет. Водители благодарны за музыкальные остановки.
🔸 Городской пруд захватили утки, организовав утиную регату. Победители получают золотые булочки.
🔸 Местный фермер вырастил арбуз в форме звезды. Симы считают, что это новый символ города.
🔸 Бабочка стала сенсацией, случайно прилетев на заседание городского совета. Все решения теперь принимаются с её согласия.
🔸 Городской почтальон на велосипеде заменен на почтового дрона, который раздает письма вместе с печеньем.
🔸 Местный музыкант учит кошек играть на пианино. Теперь каждую ночь город наполнен мелодичными мурлыканьями.
🔸 Местный хорек стал мэром города после случайного голосования. Жители утверждают, что его решения значительно улучшили городскую инфраструктуру, особенно туннели.
🔸 Почтовый голубь случайно доставил любовное письмо в соседний город, вызвав цепочку романтических встреч.
🔸 Власти города заменили все уличные фонари на светлячков. Жители довольны природным освещением.
🔸 Роботы-бариста готовят кофе с художественными рисунками на пенке. Теперь у каждого кофе своя история.
🔸 Городская библиотека ввела программу 'чтение с котом'. Теперь каждый читатель получает мурлыкающего напарника.
🔸 В зоопарке открылась школа танцев для слонов. Их выступления собирают аншлаги.
🔸 Местные жители случайно обнаружили подземный город хомяков. Экскурсии проводятся каждую субботу.
🔸 На городской площади установлен фонтан с мыльными пузырями. Дети и взрослые не могут наиграться.
🔸 Городская станция метро начала использовать вагоны для пикников. Пассажиры наслаждаются путешествиями с бутербродами.
🔸 Жители города нашли способ выращивать миниатюрные деревья-бонсай на балконах. Теперь у каждого дома своя зеленая мини-аллея.
🔸 В зоопарке открылась школа фехтования для пингвинов. Туристы не могут поверить своим глазам, наблюдая за их поединками на льду с миниатюрными рапирами.
🔸 Власти города заменили все автобусы на гигантские тапки. Симы признают, что новый транспорт мягкий, уютный и идеально подходит для коротких поездок.
Прошлая подборка.
Девушки этих парней – нам нужно серьезно поговорить:
У нас тут снова переизобретение электричества происходит и нужно реагировать как в этих мемах – 😮😆😮😮😮😱😮😬
Спасибо за понимание
А еще, я думаю это будет шикарный способ подготовиться к собеседованию — скармливаете историю компании, вакансию которую они разместили, ваше CV и гоняете с утра до ночи тренировки пока вас не возьмут на работу 👍
Читать полностью…Я подключился по API к GPT-4o модели – просто посмотрите на скорость написания кода 😮
Сам код: https://codepen.io/shir-man/pen/GRaKzLg
– Показали GPT4o, самую мощную новую модель: она будет доступна для платных и ДЛЯ БЕСПЛАТНЫХ пользователей ChatGPT (даже без регистрации). Модель сейчас на первом месте по тестам сравнивая с другими лучшими моделями — и в коде и в других задачах.
– GPT4o это «Омнимодель» натренированная сразу на тексте, фото и видео — то есть та самая мультимодальность которую мы ждали.
– GPT4o уже доступна через API и стоит в два раза дешевле, и работает в 2 раза быстрее.
– Показали улучшенную версию аудио-чата через ассистента — она теперь шутит, понимает ваши эмоции; теперь ассистента можно перебивать своим голосом и сам ассистент говорит с эмоциями, и вы можете просить ее менять эти эмоции (даже петь). Переводчик с помощью GPT4o просто работает как в Sci-Fi кино (не путаясь и не требуя дополнительных нажатий кнопок).
– Запустят десктопные приложение наконец-то, чтобы не в вебе сидеть; в десктопном приложении ей можно показывать экран целиком и просить ее подправить код, что-то рассказать и тп. То есть это ассистент, который всегда видит ваш экран.
Дополнительные мелочи:
— Заявленные фичи выкатят через пару недель.
— Теперь через приложение можно просто ей показывать видео фид и она будет давать советы как решить какую-то задачу (не нужно фоткать ничего, работает как стрим);
— Во время демки ассистент тормозил хехе.
А вот что я предсказывал в посте выше и что сбылось или не сбылось:
✅ Демку ассистента как из фильма Her
✅ Полную мультимодальность: модель будет обучена сразу на видео, аудио, картинках и тексте
❌ Размер контекстного окна в 1М (128k токенов)
✅ Новую архитектуру к новой модели, у которой сразу будут все фишки выше
✅ GPT4 обновление с лучшим написанием кода, или 4.5 или 4.1 (с названиями, они, конечно, не консистентны)
❌ Новую версию Dalle 3, с улучшенным фотореализмом
А еще оказалось, что скандальная реклама новых iPad от Apple (за которую они извинились), это не что-тот новое, а просто скопированная реклама LG из 2008-го года ☕️
Мне вот тоже неприятно смотреть как давят классические инструменты, хоть я и фанат технологий, и люблю Apple
Производитель робособак Unitree, показал своего гуманоидного робота G1 Humanoid – и это уже выглядит интересно, потому что цена на него всего 16000$ (в сравнении с другими ценами на таких роботов)
Я теперь знаю зачем я рекламу в этом канале продаю, напитков будет кому принести пока я шитпощу ☕️ точнее, поднести напитки и облить меня ими
В Antropic (это конкурент OpenAI и авторы модели Claude 3 Opus) на днях запустили свой промпт генератор (доступен тут) и там какой-то дикий по объему инструкций промпт, я его вставил сюда, можете почитать. Если коротко, при генерации промпта сразу подставляются переменные которые будут нужны, чтобы максимально облегчить разработчику работу, добавляются «Chain Of Thougths» приемы и тп.
Только возникшая индустрия промпт-инженеринга уже двигается к своей автоматизации и это нормально, потому что намного быстрее «промпт-инженерить» языковую модель чтобы она, на основе уже готовых, одинаковых правил, написала какой-то промпт — потому что самому вычитывать 100 раз один и тот же текст абсолютно унылое занятие, поверьте мне.
Последние месяца три, все системные промпты которые я пишу для GPT / локальных моделей, я пишу с Claude 3 Opus или GPT4. Это правда хорошо работает — запускаешь какую-то новую модель и хочешь протестировать ее на предмет написания рассказов во вселенной «Ведьмака» или «Властелина Колец», а самому писать эти постоянные «Ты самый лучший в мире писатель фанфиков по вселенной...» и тп и тд, очень утомляет.
Поэтому, я собрал новую GPT задача которой промпт-инженирить за вас, создавая LLM-агентов на основе ваших предпочтений. В эту GPT сразу включены какие-то хаки которые хорошо работают по моему опыту, включая «Chain Of Thougths», негативный промптинг, выделение капсом нужных частей и тп. И если вы знаете размер языковой модели (например 8B, 30B, 70B) модель адаптирует сложность промпта, так как маленькие модели в больших инструкциях путаются.
Ссылка:
Agent Prompt Generator for LLM's
Прошлая версия промпта промпт-генератора доступна тут (я ее уже постил), в GPT более новая и сложная.
P.S. Шутка агента кринжовых-анекдотов со скриншота выше:
Путешественник во времени решает поехать в прошлое, чтобы предотвратить создание популярного мема «Forever Alone». Возвращается обратно и обнаруживает, что стал главным героем этого мема.