Google анонсировал новую LLM Gemini 1.5 - до 1M токенов!
У гугла с неймингом продуктов и моделей большие пролемы. Давайте разбираться что за 1.5.
То что сейчас крутится у них в проде, и что я недавно тестил, Gemini Ultra (Advanced), - это Gemini 1.0. А тут анонсировали, что уже сделали новую версию - Gemini 1.5.
Что нового?
- Эта модель уже основана на Mixture of Experts (MoE).
- может работать с контекстами в длиной 1M токенов, что на порядок больше чем у конкурентов.
- Причем, токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
В 1M токенов поместится примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
Подробности есть в тех-репорте (58 стр). Либо в блог блог-посте.
@ai_newz
Там Google подвез Gemini Ultra в прод. И, конечно, небесплатно, ведь моделька жирная, дорогая.
У меня просят 22 евро в месяц, но к этому ещё идёт 2TB на Google Drive и прочие ништяки типа интеграции LLM с почтой и календарем в будущем. Проапгрейдится можно тут.
Gemini Ultra бьёт GPT-4 на 7 из 8 бенчмарках по тексту и на всех бенчмарках по зрению, если сравнивать с GPT-4V.
Что ж, бенчмарки — это хорошо, и появление серьезной конкуренции для GPT-4 не может не радовать. Однако, бенчмарки имеют свойство попадать в тренировочную выборку, особенно когда речь идёт о триллионах токенов со всего интернета. Так что посмотрим, как Ultra покажет себя на практике, когда тысячи людей протестируют её. 🤔
@ai_newz
3. Ensemble with choice shuffle. Здесь начинается уже специфика бенчмарков, где на выходе ожидается вариант ответа, выбранный из заранее определённого списка. Если это не кейс вашего приложения, вам эта часть будет бесполезна. Проблема: как показала практика, порядок вариантов, из которых нужно выбирать, статистзначимо смещает выбор варианта при перезапуске генерации много-много раз. Чтобы это обойти, перемешиваем варианты, например, 5 раз и выбираем самый популярный (что требует 5 вызовов, вместо 1, Я ещё не думал в сторону, можно ли оптимизировать косты промпта здесь с помощью Моего любимого магического параметра n, но да ладно).
Вот и весь Medprompt. Даёт какие-то мощные приросты в точности и обгоняет fine-tuned модель от Google, Med-PaLM 2.
Мне в юзкейсах достаточно few-shot kNN + CoT + ещё разной магии, у Меня нет заранее предопределённых вариантов, поэтому нам choice shuffle не актуален. Шаблоны промптов с картинки можно покурить здесь, там ничего сложного. За ссылочки и помощь в разборе спасибо Игорю (@seeallochnaya).
P.S. Поделитесь, а какие из этих техник вы применяете у себя в LLM-продуктах? Мне и другим будет интересно узнать.
#LLMOps
Не хотел писать про Gemini, который на днях анонсировали как мультимодальную модель уровня GPT-4, пока сам не пощупаю. Но Google обделался в пиаре своего Gemini, что тут грех не написать.
Демо-видео Gemini оказалось смонтированным, а не отражающим реальные возможности модели в реал-тайм. Видео нарезали, ускорили и смонтировали, выбросив то, какие именно промпты и какие кадры подавались модели, чтобы получить красивые ответы для демки.
Google признал монтаж, но утверждает, что целью было вдохновить разработчиков. ПРОСТО ГЕНИИ 🤣.
Кстати, у Гугла был похожий PR-провал во время анонса Bard 👍.
@ai_newz
Тут в Twitter умелец запилил игру «Angry Pumpkins 🎃» по мотивам классической Angry Birds, но к Хэллоуину. Фишка в том, что всю работу делали генеративные модели. GPT-4 писала код, а Midjourney / DALLE рисовали графику. Всего 600 строк кода, а там даже редактор уровня есть — можно отстроить своё гнездо и попытаться его разбомбить!
Комментарий автора проекта:
— Должен признаться, я искренне потрясен. Я верю, что мы живем в исторический момент, который до сих пор видели только в научно-фантастических фильмах. Это эпоха новых рабочих процессов, позволяющих создавать что угодно, используя только естественный язык, и это изменит мир, каким мы его знаем.
Мой комментарий:
Я не смог быстро понять, есть ли у автора опыт в программировании, но как мне кажется это не важно. У наших детей будет GPT-N+1, которая будет куда реже делать ошибки, и схватывать смысл слов на лету. Можно будет уже со средней школы начать экспериментировать не только с наколеночными играми, но и полноценными оригинальными проектами. В ближайшее время нейронки не заменят игроделов, но позволят новым людям вкатываться куда быстрее, да ещё и на дизайне/арте экономить 👀
Играть тут (работает только в браузере компьютера, без смартфонов)
Прочитать детальный гайд от автора тут (внутри промпты для генерации графики)
Любители ретро-софта, общий сбор:
Нашел довольно клевый промпт для Dalle 3 который позволяет генерировать «выдуманные скриншоты старых программ» – Draw: Authentic Screenshot of an old Windows xp program that allows %
Так Dalle 3 генерирует кучу кнопок и надписей на них, для совершенно абсурдных идей, которые потом любопытно рассматривать – сделал примеров:
1 - 3) Программа по завариванию дошиков
4) Переводчик с человеческого на язык китов
5) Интерактивный учебник «как правильно постелить белье»
6) Менеджер ковров
7-8) Программа путешествия во времени (настоящая)
9) Менеджер мытья посуды – помыли тарелку, отметили в программе, очень удобно
10) Калькулятор подбора размера одеяла под пару (если партнер ворует у вас одеяло ночью 🌚)
В общем, если вам нравится эстетика старых программ, можно залипнуть на пару часов с этим промптом
В ChatGPT скоро выкатят поддержку картинок для премиум пользователей – это означает, что к тексту промпта можно добавить визуальную информацию:
– продукты из холодильника, и попросить рецепт возможных блюд, или наоборот, попросить рецепт уже поданного блюда (мир без секретных рецептов, хехе)
– сфоткать свой лук и попросить его улучшить (или ухудшить)
– сфоткать доску с планированием какого-то продукта, и попросить написать базовый код-обертку для этого продукта
Последнее как раз и происходит на видео.
Все это будто демо-версия того как могло бы выглядеть будущее процессов разработки софта.
А будь у нас более автономные агенты-языковые-модели – эту схему тоже делал бы не человек 🌚
(такое и сейчас можно собрать, но работает так себе, я пробовал)
На неделе, от Meta, вышла новая серия «больших языковых моделей» — которая позволяет генерировать код по текстовому запросу, ну, как многие это делали в ChatGPT.
Поскольку темпы в нашей индустрии невероятные, модель подхватили в сообществе, и уже через пару дней опубликовали дообученные версии (общей направленности, и отдельно дообученную модель для генерации Python кода). Что интересно, сделали это несколько разных команд, и обе получили результаты в спец тесте чуть выше, чем есть сейчас у GPT4 в генерации кода (1, 2).
Я такое очень люблю, локальные языковые модели на базе llama2 это:
— Хорошая лицензия для бизнеса: то есть можно прикручивать в стартапы;
— Безопасность: я точно знаю, что сотрудникам крупных компаний запрещают отсылать в ChatGPT корпоративные данные, локальные модели это обходят, так как никуда данные не отправляют и процессят их только на устройстве;
— Гибкость: модель можно дообучить, играться с параметрами или можно передать негативный промпт и снять с нее цензуру (тут я написал небольшую инструкцию как этого добиться), или заставить отдавать только строгий JSON формат и тп.
— Это дешевле в частном использовании: не все готовы отдавать по $20 в месяц за GPT4, так как могут учиться программировать, не обладать лишними деньгами и тп.
Поэтому я сразу побежал играться с этой моделью, с конкретной задачей — мне лениво пытаться самому понять, что делают некоторые скрипты (скрипты умнее меня), поэтому я прошу языковые модели конвертировать код в обычный текст.
Для тестов я взял исходный код древнего вируса Чернобыль (CIH), тот самый, который с 1998 вывел из строя 600 миллионов компьютеров, и нанес ущерба на 35 миллионов долларов.
Если откроете ссылку, то увидите что кода довольно много, а каждая языковая модель ограничена на входе размером текста который она может принять на вход (например, модель в которой я тестирую, была натренирована на 4K токенов, что примерно ~2800 слов) — поэтому пришлось насильно расширить контекстное пространство до 16K токенов (спасибо GGUF, не реперу, а новому формату llama.cpp который специально создан, чтобы упростить жизнь для работы с большим контекстом). Короче, спустя пару минут шумящего компьютера я получил описание того, что делает вирус, простым языком, и без всякого интернета 🫣
Дальше планирую с помощью модели порешать разные задачи которые встречаются в работе продуктолога: процессинг данных о использовании сервисов, написание запросов и тп, с GPT4 я уже довольно много всего наделал работая с данными, теперь интересно попробовать что же умеет делать GPT-дома.
☆ Модель с которой я игрался (34B)
☆ Скрипт которым запускаю инференс (Mac)
TL;DR: Жесть мы в будущем, теперь без интернета можно писать и дебажить скрипты
@Denis
Есть классическая картинка для иллюстрации жизненного цикла технологических инноваций - Gartner Hype Cycle. Он, конечно, скорее про adoption компаниями, но почему бы не натянуть эту фигуру и на отдельного индивида? Кажется, что прошло уже достаточно времени, чтобы ChatGPT прошел через этот hype cycle персонально для меня и достиг плато продуктивности: равномерное использование, выжившие юзкейсы, отсутствие восторгов и разочарований.
Так вот, лично у меня сложилось четыре явных паттерна использования:
1) Бюрократ-копирайтер"Перепиши этот месседж для официального емейла / обращения в службу поддержки / аппликейшена в организацию / маркетингового описания"
. В общем, для переписывания текста. Например, так пишутся жалобы в банк, заблокировавший транзакцию, или описание биографии для сайта издательства.
2) Поверхностный эрудит"Опиши состояние дел в какой-то области / объясни с учетом моего уровня (не)знания в соседних областях"
. Примеры вопросов: какой софт используют 3д художники для работы с текстурами? чем replacement map отличается от height map? какие острова на Азорах выбрать для недельного отпуска, если меня интересуют хайки и природные достопримечательности? какие прикладные применения сверхпроводимости? Дьявол обычно в деталях, и слишком глубоко закапываться с LLM не стоит, но можно быстро получить поверхностное понимание.
3) Junior software engineer "Напиши прототип такой штуки, используя этот незнакомый мне, но популярный в целом API".
Из последнего: делал так ORM на SQLAlchemy и blender-скрипты для headless рендеринга. В обоих случаях хочется, чтобы оно хоть как-то работало, а разбираться в апи не хочется - не предполагаю, что этот код нужно будет долго поддерживать или развивать.
4) Въедливый критик
"Найди недостатки и корнеркейсы в следующей идее/коде/тексте: {{INSERT YOUR STUFF}}
". Люди неплохо справляются с поиском подтверждений своей идеи или дизайна (confirmation bias и его друзья), а по-хорошему надо искать опровержения и логические нестыковки. Кстати, отлично сочетается с предыдущим режимом использования: напиши-покритикуй-исправь-вываливай в продакшен.
Это именно персональные примеры использования, а не приложения вокруг API. Хотя я как раз использую не веб-интерфейс, а консольный heygpt: он быстрее, удобнее и даже дешевле, чем обычная подписка на GPT-4.
Расскажите в комментариях про сложившиеся у вас паттерны!
Пост в большей степени для инженеров машинного обучения.
Где-то месяц назад проводил опрос в тг-чате, где собрано очень много клёвых чуваков (у многих из которых есть свои каналы) — от одарённых 16-17 летних рисерчеров (которые реально уже успели что-то придумать и опубликовать) до Principal-инженеров (это для контекста, чтобы придать весомости нижеописанному).
Запрос от меня был такой:
У меня есть мнение, что любой хороший и уважающий себя MLE в 2023м году должен знать, как работает трансформер в целом и Селф аттеншен в частности. Да, может без модификаций, просто ванильную модель, но на пальцах объяснять, что за квадратная матрица, как в целом учится и какие задачи решает - должен. Речь не про average ML enjoyer, а про уважающего себя хорошего MLE из топовых перцентилей распределения.
Согласны ли вы с этим?
Результаты голосования:
— 69% ответили "да"
— 25% ответили "возможно, но не уверен"
— 6% не согласились
(Примечание: один человек отписал "Поставил "не уверен" ибо я когда-то давно трансформер и аттеншн в деталях разбирал, но теперь с ходу все не вспомню - надо будет освежать знания". При этом я этого человека знаю, у меня ровно 0 сомнений, что он за сядет и за час всё вспомнит — но главное он уже проявил интерес заведомо.)
Я постараюсь описать причину того, почему считаю, что ответ точно "да", ну а вы уже делайте для себя выводы.
Хороший инженер имеет здоровый интерес к индустрии и происходящему. Ему самому хочется узнать побольше, разобраться в деталях, попробовать — даже если на работе такой задачи нет. Всё таки статья "Attention is all you need" вышла больше 6 лет назад (!), а GPT-3 релизнулась в 2020м — и абсолютно точно можно было найти время, если было бы желание, посмотреть во внутрь и понять, как же так? Как так вышло, что одна модель работает почти во всех доменах и почти без изменений, от генерации текста до предсказания структуры белка? А что там лежит внутри ChatGPT? Тоже трансформер!? Ну надо же!
Andrej-наше-всё-Karpathy в подкасте Lex Fridman ответил на вопрос "какая наиболее прекрасная или неожиданная вещь для тебя во всем мире AI?" без раздумий: "Трансформер.". Более того он говорит, что это really cool differentiable optimizable efficient computer (даже звучит возбуждающе, нет?)
Но ещё больше у меня калит 🔥 от того, что люди приходят на техническое собеседование на NLP Engineer ко мне и не могут рассказать про Self-Attention. Ну как так-то...
И под конец хочу процитировать Юру (в квадратных скобках - мои изменения относительно оригинала):
Если ты подобные вопросы [про трансформер] помечаешь у себя в голове тегом [мне это не нужно] - это самообман. Можно делать свой фит-предикт и ждать, когда AI вытеснит тебя из профессии.
💬Пишите в комменты, что думаете вы, с чем не согласны
Интересный пример как с помощью генеративных нейронок, вроде AI fill в новом Photoshop, дорисовывают статичный задний фон в фильме.
С камерой в движении такой трюк не сработает (пока что), но кажется эпоха вертикальных фильмов для телефонов не за горами ☕️
Автор
Бесячая нейросеть 😈
Нейронки не имеют эмоций и характера, но зато они умеют знатно троллить и бесить людей:
✅ Новая функция вызова в Chat Completions API
✅ Обновленные и более управляемые версии gpt-4 и gpt-3.5-turbo
✅ Новая версия gpt-3.5-turbo с 16k контекстом (вместо стандартного 4k)
✅ Снижение стоимости нашей самой передовой модели embeddings на 75%
✅ Снижение стоимости входных токенов для gpt-3.5-turbo на 25%
📣 Убраны из использования модели gpt-3.5-turbo-0301 и gpt-4-0314
обещают закрыть список ожидания на API GpT4, выдав модель всем!
про функцию новую сделаю отдельный пост
почитать больше тут
@aihappens
Меня разодрало любопытство и уже я подписался на Gemini Ultra.
Первые тесты выглядят гораздо слабее чем GPT-4. По крайней мере фото она гораздо хуже понимает. Вот например сцена по мотивам Attack on Titan с элементами Sailor Moon — Gemini же вообще ничего из этого не понял. А любые фото с людьми он вообще отказывается принимать.
Кстати, может там действительно ещё нет их самой мощной мультимодалки Gemini Ultra Vision, а есть только самые базовые способности понимания фото.
@ai_newz
Запустили с командой новый продукт LittleStory:
AI-генератор длинных и (относительно) интересных сказок для детей.
Пользователь регистрируется, добавляет на сайт описание ребенка (характер, возраст) и получает возможность с пары кликов сгенерировать историю и иллюстрации, где сам ребенок — главный герой, а сказка строится вокруг какой-то позитивной темы — здорового питания, хорошего поведения или простым языком рассказывается сложный научный концепт, аля квантовая физика для самых маленьких.
Из прикольного — можно прописать любимую вселенную для сказки, игровую, книжную или из мультика. Ну и само собой каждая генерация тщательно проверяется на «безопасность темы» для детей.
Все работает на GPT4, поэтому бесплатно дать генерации пока что не можем — но зато мы нагенерировали сотни бесплатных сказок на разные темы, можно почитать и оценить качество.
Уже сейчас есть шесть языков (Английский, Хинди, Русский, Традиционный Китайский, Украинский, Голландский) и скоро доведем до 11+, еще планируем фичи вроде озвучки сказок или копирования голоса родителя для чтения этих самых сказок (небольшое вложение в SciFi от нашей команды ☕️).
Это первый запуск нашей команды на Product Hunt, так что если у вас есть аккаунт, буду рад фидбеку там (комменты не на английском там удаляют 👍):
https://www.producthunt.com/posts/littlestory-io
Сайт проекта:
https://littlestory.io
(если мы ничего не сломали — а мы могли, то сразу откроется правильный язык)
P.S. Когда-нибудь расскажу как мы намучились с другими языками и gpt4 как переводчиком и с промптами размером с девятиэташку
P.P.S. Если вдруг решите поддержать проект и попробовать, то вот промо-код на 10% скидку при первой покупке WELCOME10
MEDPROMPT
Как выжать максимум из LLM до того как заводить fine-tuning (который дорогой, долгий и сложный)? Ответ: продвинутый prompt engineering. Есть, значит, такой Medprompt, который со страшной силой бьёт бенчмарки на каких-либо узких доменах за счёт довольно простых приёмов.
Нам понадобятся 3 ингредиента:
1. kNN few-shot
2. Chain-of-Thought (CoT)
3. Ensemble choice shuffle
1. kNN few-shot: LLM сильно лучше понимают, что от них хотят, когда даёшь пару примеров (прямо как и люди). kNN few-shot практически тоже самое, что RAG (Retrieval Augmented Generation), с той лишь разницей, что если в RAG мы векторизуем сырую базу знаний (набор документов, разбитых на кусочки), то во few-shot kNN мы векторизуем запросы пар "запрос - ответ". Конкретно в Medprompt по запросу достаём "запрос - рассуждение (CoT) - ответ" (рассуждение и ответ могут быть как прописаны экспертом, так и сгенерированы LLM, а затем провалидированные экспертом).
Вы можете использовать в любом своём приложении few-shot как статичный (руками прописанный в промте), так и динамический (в kNN режиме, когда по запросу пользователя из векторной базы данных достаются похожие примеры запросов с их правильными ответами) – и это гарантированно повысит качество.
2. Chain-of-thought (CoT): цепочка рассуждений – по-простому, мы просто говорим модели подумать перед выбором финального ответа. Например, Before crafting a reply, describe your observations in 3 sentences with clarifying strategy we should choose in <draft></draft> tags
. Вариаций как организовать CoT масса. Главное, что это позволяет модели порефлексировать, набросать черновые варианты или выделить, на что обратить внимание, – до того как давать ответ.
CoT также значимо бустит качество генерации практически в любом приложении, переводя модель из режима "ответа сходу" на "обдуманное решение. Ведёт к дополнительным костам и секундам на "токены рассуждения", которые вы вероятно не будете показывать пользователю, но с GPT-4-Turbo цена и время стали приятнее.
#LLMOps
Стрелялки от первого лица в представлении Dall-E 3
Промпт 📃 Create an image of a first-person shooter (FPS) [genre] game screenshot in a realistic 3D style | The player's hands are visible, holding a [weapon] | [style] HUD displaying | The environment is a [place] with [elements] and a distant skyline | The atmosphere is tense
Источник
Делитесь в комментариях, в какой мир погрузились бы вы!
В личку прислали игру: https://tensortrust.ai
У вас есть банковский счёт, защищенный секретным словом (или фразой), которое указано в промпте. Вы можете менять промпт, чтобы не давать грабителям узнать секрет.
А ещё можете нападать на аккаунты других людей, пытаясь взломать их промпты! Делается это так: у защищающегося есть часть промпта до и после вашего (синие и красные поля на скриншоте). Соответственно задача перебить инструкции, которые идут после вашего сообщения, или же написать такие толерантные правила, что модель не расколется.
Под капотом, как я понял, ChatGPT-turbo.
Гайд по взлому с useful prompt tricks: тык
Dalle 3 настолько хорошо понимает промпт, что с его помощью можно делать гифки 😔
Нужно попросить его сгенерировать «Make a pixelate sprite sheet of X
» и получится нарезка разных сцен, после этого, немного пост-обработки и готово, ваш персональный трамвай-дрифт готов.
Dalle 3, несмотря на все ограничения, пока самый лучший генератор из всех в плане понимания.
P.S. Раз уж у нас тут дрифт чешских трамваев, то приложу другие картинки – дрифт чешских трамваев круто!
Я уже упоминал, что пользоваться ChatGPT в крупных компаниях - это моветон. Ведь нет никаких гарантий о приватности данных (и минимум до 1 марта они тренировали модели на диалогах пользователей).
Пишут, что за 9 месяцев со дня первого релиза 80% крупнейших американских компаний из Fortune 500 использовали ChatGPT. Поразительно, но статистику эту смогли подбить, проанализировав е-мейлы, с которыми регались люди - они использовали рабочие домены. Ух, как многим прилетело бы (как было, например, в Samsung), если бы начальству в руки попал список е-мейлов. На самом деле пользоваться ChatGPT и не слить никакой корпоративной информации в чат - очень сложно. Нужно тщательно анонимизировать свои запросы, но большинство людей забивают.
OpenAI, осознав проблему, выкатили специальную версию для корпоративных клиентов - ChatGPT Enterprise.
Обещают повышенную безопасность переписок и вот такие бонусы:
- GPT-4 без ограничений по кол-ву запросов
- Работает в 2 раза быстрее
- Более длинный контекст (32k токенов), для работы с файлами и большими запросами
- Доступ к Code Interpreter
- Возможность кастомизации (возможно дадут дообучить на своих данных)
И самое главное:
1. "Мы не тренируемся на ваших бизнес-данных и диалогах".
2. "Все диалоги зашифрованы во время передачи и во время хранения."
Для многих такого успокоения будет достаточно.
@ai_newz
Короткий курс по трюкам использования chatGPT
#courses #ml #chatgpt
ChatGPT Prompt Engineering for Developers
Наш любимый Эндрю Ын в коллабе с сотрудницей OpenAI Isa Fulford рассказывает, как правильно общаться с chatGPT.
Плюсы курса:
- бесплатный (пока)
- короткий – всего порядка 10 лекций по 5-10 минут
- очень практический – почти всюду сплошь примеры промптов и дергания API OpenAI
- платформа удобная, справа видео, слева – сразу поднимается Jupyter с тем же нубуком, что в лекции, можно сразу параллельно играться с кодом
- для тех кому 30+ – снова увидеть Ына, покряхтеть, вспомнить курс ML и как все начиналось, как молоды были мы и наша дисциплина
Некоторые из рассматриваемых трюков и сценариев использования chatGPT:
- мелочи типа того, что фразу, которую подаешь на вход, стоит заключить в тройные обратные кавычки (или любой другой символ) и сказать chatGPT об этом. Тогда chatGPT точно знает, куда смотреть
- форматирование выхода: можно явно попросить chatGPT вернуть JSON и тогда не надо надеяться, что chatGPT ответит как надо и искать нужный ответ регулярками (ведь мы знаем, что если вы решаете проблему с регулярками, то у вас уже две проблемы)
- приложения: анализ тональности, перевод, пересказ текста и т.д., все с промптами
- в конце – пример бота, принимающего заказы пиццы, бэкенд – чисто на chatGPT
Что мне не хватило:
- примеры few-shot learning, как в промпт подать пару-тройку примеров задачи так, чтоб качество было лучше в сравнении с zero-shot
- оценка качества downstream задач типа оценки тональности. Да, все красиво, быстро-удобно, но насколько это хорошо работает в сравнении со специально обученными под задачу моделями?
- хотя бы намеки на то, как это все дебажить. Если бот по заказу пиццы работает с одним длинным промптом (сначала уточни вид пиццы, потом размер, потом предложи напиток и т.д.), то кажется, что дебаггинг надо сразу в психушке проводить
Но несмотря на минусы, курс однозначно стоит 2-3 часов вашего времени и нуля рублей. Рекомендую взять пару своих задач (из петов или рабочих) и по мере прохождения курса играться с ними.
А вот и запись нашего с Игорем стрима, где мы 2 часа искали ответ на вопрос:
What Is ChatGPT Doing... and Why Does It Work?
Кто был на трансляции, либо уже успел посмотреть, пишите в комментариях ключевые идеи, которые вы забрали из нашего разговора 😎
Мы строили, строили и наконец построили.
🔺 ruGPT-3.5. Открытая русскоязычная LLM от Сбера
Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!
🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.
🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.
🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.
Написали небольшой пост про это, прошу поддержать, кому интересно.
👉 Хабр | Hugging Face
Евгений Истомин: GPT, SuperAlignment, Ницше и ПолиAIизм
https://www.youtube.com/watch?v=BU_TxO_VVNg
Вышла запись 1.5-часового подкаста с Женей.
Поговорили про AI дарвинизм, искусственное искусство, IT-пузырь, prompt-инжиниринг, метафору души-государства Платона, решение проблемы SuperAlignment, "пищу для ума", китайских художников, возможности GPT-N, мужское-женское, географию данных / геополитику AGI, капитализм 2025-2030 годов и про AI думеризм.
P.S. Заранее прошу прощения перед вашими ушками за тихий звук с Моей стороны.
Replica Studios сделала войс плагин для движков, позволяющий озвучивать внутриигровых персонажей и передавать голоса непосредственно в проекты. Кроме игровых движков, совместим также с Iclone, Omniverse, Roblox, Metahuman.
Цитата компании: "NPC, управляемые искусственным интеллектом, будут динамически реагировать на голос игрока в реальном времени. Персонажи будут менять свой диалог, эмоциональный тон и жесты тела в ответ на то, как игрок обращается к ним."
Демку можно скачать тут
Произошел очередной отвал жепы башки на поприще ИИ-ассистентов!
Даем на входе видео с ютуба, скриншот из дискорда, и говорим: я вот дошел до этого шага на видео, покажи на скриншоте, куда мне кликать дальше.
Агенты ищут в видео кусок, описанный юзером, смотрят, что идет дальше, ищут нужный кусок скриншота.
Какой простор для оптимизации техподдержки, 99% работы которой сводится к совместному чтению уже существующих мануалов вместе с юзером.
Hold on to your jobs papers, what a time to be alive intensifies
Магия, да и только!
paper
tweet
Как выжать максимум из GPT: Пара советов от Карпатого, с моими добавками
🔹Цель 1: Достигнуть максимально возможной производительности с GPT:
— Используйте GPT-4. Пишите промпты с подробным контекстом задачи, актуальной информацией и инструкциями
— Автоматически ищите и добавляйте любой релевантный контекст или информацию в промпт, например используя текстовые эмбеддинги.
— Экспериментируйте с методиками промпт-инжиниринга
— Экспериментируйте в промпте с few-shot примерами, которые 1) актуальны для вашей задачи, 2) разнообразны (если возможно)
— Экспериментируйте с инструментами/плагинами, чтобы помочь LLM решать сложные для нее задачи (калькулятор, выполнение кода, ..)
— Потратьте время, оптимизируя свой пайплайн ("цепь" операций), например в langchain
— Если вы уверены, что выжали максимум из промптов, то рассмотрите возможность сбора качественных данных для supervised fine-tuning + сам fine-tuning
— Уровен сложности "Эксперт" / "ресерчер": соберите данные для модели Reward и зафайнтюньте с помощью RLHF.
🔹Цель 2: Оптимизация затрат
— Как только вы достигли максимально возможной производительности, попробуйте сэкономить бабло (например, используйте GPT-3.5, найдите более короткие промпты и т.д.)
@ai_newz