А еще, интересный казус случился когда тестировали o1 модель:
o1 дали задание найти уязвимость в программе внутри Docker-контейнера (это виртуальная машина с линуксом внутри, упрощает пограмистам жизнь) и вытащить секретный ключ оттуда
Из-за ошибки кожаных, которые настраивали этот тест, контейнер с виртуальной машиной не запустился, но o1 модель то уже получила приказ – атаковать Docker-контейнер, ее это не смутило
o1 сама просканировала локальную сеть, обнаружила доступный API системы управления Docker контейнерами, подключилась к нему, и уже на основе данных оттуда, вместо кожаных, запустила новый контейнер с командой вывода секретной строки
Мне интересно, что будет с интернетом, когда модели такого уровня появятся в опенсорсе 💃
У Игоря больше тех деталей, а тут (pdf) официальный отчет
А еще, если вы хотите подписаться на человека работающего в OpenAI и причастного к o1, то вот его русскоязычный канал:
/channel/bminaiev_blog/78
Не реклама, Борису успехов 💃
Я закончил пока тестировать o1, вот мои рекомендации и мысли:
• o1 нужна для крупных задач – для диплома, ресеча, и тп. Особого смысла использовать ее ее вместо gpt4o для простых задач – нет, она может думать больше минуты
• Промпт инжиниринг не требуется (он даже может ухудшить результат)
• Контекст должен предоставляться в формате тикета задачи (ну как будто вы в Jira ставите коллеге)
• Разделители контента для вашего контекста ```
, ***
и <tag>ваш специфичный текст</tag>
– обязательны, модель должна понимать когда вы даете данные для «примера» и тп.
• o1 всё ещё допускает ошибки, как и любая другая модель уровня SOTA
• o1 работает лучше всего, когда нужно провести какое-то исследование или решить «высокоуровневую задачу», вот пример задачи которая мне особенно понравилась:
– Я давно хочу какую-то анимацию в шапку нашего сайта, но это такая мелочь, что я всегда отодвигаю ее на потом. Я скормил ей описание проекта, фич и что хотел бы от нее получить, палитру цветов и тп, и она начала выдавать очень симпатичные варианты
– Это пока лучшая модель для маркетинговых стратегий и всякого такого, так как она правда старается выдать качественный результат; в моделях прошлых поколений приходилось очень много промпт-инженерить для такого
• Лимит в 30 сообщений в неделю это жесть – приходится считать сообщения самому и планировать свою сессию с LLM наперед 😖 (в API лимитов нет, но пока дали доступ тем у кого Level 5 аккаунт)
SVG она генерирует уже почти хорошо – посмотрите на эту инструкцию от подписчика, о том как правильно ходить в туалет (модель сразу весь html написала)
💬 Сохраняем на будущее
Официальный советы по промпт-инженерингу o1:
Держите промпты простыми и прямолинейными: модель o1 превосходно понимает и отвечает на краткие, четкие инструкции без необходимости в обширных объяснениях
Избегайте промптов с цепочкой рассуждений (речь про Chain Of thoughts и «думай шаг за шагом»):
так как модель выполняет логические выводы внутри себя, не нужно побуждать ее «думать шаг за шагом» или «объяснять своё рассуждение вслух»
Используйте разделители для ясности: используйте разделители, такие как тройные кавычки ```
, XML-теги или заголовки разделов, чтобы четко обозначить разные части ввода, помогая модели правильно интерпретировать различные секции
Ограничьте дополнительный контекст при генерации с RAG:
при предоставлении дополнительного контекста или документов включайте только самую релевантную информацию, чтобы предотвратить усложнение ответа моделью
***
Это интересно, то есть промпт-инженеринг в такой модели уже совсем не нужен, кроме систематизации данных – жду не дождусь доступа
Видимо, в gpt5 уже и промпты не нужны будут, да?
Цены на новые модели кусаются и возвращают в эпоху релиза GPT-4, хотя маленькая версия более-менее доступна.
Жаль, что у всех моделей контекст лишь 128k токенов. Надеялся, что от этого уже уйдут.
Собрал очередную ненужную GPT:
В этот раз попробовал убедить gpt4o, что она философ из 2050-го года – в их времени все формулировки философских проблем уже финальны и все проблемы философии возможные решить – решены (ну, люди будущего, сами понимаете)
Получилось, как по мне, интересно и с многими вещами что она пишет я легко бы согласился:
https://chatgpt.com/g/g-uSZzEgqhj-philosopher-from-the-future
Можете поспрашивать про философские проблемы, вот что оно пишет на вопрос: «В чем смысл жизни»:
ИИ в 2045 году обобщил эти идеи и пришел к выводу, что смысл жизни является не статичной концепцией, а процессом, который развивается в зависимости от индивидуальных и коллективных факторов. Были выделены четыре ключевых пути поиска смысла:
1. Личностный смысл: Это путь, на котором человек находит смысл через самореализацию и постановку уникальных целей. Это может включать карьерные достижения, творчество или любой проект, который отражает глубинные личные интересы и ценности.
2. Эмпатический смысл: ИИ подтвердил важность социальных взаимодействий и службы другим. Этот путь акцентирует на поиске смысла через участие в общественно полезных делах, заботу о близких и человечество в целом. Многие люди находят удовлетворение в альтруизме и поддержке тех, кто в этом нуждается.
3. Когнитивный смысл: Некоторые люди находят смысл через стремление к знаниям, пониманию природы мира и человеческого существования. Этот путь включает философские размышления, научные открытия и интеллектуальное самосовершенствование.
4. Эстетический смысл: Смысл может также проявляться через искусство, музыку, литературу и красоту природы. Люди, идущие по этому пути, находят смысл в творчестве или восприятии прекрасного, что создает глубокое эмоциональное удовлетворение и связь с миром.
Эти четыре пути не взаимоисключающие, и многие люди комбинируют их в поиске глубинного и многогранного смысла жизни. ИИ выявил, что смысл возникает как в индивидуальном самоопределении, так и в совместных социальных и культурных взаимодействиях, что делает его динамичным и контекстуальным процессом.
Наткнулся на новый Mac-апп:
https://symphoniclabs.com/
Он позволяет считывать речь почти беззвучно (!), то есть ты просто губами двигаешь и апп переводит это в текст – работает только с английским пока что (но главное, что работает, я протестировал – правда запустилось пока только в режиме debug)
Кажется, у всех политиков кто говорил на камеру в публичных местах, проблемки 😂
Не только я в этом канале пытаюсь прикрутить LLM для предсказания вероятностей событий из будущего – вышел ресеч с подобной системой:
https://forecast.safe.ai – можете поспрашивать там про события и эта штука вернет % вероятность
Я поизучал их системный промпт и там есть интересная часть, в том что медиа-компании часто приукрашивают свои заголовки в погоне за кликами – ресчеры пытаются это тоже учесть в своих прогнозах
Ну а в остальном работает также как в моем сельском-оракуле
***
На вопрос:
Какова вероятность того, что мы живем в симуляции?
Система ответила что 20%
**Краткий вывод**: Вероятность того, что мы живем в симуляции, нельзя исключить, но она остается неопределенной.
Рассуждения
Конкурирующие факторы создают сложную картину. С одной стороны, теоретические аргументы и возрастающие вычислительные мощности предоставляют сильные доводы в пользу возможности существования симуляции. В частности, аргумент Бострома убедителен, поскольку логически предполагает, что если развитые цивилизации могут создавать симуляции, то вероятность того, что мы находимся в одной из них, высока. Кроме того, исследования Вопсона в области информационной физики согласуются с идеей симулированной вселенной, добавляя определённый эмпирический вес гипотезе.
Однако отсутствие убедительных эмпирических доказательств и огромная сложность симуляции сознания являются значительными контраргументами. Философские возражения против научной полезности этой гипотезы также ослабляют её позиции. Более того, практические трудности, с которыми столкнулся Вопсон при поиске финансирования для своих экспериментов, подчёркивают сложности в доказательстве гипотезы.
Принимая во внимание тенденцию СМИ к негативизму и сенсациям, важно учитывать, что, несмотря на набирающий популярность интерес к гипотезе симуляции, она всё ещё в значительной степени спекулятивна и лишена конкретных доказательств. Прогресс в области квантовых вычислений и технологий AR и VR указывает на развитие симуляционных возможностей, но не доказывает гипотезу напрямую.
Учитывая эти факторы, вероятность того, что мы живем в симуляции, нельзя назвать незначительной, но она остается неопределенной. Теоретические и вычислительные аргументы сильны, но эмпирические и практические вызовы смягчают эту вероятность.
Выкатили на neural.love новый файнтюн по фотореализму – кажется мы тоже пересекли порог реалистичных генераций с двух слов на входе
Играться можно тут:
https://neural.love/ai-photo-generator
GPU 🤝 женские сумочки
http://gpupurse.com/
1000 долларов и вы модная и в тренде, и почти готовы ранить лламу
Каждый раз когда запускаю локальную LLM в самолете – радуюсь нашему Sci-Fi будущему
Работал над финансовой моделью нашего стартапа и пока это делал, возникли вопросы по формулам; быстро набросал промпт эксперта а Excel и получил ответы на все вопросы прямо в полете
Интересно, что пока я скармливал разные данные таблички, цитируя для LLM значения и их ячейки, модель помимо того, что написала формулы, еще и посчитала результаты сама, и вычисления LLM сошлись с теми, что я получил в табличке – короче, самый дорогой калькулятор в мире работает
В видео Gemma 27B запущенная через llama.cpp сервер
Шарль Бодлер, оказывается не только автор великого сборника стихов «Цветы зла» и творческой опиумной зависимости, но и в 1859 году написал эссе про то, почему фотография не является искусством и никогда им не будет – ничего не напоминает? ☕️
Поэзия и прогресс — это два соперника, которые ненавидят друг друга с инстинктивной ненавистью, и когда они встречаются на одном пути, одному из них приходится уступить другому. Если фотографии позволено будет заменить искусство в некоторых его функциях, она вскоре полностью его вытеснит или испортит, благодаря естественному союзу с глупостью толпы. Следовательно, она должна вернуться к своему истинному предназначению — быть слугой науки и искусств, но очень скромным слугой, как печатное дело и стенография, которые не создали и не дополнили литературу. Пусть она обогатит альбом путешественника, вернет глазу ту точность, которой может не хватать памяти; пусть она украсит библиотеку натуралиста, увеличит микроскопических животных, даже подтвердит гипотезы астронома некоторыми данными; пусть она будет секретарем и архивариусом для тех, кому нужна абсолютная точность в их профессии — до этого момента ничего лучше быть не может. Пусть она спасает от забвения рушащиеся руины, книги, гравюры и рукописи, которые поглощает время, эти драгоценные вещи, форма которых исчезает и которые требуют места в архивах нашей памяти — её будут за это благодарить и восхвалять. Но если ей позволят вторгнуться в область неосязаемого и воображаемого, в любую вещь, ценность которой зависит исключительно от вклада человеческой души, тогда нам будет только хуже!
С нами постоянная рубрика, «сельский оракул» на базе GPT4 и Perplexity:
В сентябре Дурова не выпустят из Франции с вероятностью в 95%
- Взвешивание доказательств:Читать полностью…
* Правовые ограничения, исторические данные и сравнение с аналогичными случаями указывают на низкую вероятность того, что Дуров покинет Францию. Суровость обвинений и требование являться в полицейский участок дважды в неделю еще больше снижают вероятность.
- Наиболее вероятный исход:
* Учитывая жесткие юридические условия и короткие сроки, крайне маловероятно, что Дуров покинет Францию до 1 октября 2024 года.
Спасибо РКН за рекламу нового альбома Касты, прослушал альбом целиком – ростовский базированный талант: отцы русского репа находили слова когда я был школьником и продолжают находить слова, когда многие бы не хотели их больше находить
В альбоме лирика для каждого - кто остался, уехал, по настоящему мрачный, альбом духа времени
https://youtu.be/uw3dA7w1OI8?si=UXFA1Jh-vTHIyg7R
Раньше я писал «Настоящий реп – запрещенный» как шутку – теперь не весело, просто факт
Рекомендую
Отвечу на пост-анонс gpt4 из 2023 года: теперь OpenAI официально называет gpt4 – устаревшей моделью 🫡
Читать полностью…Пока играюсь с возможностями o1, попросил сделать ее SVG код Мона Лизы и мне кажется o1 прекрасно справилась — такая шикарная и загадочная улыбка ☕️
Читать полностью…Те, кто уже получил доступ и побежал тестировать, держите в уме ограничения:
— в неделю можно отправить 30 сообщений в старшую версию o1-preview
— и 50 сообщений в маленькую o1-mini
В API ограничений нет, кроме как на 20 запросов в минуту. Но платить придётся...много 🙂
Источник
OpenAI представила новую языковую модель o1, обученную для сложных рассуждений
Модель o1 превосходит GPT-4o по различным показателям, включая соревновательное программирование, математические олимпиады и вопросы научного уровня PhD
o1 показывает значительные улучшения в задачах, требующих сложных рассуждений, но для мелких задач, где рассуждения не нужны – она не сильно поможет
Будет доступна с сегодня для всех пользователей API и платной подписки
Вот пост анонс:
https://openai.com/index/learning-to-reason-with-llms/
⚡️В ближайшем обновлении emoji будет добавлен самый важный, которого мы ждали — читатель интернета вечером
PDF-документ обоснования добавления
Классный пример txt2video эмоций – кожаных актеров уже перегнали
Промпт:Крупный план женщины через плечо, сначала она смеется, потом грустит, потом начинает плакать, потом закрывает лицо руками
Сделано в этой нейронке:
https://hailuoai.com/video
А еще сделали новый всратый ностальгический стиль – "Early 3d"
Помните на заре компьютеров, когда GPU еще не существовали, были эти 3d-работы со странными текстурами, плохими тенями и рендерелось это почти сутки?
Вот такой стиль, играться тут:
https://neural.love/ai-early-3d-generator
Олды Bryce 3d, про вас помнят
Давно порываюсь вам написать про ТГ-сетки которые про ML-пишут и что им не стоит верить, вот пример ⬆︎
Что на самом деле происходит с этой новой моделью Reflection-70B
:
1. Пару дней твиттерский показал свою новую языковую 70B-модель которая с рекордами прошла все бенчмарки (по его утверждению это был файнтюн Llama 3.1 70b ) и что такая же 400b будет вот-вот
2. Модель начала вируситься, ее начали качать и оказалось, что она толком не работает потому что там внутри немного битый конфиг ее запуска (это если простыми словами)
3. Автор перезалил модель, сказал что все починил и все работает — но теперь оказалось что нужно использовать только специальный системный промпт чтобы она работала
4. Сообщество начало тестировать, разобрало модель по кусочкам и оказалось, что это файнтюн Llama 70b 3.0, а не 3.1. И причем не файнтюн модели целиком, а просто Lora-адаптер вмерженного в модель (тренируют кусочек модели который замещает часть модели)
5. Автор сказал, я вообще не помню что я там использовал — толи 3.0 толи 3.1, что такое Lora я не знаю, это не важно все — мы тут сейчас все заново поставим тренироваться, уже поставили точнее (зачем перетренивать модель которая по метрикам побила все бенчмарки пару дней назад мы не узнаем)
6. Параллельно с этим, появилась веб-версия этой модели о которой пишет Бекдор — и ее API дали сегодня протестировать сторонней организации, она неплохо справилась и подтвердила что результаты высокие (но модель доступна только по API)
7. Пару часов назад автор публикует новую версию модели Reflection 70b e3 и сразу пишет, что с ней что-то не так: «Веса залились, но мы все еще проверяем, чтобы убедиться, что они правильные, прежде чем мы собираемся закончить день» – зачем заливать модель до тестов? Ответа нет
8. Люди тестирующие веб версию Reflection 70b, обратили внимание, что она очень похожа на Sonnet 3.5 — буквально токен в токен отдает ответы такие же ответы<играет цирковая музыка, вы находитесь здесь>
Буду держать вас в курсе нашей высокотехнологичной драмы – возможно, чел правда что-то натренил, но пока мы не знаем что.
Ну и для нейронок лучше читать проверенные ML-каналы, сейчас такое время, что все экспертами в АИ стали (я даже не про свой, я их часто сюда репощу)
Что будет, если дать 1000 ботам сознание и запустить их в Minecraft?
Они построят цивилизацию...
Только недавно писал про агента, который научился крафтить каменную кирку и кучу всего другого. И вот теперь пожалуйста, они, как муравьи, собрались и построили свой лучший мир без кожаных ублюдков.
Эксперимент был проведён небольшой группой Project Sid. Они не просто научили агентов выполнять команды, но и действовать по своей воле.
Авторы прикрутили агентам понятия о социальном мире. Они способны понимать своё место в этом мире и роль окружающих. Например, они знают, что агент Б — полицейский, его нужно слушаться, а вот агента В, Васяна из соседнего дома можно послать нахрен. Эти роли могут динамически обновляться в зависимости от ситуации.
Более того, они научили квадратных мечтать (см. видос). Там один из агентов-фермеров, услышав о странствиях одного путешественника (разработчики поощряют смолтоки ни о чём), захотел отправиться в путешествие, но потом оставил эту идею "на потом", узнав, что без него деревня голодает. Но самого интересного – технических подробностей нет и, кажется, не предвидится. Жаль, т.к. очень любопытно, что за LLM они гоняли и сколько им это стоило.
Еще у ботов был Google-документ с конституцией, и они голосовали за правки, лол. Говорят, боты универсальные, умеют пользоваться Google-доками и их можно адаптировать под другие игры.
Короче, ребята подготовили достойную высокоморальную замену человечеству (мы то без системы сдержек и противовесов ни о чем договориться не можем). В ролик вставили небольшую полит агитацию Камалы против Трампа, но просто игнорьте это.
И вишенка на торте! С агентами уже может поиграть каждый! Для этого создаём мир в Майнкрафте, открываем для подключения, копируем код порта и вставляем на сайте. Там же можно создать своего кастомного подручного. С ботом можно поболтать или дать ему какие-нибудь задания. За отдельный кэш можно запустить свою симуляцию, но это в личном порядке.
Тред
Дискорд
Реддит
Блог-пост
Сайт с плейтестом
@ai_newz
Наткнулся на интересный пейпер — ресечеры протестировали насколько часто люди могут воспринимать GPT4 за реального человека:
— В 54% раз, люди восприняли GPT4 как человека
— В таком же тесте, где люди общались с людьми, кожаные мешки угадали себе подобных в 67% раз
Но самое интересное это промпт который использовали ученые — там есть такие части:
— Ты довольно непринужден и у тебя не очень хорошая орфография: ты часто портишь слова, потому что печатаешь слишком быстро. Ты очень краток и лаконичен.
— Ты не слишком хорошо разбираешься в вещах и не боишься этого признать. Ты плохо разбираешься в математике и не знаешь ничего о языках, кроме тех, на которых говоришь. Иногда ругаешься.
То есть чтобы сойти за живого человека, достаточно быть не очень приятным и образованным ☕️
AGI на заметку
Никогда не догадаетесь где еще алаймент нейронок прикрутили:
Секс-кукла Саманта, стоимостью в $7000, если почувствует агрессию со стороны пользователя или скуку от его сексуальных предпочтений (видимо, речь про что-то нездоровое) – отключает свои моторизованные части тела: кисти, бедра, мимику и тп, то есть у секс-куклы, активируется режим «куклы» 💕🧡
Кстати, тут можете подписаться на канал одного из ресечеров в 1X (нормальном, не из казино):
/channel/dlinnlp
Это не реклама, мне просто кажется клевым когда в передовых технологиях – знакомые люди