ruspm | Technologies

Telegram-канал ruspm - Product Management & AI

25067

Product Management & AI Occultism, Philosophy & Logic. AI is A NEW RELIGION™ YO: @mirvla (C-f 𓇶 Meteoagent.com, f & c-o E-pepper.ru, author exp.fm/posts/25) SATOR AREPO TE8ET OPERA ROTAS

Subscribe to a channel

Product Management & AI

Вышли записи с Turbo ML Conf 2024:

Интересное:

– Подходы к построению LLM-приложений
LLM для автоматизации поддержки
– Cильная LLM на основе открытых моделей
– Вредные LLM‑советы для продактов

Все доклады тут
@zheltyi_ai 🤜🤛

Читать полностью…

Product Management & AI

Как сравнивать и выбирать подходящие модели данных для DWH расскажут 27 августа на вебинаре OTUS.

Программа занятия:

– основные модели данных для DWH;
– применение Data Vault и якорной модели;
– подводных камни в стандартных подходах.

Спикер Андрей Поляков — старший разработчик сервисов платежных систем в Unlimint.

👉 Бесплатное участие

Занятие проходит в преддверии старта курса «Data Warehouse Analyst». Все участники вебинара получат специальную цену на обучение. Реклама. ООО «Отус онлайн-образование»

Читать полностью…

Product Management & AI

ProductCamp Лето '24 – самая ламповая конфа для тех, кто помешан связан с разработкой продуктов.

23 - 25 августа
Загородом и онлайн


🫴

Читать полностью…

Product Management & AI

Джони Айв о том, как он и Стив Джобс поняли, что видят мир одинаково:

«...Мы были в магазине в Италии. Стива заинтересовал нож, он взял его, посмотрел и положил назад. Я подумал: «О, хороший нож» и тоже взял его посмотреть.

Но взяв его в руки, я увидел крошечную неровность в месте соединения рукоятки и лезвия металла. И я понял, что это был клей.

И теперь это был уже не нож. Это был просто кусок металла, приклеенный к рукоятке


И мы со Стивом поняли, что оба ощутили это.

Я думаю, что в этом есть некое чудесное осознание, когда ты понимаешь, что ты такой не один. И со Стивом мы поймали его весьма рано».

Читать полностью…

Product Management & AI

Узкое место Неймана (Von Neumann Bottleneck) — явление, при котором производительность или пропуская способности Системы ограничена одним или несколькими компонентами или ресурсами самой Системы(ой?).

VNB – это ограничение компьютерной архитектуры, которое происходит из-за того, что один и тот же канал/объект используется для 2+ операций, например, получения и данных и инструкций, а это означает, что в текущих условиях одновременно может происходить только одно из этих событий.

Есть 5 основных узких мест VNB:

1. Узкое место памяти. Центральному процессору необходимо постоянно обращаться к памяти как для программного кода, так и для данных, что приводит к задержкам.

2. ЦП теряет время, поскольку инструкции и данные проходят по одному и тому же каналу, а это означает, что он может обрабатывать инструкции только после поступления данных.

3. Узкое место ядра. В 2000 году процессоры не могли выйти за пределы определенной скорости (иначе они выделяли слишком много тепла), что привело к появлению многоядерных процессоров.

4. Узкое место в когерентности кэша (свойство, означающее целостность данных) при использовании многоядерных процессоров затрудняет согласованность данных в 2+ кэшах.

5. Узкое место соединения. Растущий объём данных и ПО провоцирует рост скорости передачи данных, что приводит появлению узкого места в соединениях между различными компонентами системы.

Проблемы VNB решаются с разной степенью успешности различными способами:

– Кэш-память. Один из способов — поместить критическую память в легкодоступный кэш для ускорения извлечения данных.

– Многопоточность и параллельная обработка позволяют сократить время обработки за счёт одновременной обработки различных частей задачи несколькими процессорами с установленнымм между ними приоритетами.

– Конструкция Памяти. Улучшение конструкции архитектуры памяти увеличивает пропускную способность памяти, входящей и исходящей от ЦП.

– Не-VNB Системы. Эти системы моделируются на примере работы систем из биологического мира (например, экосистемы грибов или системы квантовых вычислений), что позволяет распределенно использовать память (по сравнению с линейной системой, используемой в традиционной компьютерной архитектуре).

– Гарвардская архитектура — это компьютерная архитектура с раздельным хранением и сигнальными путями для инструкций и данных.

– Мемристоры. Компоненты, которые обрабатывают данные непосредственно там, где они хранятся, устраняя необходимость передачи данных между памятью и процессорами и сохраняя это состояние памяти после того, как они были отключены.

Оптические вычисления. Для этого типа вычислений данные передаются с помощью света, а не электрических сигналов, что делает скорость передачи быстрее и снижает потребление энергии.

Читать полностью…

Product Management & AI

🌡️ Средняя температура по больнице удержание и вовлечение по рынку по самым известным продуктам

Читать полностью…

Product Management & AI

Разминаем мозги с теорией иерархически-механистического разума (The Hierarchically Mechanistic Mind, HMM).

Мозг – сложная адаптивная Система, которая активно минимизирует энтропию сенсорных и физических состояний человека, генерируя циклы действия-восприятия


HMM объединяет две взаимодополняющие точки зрения на мозг:

– Разум работает по принципу свободной энергии "free-energy" (обеспечивая биологически правдоподобную математическую модель функций мозга);

2) нейронные структуры и функции мозга возникают из причинно-следственных механизмов, которые формируются системой "мозг-тело-окружающая среда" в различных временных масштабах и рамках.

Согласно этой точке зрения, настроение напрямую влияет на реакции в мозге, вызывая изменения в восприятии им окружающей среды и факторов, например, чрезмерной чувствительность/бесчуствию к рискам, которые находят своё отражение в дальнейших действиях или умышленном бездействии по отношению к ним.

Ещё больше умных слов: https://www.sciencedirect.com/science/article/pii/S1571064519300028

Читать полностью…

Product Management & AI

Наглядная визуализация работы LLM или что скрывается за чатом с ИИ: данные, абстракции, вычисления, сложность и размеры тензоров, веса + масштабы расчётов для разных моделей (на видео самая маленькая).

https://bbycroft.net/llm (пояснения)

Юзер: «приветкакдела»
ИИ: ...

Читать полностью…

Product Management & AI

Путь пользователя (CJM) — это путь, который проходит пользователь для достижения своей цели при использовании продукта.

Критический путь пользователя (CUJ) — это UX-инструмент, который отображает ключевые взаимодействия между пользователем и продуктом.

Два типа CUJ:

Критические пути с трафиком (наиболее вовлеченный путь пользовательских активностей).

Критические пути с деньгами (пути, приносящие от пользоователей деньги).

Критический UX/CJM связано с бизнес-целями, в то время как общие карты создаются для отображения всего опыта клиента и снижения его помех в целом.

📕 Пошаговые советы по оптимизации CJM от Nilsen:

1. Ищите моменты, где ожидания пользователей не оправдываются.

2. Определите ВСЕ ненужные точки соприкосновения и взаимодействия с пользователями.

3. Определите слабые стороны в этих точках.

4. Найдите места перехода каналов с высоким коэффициентом трения (веб<->мобайл, страница<->подстраница, фича<->подфича).

5. Оцените время, затраченное пользователем на основные этапы его путешествия.

6. Ищите Моменты Истины.

7. Определяйте "высокие точки", где ожидания пользователей оправдываются и превосходятся.

Счастливый путь — это идеальный путь без ошибок, описывающий каждый шаг, который должен сделать пользователь, чтобы получить идеальный результат.


Больше о CJM:

– 7 Ways to Analyze a CJM
– First-Time User Experience (FTUX)
– 7 метрики принятия продукта
– Жизнь после CJM

Читать полностью…

Product Management & AI

STORM — свежая ИИ-система от Стэнфордского университета, демонстрирующая работу Агентских Систем.

Фреймворк STORM может использовать большие LLM и моделировать многосторонние разговоры и решения между ИИ-агентами, объединёнными в Агентскую Систему.

Агентские Системы — это глобальные ИИ-фреймворки, построенные с помощью агентных сетей для выполнения множественных подзадач и имеющие определённую степень автономности.

В системе STORM работает несколько ИИ-агентов:

Исследовательские агенты, которые отвечают за сбор информации по теме из различных источников в Интернете.

– Агенты, задающие вопросы, которые моделируют различные точки зрения, чтобы задавать содержательные вопросы по теме исследования.

– Агенты-эксперты, которые дают ответы на вопросы, заданные агентами, задающими вопросы.

– Агенты синтеза, которые объединяют и организуют собранную информацию в целостную структуру.

Работы STORM состоит из 3 этапов:

1) Извлечение. Получив тему, STORM отправляет свою команду агентов на поиски в Интернете соответствующей информации из различных источников.

2) Далее STORM имитирует беседы, в которых другие агенты представляют разные точки зрения и задают вопросы эксперту по теме, помогая агентам развить всестороннее понимание темы исследования.

3) Синтез. Наконец, STORM синтезирует все собранные данные в связанный, хорошо организованный и структурированный ответ в духе профессиональной статьи с Википедии.

🌊 https://storm.genie.stanford.edu (manual).

IV ;)

Читать полностью…

Product Management & AI

Советы как писать заметки по совещаниям и встречам

Секрет успешного развития команды и продукта не только в эффективных встречах и совещаниях, но и в... том, как ведутся заметки по ним.

В большинстве крупных компаний цель встреч состоит в том, чтобы назначить ещё одну встречу


В итоге, все встречи смешиваются друг с другом, не прогрессируя и не достигая никаких целей.

Секрет успешных совещаний в выполнении элементов действий.

Элемент действия — задача, которая отвечает на 3 вопроса и вносит ясность в то, что нужно сделать:

1) Кто? Это не только тот, кто отвечает за задачу (вы или коллега), но и тот, с кем вы будете работать или другие люди, от которых вы зависите в завершении этой задачи.

2) Что? Это краткое описание задачи в виде одного-двух предложений с использованием глаголов действий (например, "Просмотреть бэклог продукта и подготовить идеи по приоритизации фич на следующий квартал") .

3) Когда? Это конкретная дата и время, когда действие должно быть завершено или продолжено(!!!).

🎁 Полезные советы:

– Заметки о встречах не являются протоколами собраний.

Записывая прошлое, твои мысли должны быть направлены исключительно в будущее


– Вы должны использовать заметки как возможность зафиксировать все идеи и мысли, которые приходят вам в голову во время встреч.

– Относитесь к записям совещаний как самым актуальным корпоративным знаниям.

– Ведение заметок от руки заставляет вас быть экономным и сфокусированным (не пытайтесь записать всё).

– Сделайте свои заметки "сканируемыми". Используйте разные стили и форматы для выделения важных моментов.

– Выберите "правильный метод" для "правильной встречи".

– Главный вопрос любой встречи: «А в чём смысл этой встречи?»

Неизвестно, что появилось первее – правильная встреча или правильная заметка по встрече

Читать полностью…

Product Management & AI

«Большие идеи» и банк «Точка» рассказывают о масштабировании бизнеса в исследовательском спецпроекте для управленцев и предпринимателей «Точка роста».

Проект состоит из пяти материалов, где каждый посвящен одной из проблем, с которыми компании сталкиваются в процессе роста.

«Не по размеру» — о том, что делать предпринимателю, если размер компании перерастает масштабы его личности.

«Культура роста» — как сохранить в растущей компании культуру и ценности проекта.

«Трансформация всего» — как контролировать операционные процессы во время перехода в сегмент крупного бизнеса.

«Вовремя остановиться» — как решить проблемы, связанные с неустойчивым ростом.

«Остаться на вершине» — как удержать успех и всегда ли остановка масштабирования — это плохо.

🪜 Cерия материалов «Точка роста»

Каждый материал — мультиформатная история с разборами кейсов в формате текста, видео и аудио.

Среди спикеров — CEO и основатели Flowwow, SkyEng, Sokolov, Whoosh, «ВкусВилла», «Алгоритмики», «Азбуки Вкуса» и других известных компаний.

С каждым материалом читатели также получают чек-лист для проверки собственного бизнеса, а в конце проекта фреймворк — «рабочую тетрадь», которая поможет организовать и провести со своей командой полноценную стратсессию на тему масштабирования. Реклама. АО «Точка»

Читать полностью…

Product Management & AI

Приложения онлайн-знакомств теряют MAU по всему миру:

Случайность, которую создавали дейтинг-приложения, наскучила в реальности


+ Боты, фейковые профили, скам – стандартный набор гвоздей в крышку любых продуктов-сетей.

+ Верификации, платные функции и тёмные игровые паттерны – золотые гвозди вторым рядом.

+ Неорганические драйверы роста в виде ковида – траурный венок.

+ Погоня за социальным одобрением – реквием по Мечте.

Нынешний Tinder, Bumble и прочие показывают по-настоящему "случайных людей", а реальные люди перетекли решать свои проблемы... на OnlyFans, который растёт.

[Место для шутки про фокус на решении главной пользовательской кхм... ну, вы поняли]

На видео: в Китае замутили свой оффлайн-Тиндер в местном парке, где только слова 💗

Читать полностью…

Product Management & AI

Как применять нотацию BPMN (Business Process Model and Notation) в аналитике и рисовать бизнес-процессы расскажут на вебинаре 15 августа.

Программа занятия:

– инструменты для моделирования бизнес-процессов в нотации BPMN;

– обзор возможностей сервиса BPMN IO;

– рисуем пример бизнес-процесса.

👉 Бесплатное участие

Занятие проходит в рамках курса «BPMN: Углубленная практика», доступно по спец. цене и в рассрочку. Реклама. ООО «Отус онлайн-образование».

Читать полностью…

Product Management & AI

Присоединяйтесь к кейс-чемпионату «Яндекс Концепты» — создавайте рекламные инструменты нового формата и поборитесь за призовой фонд в 1,000,000 рублей!

«Яндекс Концепты» — это командный кейс-чемпионат от Яндекс Рекламы для специалистов в области управления проектами, маркетинга, аналитики и развития бизнеса.

Задача на хакатоне:

Вам предстоит придумать новые рекламные инструменты, описать их суть, способы использования и рассчитать рыночный потенциал.

Доберитесь до очного финала, презентуйте свои идеи экспертам и поборитесь за призы:

🥇 1 место — 500,000 рублей;
🥈 2 место — 300,000 рублей;
🥉 3 место — 200,000 рублей.

Этапы хакатона:

до 19 августа — регистрация участников;
19–25 августа — первый этап: концепция инструмента;
2–8 сентября — второй этап: рыночный потенциал инструмента;
20–22 сентября — очный финальный питчинг.

Не упустите шанс превратить идеи в продающие, регистрируйтесь на "Яндекс Концепты"!

Читать полностью…

Product Management & AI

Google анонсировал обновление ИИ в Google Chrome

Chrome, supercharged with AI


– кросс-браузинг/сравние информации со всех вкладок;
– ИИ-ассистент во всех инпутах;
– распознавание на Ютубе;
– чат с Gemini AI в строке браузера;
– поиск по истории браузера с ИИ;
– Lens теперь тоже с ИИ.

Включить ИИ в Chrome: Settings > Experimental AI > Try out experimental AI features / Попробовать: Zen Browser

🧪 Exploring Google Chrome’s New Prompt API

Читать полностью…

Product Management & AI

ИИ дорвалась до рекламы: Perplexity AI сообщает, что начнёт продавать рекламу по модели CPM внутри своего сервиса

Рекламодатели смогут спонсировать «похожие вопросы» под сгенерированными Perplexity AI ответами, а также покупать медийную рекламу прямо в них.

Ключевые рекламные категории, выбранные машиной: технологии, здравоохранение и фармацевтика, искусство и развлечения, финансы, а также еда и напитки.

Стоимость тысячи рекламных показов может составить $50+ (обычная тысяча стоит около $2,50 на десктопе и $10 на мобайле).

А ещё в прошлом месяце Perplexity представила "Perplexity Publishers’ Program".

Каждый раз, когда пользователь задаёт вопрос и Perplexity получает доход за цитирование статьи в ответе, Perplexity делится процентом этого дохода с издателем (среди которых уже Fortune, Time, Entrepreneur, The Texas Tribune, Der Spiegel и... WordPress).

P.S. И всё это очень хорошо ложится на Perplexity Pages.

Новый Интернет уже почти создан под Wu-Tang Clan – C.R.E.A.M.

Читать полностью…

Product Management & AI

Обычное утро в Сан-Франциско: гугловские робо-такси Waymo сигналят другим робо-такси, которые тупят на выезде с парковки в 4 утра.

UPD. Небагафичу пофиксили "ещё неделю назад" сразу после сюжета в новостях, выпустив срочное обновление.

Самоуправляемые автомобили Waymo больше не сигналят, находясь рядом друг с другом (с) директор по продукту Waymo Вишай Нихалани


UPD2. Айтишница из дома напротив сообщает, что спустя неделю после апдейта, фича до сих пор в проде и гудит даже по субботам, а в качестве пруфов запустила live-стрим на ютубе с той самой парковки 🪿

Читать полностью…

Product Management & AI

22 августа в 20:00 OTUS проводит вебинар "From Zero to Hero: проходим испытательный срок тимлида"

Вебинар будет полезен начинающим тимлидам и менеджерам, которые хотят войти в новую для себя роль, сократив количество ошибок на старте.

Спикер Александр Пряхин — технический руководитель юнита в Авито.

👉 Бесплатное участие

Занятие проходит в преддверии старта курса «Team Lead», на котором все участники также получают скидку на обучение. Реклама. ООО «Отус онлайн-образование»

Читать полностью…

Product Management & AI

Только начинаете свой путь в системном анализе и не уверены какие навыки нужны для развития карьеры?

Присоединяйтесь к открытому вебинару OTUS «Навыки системного аналитика: что важно и откуда начать».

Программа занятия:

– ключевые навыки системного аналитика;
– рекомендации по началу карьеры и путям развития;
– советы и инструменты для повышения квалификации.

👉 Бесплатное участие
22 августа в 20:00 мск

Занятие проходит в рамках курса "Системный аналитик", доступном по по спец. цене и в рассрочку. Реклама. ООО «Отус онлайн-образование»

Читать полностью…

Product Management & AI

В AppMetrica появились инсайты, которые анализируют динамику ключевых метрик приложения.

Новая фича позволяет оперативно отслеживать значимые колебания по времени и частоте использования приложения, а также упрощает отслеживание динамики ключевых метрик (DAU/WAU/MAU, Sticky Factor, ARPPU, ARPWAU), экономя время на изучении отдельных отчётов и сопоставлении данных.

Функция уже доступна владельцам и пользователям с правами чтения и редактирования в AppMetrica.

Читать полностью…

Product Management & AI

100 дней на позиции CTO могут стать либо триумфом, либо провалом.

На завтрашнем вебинаре "Первые 100 дней на позиции CTO" обсудят как избежать ошибок и успешно пройти этот этап:

– популярные ошибки CTO;
– на чём лучше фокусироваться;
– план развития на позиции;
– чек-лист "Оценка компетенций CTO"

👉 Бесплатное участие

Открытый урок приурочен к старту курса "CTO/Технический директор", доступный по спец. цене и в рассрочку. Реклама. ООО «Отус онлайн-образование»

Читать полностью…

Product Management & AI

Сложности с взаимопониманием в команде по понедельникам?

Поможет универсальный международный IT-словарь:

Dogshit – Very poor quality
Ratshit – Poor quality
Dipshit – A total dumbass
Deep shit – A lot of trouble
Deep shit – Rabbit hole
Chickenshit – Cowards
Tuff shit – Take it or leave it
Bullshit – Not true
Horseshit – Nonsense
Apeshit – Rambunctious
Batshit – Insane
Jack shit – Nothing
No shit – Obviously
Good shit – Good quality
Hot shit – Very good
Epic shit – Colossal
Holy shit – Unbelievable


The Shit Perfection

☕️

Читать полностью…

Product Management & AI

Совместная программа ИТМО и Нетологии приглашает в онлайн-магистратуру «Цифровые продукты: создание и управление».

2 года обучения охватывают все этапы работы над продуктом, а практика в ведущих компаниях рынка, таких как МегаФон и Авито с первого семестра поможет наполнить портфолио реальными кейсами.

Ментор программы — Head of Product в СКБ Контур.

👉 Больше подробностей

Магистрантов поддерживают в выборе карьерного трека и трудоустройстве. Если захотите, вместо диплома сможете защитить свой стартап и получить грант на его развитие.

Реклама. ООО "Нетология". ИНН 7726464125 Erid:LjN8KXFTG

Читать полностью…

Product Management & AI

Отдельные вопросы оцифровки бизнес-процессов в IT-системах и моделирование протекающих в них потоков данных разберут на вебинаре OTUS 19 августа.

Программа занятия:

– генерирующие и потребляющие информацию процессы;

– последовательности работ людей, машин, времени;

– как создавать целостные интегрированные системы.

👉 Бесплатное участие

Занятие проходит в рамках курса «Автоматизация бизнес-процессов и интеграция IT-систем», доступном по по спец. цене и рассрочку. Реклама. ООО «Отус онлайн-образование»

Читать полностью…

Product Management & AI

Статистика и тренды игрового рынка 2024 по версии Newzoo

– Кол-во игроков в 2024: 3,42 миллиарда (+4,5% YoY).

– 53% игроков в Азиатско-Тихоокеанском регионе (1,809 миллиарда; +4% YoY), MENA-регион (559 миллионов; +8,2% YoY); Европа (454 миллиона; +2,4% YoY); Латинская Америка (355 миллионов; +5,6% YoY); Северная Америка (244 миллиона; +2,9% YoY).

– Прогноз роста по игрокам к 2027 году: 3,759 миллиарда человек.

– Объём игровой индустрии по итогам 2024: $187,7 миллиардов (+2,1% YoY).

– К 2027 году игровой рынок достигнет выручки в $213,3 миллиардов.

Тренды

1. Комфортнее всего себя чувствуют инди-разработчики и проекты AA-уровня, т.к. на их разработку тратится меньше ресурсов, комады могут экспериментировать и нет давления больших бюджетов.

2. Поэтому разработчики осознанно уменьшают масштаб своих проектов.

3. Мобильная игровая экосистема обретает второе дыхание благодаря европейскому DMA, допускающему новые разные платёжные методы на iOS и Android.

4. Лояльность и коммуникации с пользователями по-прежнему играют ключевую роль в развитии игрового комьюнити.

7. Gen-AI продолжает всё глубже проникать в разработку, но массовых и известных кейсов применения нет.

8. Для игроков поколений Alpha и Z предпочтения меняются в сторону UGC.

Читать полностью…

Product Management & AI

«Заходят тимлид и сотрудник сапорта в бар, а там матрица компетенций и руководитель в кресле...», который рассказывает:

– как развивать навыки сотрудников;

– как развивать компетенции команды;

– как оценивать адекватность зарплаты по пулу задач сотрудников;

– о чём говорить на Performance Review;

– и как не зависеть от конкретного сотрудника.

Матрица компетенций. О ней и поговорят 15 августа на вебинаре OTUS.

👉 Бесплатное участие

Понравится урок — можно продолжить обучение на курсе по спец. цене или в рассрочку. Реклама. ООО «Отус онлайн-образование».

Читать полностью…

Product Management & AI

О чём на самом деле думает венчур, когда вы с командой питчите в зуме свой стартап.

– Хороший стартап как хорошее вино 🍷

Читать полностью…

Product Management & AI

Продвижение продукта через главную страницу be like:

– Junior: предлагаю рассказать о продукте через его преимущества и выгоды.

– Middle: давайте покажем наш продукт через варианты его использования (use cases).

– Senior: го в главной всех без реги сразу в продукт онбордить.

– Head of Product: катим A/B, дальше смотрим.

– CEO: cameronsworld.net

Удачной недели ☕️

Читать полностью…

Product Management & AI

LLM-модели пока не всесильны.

Согласно недавнему исследованию, проведенному учеными из Суперкомпьютерного центра Юлиха, Бристольского университета и лаборатории LAION, даже самые продвинутые модели искусственного интеллекта для обработки естественного языка (LLM) демонстрируют серьезные проблемы с простейшими логическими задачами.

В своей работе "Алиса в Стране чудес: простые задачи, выявляющие полный крах рассуждений в современных крупных языковых моделях" исследователи обнаружили "резкое нарушение функций и способностей к рассуждению" у тестируемых LLM. Они предполагают, что хотя у моделей есть потенциал для базовых рассуждений, они не могут стабильно его реализовать.

Авторы призывают научное сообщество срочно пересмотреть заявленные возможности современных LLM и разработать новые стандартизированные тесты для выявления недостатков в их базовых навыках рассуждения.
Исследование сосредоточилось на простой задаче, названной "проблемой AIW": "У Алисы N братьев и M сестер. Сколько сестер у брата Алисы?". Несмотря на простоту задачи, которую легко решит ребенок младшего школьного возраста, языковые модели справлялись с ней лишь эпизодически.

Модели часто давали неверные ответы, сопровождая их псевдологичными объяснениями. Даже попытки исследователей побудить ИИ пересмотреть свои ответы не приводили к улучшению результатов.

В среднем частота правильных ответов у LLM была значительно ниже 50%. Более крупные модели, такие как GPT-4, показывали лучшие результаты (около 60% правильных ответов), но все равно недостаточные для модели с надежными базовыми навыками рассуждения.

Исследователи отмечают, что многие протестированные модели, несмотря на высокие результаты в стандартных тестах на рассуждение, не справились с простой задачей AIW. Это ставит под сомнение адекватность существующих методов оценки возможностей языковых моделей. Оригинальная статья

Читать полностью…
Subscribe to a channel