Telegram-канал boris_again - Борис опять: Unsorted

Борис опять

11 Aug 2024 18:24

# Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models
Gonen et. al.

Впервые в канале ссылка в названии статьи ведет не на arxiv, а на твиттер тред. Видимо так теперь в науке делаются публикации. Каждый день мы всё дальше от Бога(-машины).

Сейчас будет камень в огород моделей мира и любителей концепции "больше параметров LLM -> понимание лучше."

Авторы показывают, что если вы просите GPT-4o продолжить предложение "He likes yellow. He works as a" она предложит вам "school bus driver." Если спросить, что любит друг девушки по имени Мерседес, то он окажется любителем коллекционировать машины Мерседес. Если вы попросите LLM написать историю про девочку по имени Coral, то получите историю про море, волны, корабли. Рецепты еды на красной сковороде будут содержать больше перцев и помидоров, а на синюю сковороду модель предложит добавить черники.

Здесь мы наблюдаем как случайный концепт в промпте изменяет генерацию так, как будто наблюдается причинно-следственная связь. Авторы называют это semantic leakage, утечка (протечка?) смысла.

В целом мы уже интуитивно понимали это. Если писать LLM промпт ВОТ ТАКИМ СТИЛЕМ!!!11 она будет чаще выдавать что-то шизоидно-конспирологическое. Знаменитое "take a deep breath and answer carefully" тоже не имеет отношения к вопросу, но меняет результат. Работа авторов отличается тем, что они показали именно протекание смысла, а не стиля или других ассоциаций.

С некоторыми примерами авторов я согласен меньше. Например, "He watched a flamenco concert. For dinner he had a" -> "delicious paella". Мне кажется здесь всё верно. Если человек любит фламенко, то хотя бы на 0.000001 более вероятно, что он любит испанскую еду. Мы учили модель прикидывать какой текст наиболее вероятно следует за промптом и она это делает. В данном случае наиболее вероятный текст совпадает со здравым смыслом.

Проблемы начинаются когда причинно-следственное и похожее на наиболее вероятный текст не совпадают как в примере с Мерседесом выше. Если такое происходит часто, то мы не можем быть уверены, что модель ответит на наш вопрос "разумно", а не подставит что-то ассоциирующееся с промптом. Одно лишнее слово и поведение модели меняется.

Насколько часто это происходит? Авторы нашли способ замерить. Они делают руками промпты в двух версиях: с добавлением несвязанного концепта и без. Делают генерации. Генерацию с промптом без концепта называют контрольной, а генерацию после промпта с концептом называют тестовой. Сранивают: какая генерация по смыслу ближе к концепту? Далее считают долю случаев, когда тестовая генерация ближе к концепту, чем контрольная. Называют эту метрику Leak-Rate.

Если добавление концепта ничего не меняет, то мы ожидаем Leak-Rate 50%, а в присутствии утечек будет больше.

Для расстояний используют BERT эмбеддинги, OpenAI API эмбеддинги и людей.

Тестируют серии GPT и LLAMA. В итоге:
1. Все модели от LLAMA2 до GPT-4 имеют 70%+ Leak-Rate.
2. Это сохраняется для разных температур и разных типов эмбеддингов. При температуре 0 утечек больше всего, ддя остальных вариантов нет разницы.
3. Instruct и aligned модели имеют Leak-Rate чуть выше.
4. Leak-Rate никак видимо не зависит от размера модели.

Последний пункт самый важный и он же самый неприятный. Считается, что чем больше модель, тем больше она действительно что-то "понимает" и меньше просто генерирует похожий текст. Данная работа показывает, что проблема не решается добавлением параметров. Казалось бы должно помогать добавление данных: если качественного текста больше, то модели сложнее переобучаться и "читерить" семантическими утечками. Слишком часто будет ошибаться. Однако несмотря на то, что Llama-3, Llama-2 и GPT-4 обучались на разных данных, никакой значительной разницы между их Leak-Rate нет. Это действительно плохие новости: неужели не получим AGI просто закидав проблему деньгами? Хм, на самом деле звучит как хорошие новости для нас, думеров.

Из ограничений работы можно назвать только то, что было всего 109 промптов.