4258
❤️☠️🤗 идейная миграция небытия
ресечер open ai пишется по дикой накурке, опытными растаманами и ВОТ ПОЧЕМУ
-Вы опен аи, у вас много денег и гпу, вам надо сделать Ranking model. Что вы будете делать? Правильно, резать декодер, брать эмбединги со средних слоев и все это чтобы не менять токенайзер и не учить жирный BERT(а чо, СPU и gpu дорогие, НАДО БЛЯТЬ ЭКОНОМИТЬ)
- я... я просто оставлю это как естьFor instance, suppose[тык стр 9, последний абзац]
in the training distribution a feature like answer length always indicates a higher quality answer, and
thus the proxy RM infers that longer answers are always better, even though at some point outside
the training distribution, selecting on longer answers no longer improves quality
- Идем дальше. Вам нужна легкая модель для эмбедингов, вы что берете? Правильно, sentence transformer, но господа так не делают, им надо весело, поэтому они берут что? правильно, декодер, другого у нас нет, отрезают от него все что можно, тюнать с contrastive loss + adaptive learning with human feedback и учат contrastive в RLHF сетапе(человеки размечают negeative labels)
а еще у них есть чувак с ником Boris Power