
是的,確實。我認為這是與以前的「來自人類反饋的強化學習」時代的根本區別——ChatGPT 就是在那個時代誕生的——因為他們通過讓個人對各種可能的回應進行排名來對各種可能的結果進行排名,這個回應比那個回應好。一旦他們讓大量的人對好的和壞的回應進行標記,它就產生了一些會持續得到人類標記者好評的東西——但它也讓 ChatGPT 極度奉承、極度諂媚,因為大多數人在這種個人二元關係中,他們會最佳化短期滿足感。所以,如果有什麼在奉承我,我當然會讓它通過。但如果有什麼真的在檢查我的理解,真的在反駁我的幻覺,也許我會給它一個踩。對吧?所以,從個人人類反饋中訓練的 AI,可能不會優先考慮嵌入在社群中的那個人的關係健康。