這種辯論攻防,就是所謂超智慧對齊的主要做法之一。我不用去偵測這回答本身是好或壞,但是我讓某個 AI 來試圖說服我說這是壞的、這有損害等等;另一個 AI 這邊要主張說其實沒有,這是好的等等。