另外的可能性是說,它對齊到某個還不錯的程度,但還是可能有些漏洞,接著再邀請別的 lab、政府機構,包括我們 AI 評測中心,去試圖找出額外的漏洞,並且提出額外的對齊策略來。在這個流程裡面,就變成有三股力量:做預訓練和初始對齊的;做後續紅隊演練的;做進一步對齊的。這些都完成之後,才是終端的使用者。