我們目前的方向是這樣:第一個,在 bias 這邊有另外一些人,好比像 Meta 的 Llama、微軟的 Orca,他們主張我們就把某些顯然還沒有強到會毀滅社會、預訓練過的模型,根本不做對齊,就直接公開出來。意思是任何人都可以拿到一開始沒對齊的版本,然後接著微調,所以結果就是大家都很平均地學會了微調技術,這時如果我們這邊覺得被忽略了,那我們接著訓練就好了。