所以不是說把 R1 下載下來之後,把審查模組去削除掉,而是沿著 R1 的方式重新訓練一次,從一開始就不加入這些審查模組。那這個情況下,當然將訓練出來的 Open-R1,相信在這方面就不會有這種讓人覺得「怎麼忽然之間就很不自然」的回應情況。
j previous speech k next speech