DeepSeek R1 的訓練方法,主要是讓 AI 自問自答,並透過「判定對或錯」的過程——例如數學或程式碼題目——來驗證自己的思考脈絡。
j previous speech k next speech