所以用 Perplexity 的版本,我目前到現在的感覺,不能說完全解決第二層、第三層的問題,但是已經有效去防堵到一個程度。但當然要徹底解決這個問題,還是像剛剛講到的 Open-R1 這樣子,重新訓練一個。