瞭解。接著進行第三個部分,有關於生成式 AI 在對齊微調的階段,是透過強化學習來回應,您說獎懲對調可以變成激化對立跟仇恨,對於 AI 要如何獎懲?