大家可能知道,我想在場也有很多朋友了解,這年頭的 AI 大概就是你給它一個目的,你給它一個需要最大化的一個分數,然後它就會用各種各樣的方式,為達目的不擇手段,想出很多人類想不出來的方式,去最大化這一個分數。不管是 GDP 的最大化、產出最大化、利潤最大化,或者大家黏在手機上面時間的最大化等等。那這些都是非常流行、非常多人用來訓練 AI 的所謂的「獎勵函數」(Reward Function),就是讓 AI 能夠越高分越好。
j previous speech k next speech