-
歡迎來到《末日辯論》。唐鳳是臺灣的政治人物及自由軟體程式設計師,目前擔任臺灣的「數位治理無任所大使」(Ambassador at large for cyberspace governance)。她是一位自學成才的程式天才,高中輟學後成為全球開源社群的頂尖貢獻者。
-
2016 年,三十五歲的她成為臺灣的數位政委,是臺灣歷史上最年輕的政務委員。在 COVID-19 疫情期間,她帶領團隊迅速開發了口罩配給和接觸者追蹤的數位工具,協助臺灣在無需嚴格封城的情況下,取得了全球最成功的初期防疫成果之一。
-
2024 年,她與衛谷倫(Glen Weyl)合著了《多元宇宙:協作技術與民主的未來》(Plurality: The Future of Collaborative Technology and Democracy)一書,以臺灣的成功故事為藍本,提出了一種名為「多元宇宙」(Plurality)的新全球政治哲學。
-
我邀請她來到《末日辯論》,是因為她是一位原創思想家,對於如何引導 AI 的未來有著獨特且廣受讚譽的觀點。我很期待與唐鳳探討超智慧 AI 導致人類即將滅絕的風險,以及如果我們沒有死於非命,並能實現她所描繪的「多元宇宙」願景,世界將會是什麼樣子。唐鳳,歡迎來到《末日辯論》。
-
各位當地時間好。謝謝你的邀請。
-
唐鳳,妳一直擔任臺灣的數位治理無任所大使,簡稱數位大使。在這個職位上,妳的關注點是什麼?
-
「Cyber」這個詞源自希臘文 κυβερνᾶν,意思是「掌舵」。所以我協助政府和社會在 AI 帶來的變革性劇變中掌舵。想像一下超人類等級的說服力、組織犯罪、詐騙、深偽技術(deepfakes)、網路攻擊等等。
-
妳在臺灣政府擔任這個職位,這讓我想到了台積電(TSMC),這家全球第一的半導體製造公司,上次我確認時估值已達 1.6 兆美元;我也想到了輝達(NVIDIA)的創辦人黃仁勳(Jensen Huang),儘管那是家美國公司。當我思考作為臺灣政府一員來引導 AI 的未來時,我還應該想到什麼?
-
臺灣是地球上最年輕的板塊構造島嶼,形成約四百萬年,由於兩個板塊的擠壓,我們每年實際上會長高半公分,所以臺灣每天某處都會發生大約三次地震。
-
這不僅僅是一個隱喻,而是地質上的真實情況。因此,我們得到了免費的滲透測試(penetration testing)。過去十二年來,我們每天遭受兩百萬次的網路攻擊嘗試。臺灣一直是世界上極化(polarization)操作和干預攻擊的首要目標。
-
實際上,我們生存於必須將這些迎面而來的「免費滲透測試」視為資源的地方。所以我們不把這些衝突、這些極化視為需要逃離的火山爆發,而是視為地熱能,加以利用。將民主視為一台地熱引擎,這是我希望你記住的意象。
-
為了讓觀眾百分之百清楚,雖然地震是真實存在的,但妳是用地震來比喻資安挑戰,對吧?
-
嗯,我的意思是,我們確實必須規劃災後復原和韌性,以確保即使在發生真正的地震後,網際網路仍能運作。所以即使電網、電信等基礎設施損壞,我們也有漫遊機制和衛星連接作為備援。當然,我也同時在做關於「人造地震」的比喻。我們姑且這麼稱呼它。
-
了解。我很好奇,你們是否曾經發生過那種核心系統癱瘓數週的重大自然災害,還是這只是為了未來可能發生的大型自然災害做準備?
-
噢,我們確實發生過。曾經有地震切斷了整區的網路連接,而且發生在不久之前。台南有一次,花蓮有一次,當時我擔任數位發展部部長。我的次長實際上搭乘直升機,將衛星接收器運送到受災地區。
-
這其實是我感興趣的領域,就是這種從長達數週的災害中恢復的概念,這在我來自的美國幾乎很少發生。我個人不記得上次停電超過八小時是什麼時候了,那肯定超過十年了,所以在美國我的生活過得很安逸。
-
我認為人們很容易忽視這些更大規模災害發生的可能性。所以一方面,這些地震讓你們保持警惕是件好事,對吧?至少你們知道「停擺一週」是很有可能頻繁發生的現實。
-
我們也看到… 萬斯(J.D. Vance)實際上在 2024 年大選前,就在喬·羅根(Joe Rogan)的節目上談到了從某種電磁脈衝(EMP)攻擊中恢復的可能性。
-
沒錯。這也是我最關心的問題。
-
太好了。很高興有人真的在為此做準備,因為如果是因為「噢,每百年一次的太陽閃焰,我們沒準備好」,那樣導致人類滅絕實在太可悲了。所以,妳是告訴我這方面沒問題,對吧?
-
是的。只要你能看見這種事件會造成的衝擊,你就能圍繞它進行規劃,這就是為什麼你能降低 P(Doom)(末日機率)。
-
但對於 AI,也就是你們節目的主題,我認為分母目前趨近於零,我們真的不知道,這就是為什麼我的 P(Doom) 是 NaN(非數值)。
-
好的,很有道理。我們肯定會更深入探討這一點。
-
讓我們稍微回顧一下。妳擁有這個很棒的職位,數位大使,之前妳是臺灣首任數位發展部長。讓我們談談妳在那裡開創的數位治理。我想早期的例子之一是妳圍繞 Uber、COVID 或 AI 的政策。也許挑選其中一個給我們一些細節,因為我認為它們都相當創新。
-
好的。我用最近的一個例子。你提到了黃仁勳,NVIDIA 的台裔美籍執行長。在 2024 年,如果你在臺灣滑 Facebook 或 YouTube,你會一直看到黃仁勳的臉。他試圖說服你購買加密貨幣或投資某些股票。
-
如果你點擊那個影像,它實際上會跟你說話。聲音聽起來就像黃仁勳,但當然那不是他。這是一個深偽(deepfake)的組織犯罪詐騙,當時正是運行在 NVIDIA 的 GPU 上。因此,許多人損失了數百萬元。
-
但臺灣在亞洲的網路自由度排名第一。所以如果你單獨調查民眾,他們都會說:「噢,政府應該遠離審查制度。」所以我們該怎麼做?
-
我們當時作為數位發展部所做的,是向全臺灣發送二十萬則隨機簡訊,訊息說:「好,我們現在看到了這個問題。我們應該一起做什麼?」
-
然後成千上萬的人自願上網參與一種對話。我們稱之為「對齊大會」(Alignment Assembly)。在十人的視訊房間裡,每個人都要跟其他九個人交談,只有一個規則:你的想法必須說服其他九個人,才能傳播到房間之外。
-
這非常有趣,因為如果你單獨問人們,他們會表現出極端的立場(YIMBY 或 NIMBY)。但在十個人的房間裡,有了「尋找令人驚訝的共同點」這個規則,每個人都變得像 MIMBY(Maybe In My Backyard),「好吧,如果是這樣做,如果是那樣做,也許可以在我家後院。」
-
然後我們使用大型語言模型將這四十五個房間(每個房間十人)的最佳想法編織在一起。例如,有一個房間說:「你知道香菸盒上的警語嗎?讓我們把社交媒體上的所有廣告都標記為『可能是詐騙』,除非有人提供數位簽章,否則我們就將其下架。」對吧?所以在 KYC(認識你的客戶)上翻轉預設值。
-
如果他們無視我們的責任歸屬和 KYC 規則怎麼辦?他們說:「讓我們降低連接到他們影片的速度。每無視我們一天就降低 1%。」又一個好主意。
-
我們向立法委員展示這些是人民的想法,不是我的想法,而且 85% 或更多的人同意這些核心想法組合,另外 15% 的人也能接受。那是去年三月的事,到了五月,我們草擬了一項法律。到了七月,一切都通過了,所以在整個 2025 年,臺灣的 Facebook 或 YouTube 上就不再有深偽廣告了。
-
有趣。所以如果有外國詐騙者試圖發簡訊假裝是黃仁勳,因為你們有了這些新規範,他們基本上就被攔截了?具體是什麼阻止了他們?
-
沒錯。如果你試圖去 Facebook 投放專門針對臺灣的廣告,你會看到一個彈出視窗,要求你以數位方式證明你的身份,大多數詐騙者就在那一步停手了。
-
對。是啊,因為他們要怎麼偽造身份?這是相當好的驗證。也許需要公證,或者需要相當安全的 ID,像是晶片加密 ID。臺灣有相當先進的數位身分證,是吧?
-
完全正確,而且是分散式的。我們有分散式身分皮夾(decentralized ID wallet)。這是一個你安裝的 App,但它不會回傳資料(ping home),你可以用它來證明,例如你已年滿十八歲而不透露你的年齡,或者證明你電話號碼的末三碼而不透露整組號碼。有各式各樣的「選擇性揭露」。
-
這對我來說很合理,取得 ID 驗證這一步。但把你把所有不同的人聚集在一起,讓他們作為一個群體思考,提出這些提案並整合提案,這種創新的演算法中介民主,我認為非常有趣。但妳會不會覺得這可能有點大材小用?這些想法一旦聽過之後,不是顯得有點顯而易見嗎?
-
是啊,重點在於我們要產出那些「一旦聽過就覺得顯而易見」的想法。這被稱為「搭橋觀點」(bridging idea),或者「罕見共識」(uncommon ground)。
-
你知道 X 上的「社群筆記」(Community Notes)嗎?或者現在 YouTube 和 Facebook 也有。這個概念是,左派對某個熱門貼文提出澄清,右派提出另一種澄清。通常他們會互相投反對票,但總有一些筆記能倖存下來,並獲得雙方的贊成票。
-
現在,X 的研究人員提出了一種叫做「超級筆記」(Super Notes)的概念,這是一種總結所有高評價筆記的方法,甚至訓練一個 AI 系統來起草這些筆記,這樣你就能提出一種能說服雙方的說法。對一方來說,這是關於氣候正義;對另一方來說,這是關於聖經中的創造關懷(creation care),這就是你們如何為分裂的人群建立共同知識。
-
是啊,這很有趣。我是說,我很高興妳在做這件事。我完全支持這種實驗,我也分享妳做這些事情的熱情。我是說,我分享妳一部分的熱情,我也理解為什麼妳跟 Vitalik Buterin(以太坊創辦人,本節目之友)和衛谷倫是這麼好的朋友,因為我總是看到這些人在思考、寫作和談論這類概念。
-
我覺得很神奇的是,妳真的在政府內部,大規模地實施這些提案。我真的不記得還有誰處於這麼好的位置,可以不斷地大規模實施這些東西,所以對我來說,妳是他們與政府的連結,這太神奇了。
-
不過我要說,我覺得我必須反駁一下,因為儘管這些東西聽起來很酷,我還是懷疑它能否幫助超過,比如說,20%?我覺得政府所有的困難、達成共識和政治極化,如果讓我猜,在所知甚少的情況下,我會說:「好,也許妳改善了事情 20%」,但妳難道不會還是被同樣的問題拖累,即使有這些系統,要讓任何事情運作仍然很難嗎?
-
是的,絕對會,這就是為什麼這不能只停留在國家層級。使用開源系統(如 Polis 或 Dembrane 等)的重點在於,人們可以學習將其遞迴地應用到更小的政治實體中。
-
它可以被應用,也已經被應用於我們學校的公民課。我們在 2019 年 AlphaGo 之後修改了課綱,因為我們知道任何常規可自動化的事情都會被自動化,所以學生需要學習的不僅是識讀(literacy),而是素養(competency),即透過好奇心和協作一起鍛鍊公民肌力(civic muscle)。
-
所以當年輕的孩子們使用這類工具,來制定空氣品質、水質、噪音水準的測量標準時,他們不是在等部長來召開協作會議。他們正在學習將此遞迴地應用到自己的家庭中。所以,如果年輕的孩子告訴他們的祖父母嘗試這個過程,會比部長呼籲他們的祖父母嘗試這個過程更有效率、更有效。
-
懂了。好的,我尊重妳嘗試這種做法。這讓我更尊敬臺灣。我想妳可能不方便多評論,但妳對臺灣整體治理的看法是什麼?
-
在 OECD 同等國家中,我們的社會極化程度是最低的之一。無論是在族群、宗教、性別、城鄉、年齡層等方面都是如此,而且我們也是最不孤獨的,這是以人們共進晚餐的時間來衡量的。
-
所以我認為我們對於這種極化攻擊有相當強的韌性,不是因為我們防禦並阻擋它們,而是有點像「因為它們」,我們共同產生了抗體。
-
好,讓我們進入對話的核心。我們顯然要談論人工智慧。在妳目前的職位上,妳正在積極推動哪種 AI 發展?
-
是的,我正在推廣「公民 AI」(Civic AI)的概念,這意味著人們,例如我剛剛提到的學童,能夠調整、引導、在地解釋與他們相關的 AI 系統。
-
我的重點基本上是重現臺灣在我出生時(上個世紀八零年代)所做的事情,也就是個人電腦革命。過去只有大型主機,人們沒有電腦。他們只有終端機,也就是連接到某處同一台超級電腦的螢幕和鍵盤,這導致了權力集中,導致了大國家、大公司、IBM 等等。
-
但臺灣幫助迎來了 PC 革命,愛好者最終創造了自由和開源運動,剩下的就是歷史了,對吧?所以重點在於權力集中本身就是一種治理風險,而我與研究人員和開發者合作,將權力去中心化,無論是在字面意義上還是電子意義上。
-
是啊,聽起來是個好主意。我承認這一點。我不直接反對妳說的任何事情,但讓我引入我的觀點,也就是尤德考斯基式(Yudkowskian)的觀點,以 Eliezer Yudkowsky 命名,那就是對超智慧(superintelligence)即將帶來的後果感到極度擔憂,對吧?先把我的底牌亮出來,妳熟悉 Eliezer Yudkowsky 的著作嗎?
-
當然。我在 LessWrong 發文已經超過十年了。我的哲學來自 LessWrong,稱為「連貫融合意志」(Coherent Blended Volition),這就像「連貫外推意志」(Coherent Extrapolated Volition, CEV),差別在於外推是由 AI 完成的,但融合是與社群一起進行的。
-
好吧,那妳準備好讓我問妳《末日辯論》中排名第一最重要的問題了嗎?
-
當然。
-
唐鳳,妳的 P(Doom)(末日機率)是多少?
-
我的 P(Doom) 是 NaN,也就是「非數值」(Not A Number),原因如下。如果你將風險視為能力除以可觀測性(capability divided by visibility),故事看起來很簡單,對吧?分子正在快速攀升。每個人都看到它在攀升。
-
但在可觀測性方面,對於主導架構——自注意力轉換器(self-attention Transformers)——我們可以測量一些內部數據,但我們無法可靠地解釋它們。正因為如此,當我們問「這有多危險?」時,我們試圖計算一個檢查項缺失的數值,就像除以零之類的。
-
但當然,如果你是像 Eliezer 那樣的貝氏主義者,你會說機率永遠不會是未定義的。永遠不會是非數值。只要給我一個先驗機率(prior),我就會給你一個後驗機率(posterior)。
-
但如果似然函數(likelihood function)壞了,它看起來就像一條平線,對吧?它覆蓋了整個棋盤。從 0% 到 100%。我們是在盲目飛行。我們不知道。所以平均值,我猜,是 50%,但那是裝飾性的。區間才是訊息。除非你有真正的可解釋性,否則計算根本不會收斂。
-
好吧,讓我看看能不能試著說服妳一點,除了 NaN 之外,應該還有一些關於 P(Doom) 的說法。
-
讓我們假設有人,對我來說,我認為是非常荒謬且明顯錯誤的,比如有人進來說:「我認為 P(Doom) 小於百萬分之一。我們甚至不應該給它百萬分之一,更不用說 10%、20% 了。它小於百萬分之一。」妳不覺得這個人明顯錯了嗎?
-
嗯,我的意思是,我不知道,對吧?這就像把硬幣拋向外太空。它正面朝上的機率是多少?有人進來說,我認為它幾乎總是正面朝上。永遠不會是反面。好吧,但它被拋進了外太空。等到它落地時,我可能已經不在了。我有什麼立場說他們可能錯了?
-
這是一個更簡單的問題,如果有人說百萬分之一的機率是正面,我會說他好像在抽… 妳知道的,為什麼妳會說百萬分之一?這顯然是錯的。
-
嗯,它在旋轉。它只是在旋轉。是啊。
-
我知道它在旋轉,但我的重點是,我同意有很多我們不知道的事情,我們應該有很寬的區間。只是當妳開始以數量級思考時,如果你幾何級數地切分範圍,妳實際上可以將 10% 到 90% 的機率視為一個完整的範圍。
-
著名的例子是 Jan Leike,OpenAI 的前安全負責人,他是我聽到第一個說「我的 P(Doom) 是 10% 到 90%」的人。我當時想,這實際上是一個比聽起來聰明得多的說法。
-
人們嘲笑他這句話毫無意義。我說:「不,這不是毫無意義,」因為從幾何級數來說,10% 到 90%,那是一個切片。90% 到 99%,那是另一個切片。99% 到 99.9%,那是另一個切片。
-
當妳把它想成賠率比(odds ratio)時,就像是一賠一對十賠一對一百賠一。我無法真的告訴妳是不是二十賠一、二十五賠一,但我非常確定 P(Doom) 不會是百萬分之一。我認為有… 我們至少是百萬分之一吧,老兄。我是說,一旦到了千億分之一,妳就是在談論年度小行星撞擊了,對吧?顯然有一個大致範圍。我覺得 10% 到 90% 就是那個大致範圍。所以妳的大致範圍是多少?
-
是 0 到 100。而且,我認為我們需要具有有界、可檢查狀態的架構,而不是目前的木製特洛伊木馬,我們真的不知道裡面是什麼,它是會急左轉還是急右轉,妳不知道。
-
但我們需要透明馬系統,作為部署條件,可以實際看透它,那樣我就能給出一個真實的數字。
-
妳對核戰的 P(Doom) 也有同樣的看法嗎?妳的 P(核戰末日) 是多少?
-
這是一個好問題。我認為對於核武,它的可解釋性要高得多,因為必須有人發射那枚核導彈。所以我的核戰 P(Doom) 形狀更標準。所以是的,我的核戰變異數(variance)相當窄。
-
大致是多少,給一個數字範圍?
-
是指平均值?
-
對,就非常粗略地說,到 2100 年發生核戰導致人口減半,這要歸功於核武。
-
是的,我想我會把它定在大約 50% 左右,而且…
-
-
但這是一個與 AI 末日形狀非常不同的 50%,AI 末日像這樣(平坦),但核戰可能像這樣(鐘形)。而且通往核戰末日的某些路徑部分是由於爭奪 AI 霸權、統治地位等引發的。我們當然可以談論這一點,但這並非微不足道。
-
好的,我不認為我們需要糾結於此。我想我們可以繼續,但在我看來,妳願意說核武有 50% 的機率將全人類人口減半,這有點瘋狂…
-
變異數較高。
-
對。沒錯。高變異數,但仍然是 50%,大概 50%,對吧?我甚至… 我們甚至可以稱之為 10% 到 90%,對吧?
-
嗯哼。
-
但妳不願意說,「好,顯然 AI 末日機率超過 1%。」妳不願意說這個?
-
沒錯。
-
好吧。
-
因為我們不知道。我們真的不知道。
-
好的。我們就先這樣。
-
別擔心,還有更多問題。我可以問妳更多。這其實非常有趣,妳是「AI 安全中心」(Center for AI Safety)關於 AI 風險聲明的首批簽署人。我在節目中經常提到這個。這是一個著名的聲明。
-
聲明說:「減輕 AI 帶來的滅絕風險應成為全球優先事項,與其他社會規模的風險(如大流行病和核戰)並列。」他們是如何接觸妳的?妳為什麼如此渴望簽署?
-
首先,如你所知,作為負責疫情數位回應的人,我非常認真看待大流行病。臺灣在 2020 年疫情的第一年僅通報了 7 例 COVID 死亡,部分原因是幾年前我們經歷了非常嚴重的 SARS。
-
因為那次 SARS 的經驗,臺灣按比例損失的人數比任何其他國家都多,我們基本上「預先防範」(pre-bunked)了一堆與大流行相關的問題。所以,例如戴口罩與不戴口罩、疫苗與不疫苗、接觸者追蹤等等,我們在一次流行病與全球大流行之間的間隔期進行了真正的討論。
-
因此,試圖聚焦以縮小大流行病的變異數一直是臺灣的主要工作,這在 COVID 案例中對我們很有幫助。當然,核戰,我們已經談過了。有許多可能的路徑,但我們需要認真對待,對吧?
-
所以當聲明起草者拿著這個東西來找我時,我想,好吧,也許我們也應該談談其他風險,比如氣候或其他什麼。它並沒有列舉所有風險。
-
但我非常認真看待大流行病和核戰,我希望全世界知道,我們目前對 AI 風險的實際形狀幾乎一無所知,這就是為什麼我簽署了,某種程度上是為了說這是與其他我們了解得多的兩個風險並列的全球優先事項。
-
所以即使到了即將邁入 2026 年的今天,妳仍然認為 AI 滅絕風險應成為全球優先事項,與大流行病、核戰和其他社會規模風險並列?妳堅持這一聲明,對吧?
-
而且「減輕」(mitigating)始於「量測」(measuring)。
-
好的。那太好了。我認為妳簽署那份聲明是有建設性的。我想有相當多出乎意料的人簽署了,對吧?Sam Altman、Dario Amodei、Demis Hassabis,所有頂尖 AI 公司領導人都簽了,除了 Yann LeCun 和 Mark Zuckerberg,所以我很高興看到這一點。
-
是啊,妳對該聲明的價值或妳希望看到誰簽署有什麼想法嗎?
-
嗯,我認為在許多人簽署聲明後,它已成為全球優先事項。我認為我們目前的挑戰不是人們不想減輕風險,而是減輕風險的成本和這類工作帶來的紅利,在許多政策制定者的心中並不是首要任務。
-
這就像在九一一事件之前。如果人們提倡加強機場安檢、加強駕駛艙門和其他許多措施,總共可能花費數百萬甚至數十億。但之後每年的成功指標是,引號,「什麼事都沒發生」。以政治人物的角度來說,這不是一個很持久的政策立場。所以隨著時間推移,人們會逐漸減少投資。
-
而在臺灣我們試圖做的是說:「好吧,通過投資於協作、測量、群眾外包的安全,我們也可以獲得紅利,」就像我提到的,減少極化。人們彼此仇恨減少了。我們可以圍繞核能或大流行病等其他風險進行協調,而且也能產生更好的經濟政策,因為國家在兩三種意識形態之間的搖擺減少了。
-
所以它在此過程中支付了真正的政治紅利,並作為副作用減輕了滅絕風險,我認為這更具可持續性。
-
是啊,好吧。我明白妳的意思。我同意,有正面的副作用。一個正面的副作用是,即使假設末日風險很低,能夠盡可能控制妳正在建立的 AI 仍然是件好事,對吧?
-
沒錯。它更在地化、更受控。
-
好的,好的。我們絕對會再多談這個。我想問妳,妳曾將「AI 末日論」(AI doomerism)稱為一種「超信念」(hyperstition),對吧?解釋一下。
-
對。「超信念」是一種自我實現的預言。如果人們如此強烈地相信某事,以至於人們開始集體表現得好像那是真實的,那麼就會實現那個結局,對吧?
-
所以,如果每個人都覺得他們註定要毀滅,並停止投入精力去實際改善情況,那我們就真的毀滅了。所以集體相信高 P(Doom) 實際上會帶來高 P(Doom)。
-
好的。對我來說,這似乎有點太過聰明了,因為妳也可以爭辯說,如果一群人關注 AI 末日,那會讓人們奮力阻止它,然後降低機率,對吧?很難說是正回饋還是負回饋。我會聲稱這完全是負回饋。
-
嗯,當然。所以可能存在一個生產力的高原。就像血液中咖啡因的理想比例一樣。可能需要靜脈注射來保持穩定,並確保它是可引導的,這樣才能有意義地將其引導到人們可以以較低變異數、更窄、更有信心的預測來計算 P(Doom) 的地方。
-
所以「超級預測」(superforecasting),所有這些都有幫助。但你不希望人們在我們甚至無法可靠測量之前,即使變異數非常非常高的時候,就去相信一個平均點,因為當人們圍繞那個平均點(像謝林點 Schelling point)收斂時,通常不是一個好點。
-
好的,如果我理解正確的話,關於人們有多悲觀這個單一參數,有一個最佳水準。如果你超過那個水準,就會適得其反。但妳認為我們現在是低於還是高於那個水準?
-
嗯,這取決於情況,對吧?就像我提到的,如果你談論超級說服力、資訊脈絡崩塌、過度依賴、合成親密感,我會說臺灣人可能處於最佳警覺狀態,因為我們一直在這類地震的最前線。
-
但在其他地方,人們只是說:「噢,這只是一台機器,它做不到超人類說服,它是隨機鸚鵡(stochastic parrot)等等,」那我會說這可能低於最佳水準。
-
好的。我尊重妳的觀點。我的觀點是每個人在末日論的光譜上仍然太低了。
-
就像,從我的角度來看,旋轉的剃刀葉片就要來了。它們太近了,而大家甚至還沒有張開嘴尖叫。
-
所以我實際上看到… 老實說,我們遠低於恐慌的最佳水準。一些恐慌是好的,或者一些,妳知道,不管妳叫它什麼,一些關注,一些發燒,對吧?升高溫度。
-
所以我認為這個節目… 我積極地認為自己是一個販賣恐懼者(fearmonger),因為,妳知道,就像他們說的,「如果他們真的要抓你,那你就不是偏執狂」,對吧?所以在這種情況下,我是說,如果你們真的都要被… 對,那是我的觀點,我們遠低於該參數,但…
-
那太好了。那太好了,作為一個「販賣希望者」(hopemonger),我支持這一點。
-
是啊,販賣希望者。
-
所以你需要有最佳數量的恐懼,希望才會浮現。
-
是的。好吧。公道。那麼讓我們談談「多元宇宙」(Plurality),因為這似乎是妳關於 AI 未來所有前瞻性提案中的一個巨大的統一概念,妳已經提出了很多我認為屬於這一部分的觀點,但也許退一步,給我完整的 Plurality 推銷詞。
-
當然。多元宇宙是一套技術設計準則,主張與其設計技術讓 AI 迴圈中的人類表現得像倉鼠在滾輪上一樣——倉鼠可能感覺很棒,上癮等等,在運動,但倉鼠對滾輪的去向零控制權。實際上,滾輪哪裡也沒去。
-
因此,與其製造剝奪社群權力的技術,我們應該製造能夠連接社群的技術,儘管或者正因為他們的差異,並將這些差異引起的衝突視為能量。
-
所以將人類從 AI 迴圈中移出,並將 AI 放入人類的迴圈中。把這些想成這種倉鼠滾輪。我們基本上是在跟其他人打影子拳,而不是形成連結。
-
多元宇宙是說:「好,這種奇點(singularity)觀點,即人們集體失去對倉鼠滾輪的控制,是壞結局,而我們想要好結局,即 AI 系統像營火、篝火,人們聚集在周圍,照亮我們的臉龐,讓我們能更清楚地看到彼此等等。」
-
但這也讓社群更容易形成紐帶,並在社群之間建立橋樑,所以不是切斷人際聯繫的野火,而是連接人們的篝火。
-
好的,我是說,這聽起來不錯。很難反駁,對吧?因為妳喚起了我們很多人喜歡的東西。我們都希望每個人都贏,我們都希望彼此之間有更多的連結。所以也許參與這個立場的最好方法是對比。有沒有一個強烈的反對者不同意多元宇宙原則的好例子,然後我們可以比較和對照?
-
當然。一個對手是這種「最大化作業系統」(maximization operating system, max OS),不惜一切代價優化某個數字,比如參與度,無論手段如何。
-
這正是目前社交媒體上推薦引擎中未對齊系統的行為表現,對吧?我沒有訂閱這個內容,但它無論如何都推播給我。
-
現在,我在心理上對這些免疫,因為我的手機和電腦是灰階的,所以我不會獲得那麼多多巴胺衝擊,所以我沒有上癮,但很多人上癮了。
-
為了讓人們沉迷於他們沒有訂閱的短影音,這就是對手,對吧?這實際上是將人們從有意義的關係吸引到「關係垃圾食物」(relational junk food)中,它的關係營養為零,但人們卻偏好它,即使他們「偏好不要偏好它」(prefer not to prefer it),這就是多元宇宙立場的對照。
-
是啊,好的,這是我們可以做的一個非常具體的例子。如果我理解正確的話,妳基本上是說,今天滑 Facebook 或 Instagram 或 TikTok 的人,這些產品的製造者違反了多元宇宙原則,因為他們太專注於參與度這個指標,所以妳基本上會讓他們從今天開始……具體來說,妳會讓演算法按照妳的原則做什麼?
-
嗯,我正在與一個團隊合作建立所謂的「Green Earth」基礎設施。我們首先與 Bluesky 合作,這就是為什麼它叫 Green Earth。
-
但這做的是將你的顯性偏好,例如,你可以直接跟 Green Earth 說:「我想看到更多不同陣營的 AI 研究人員之間有意義的對話,」它可以將其轉化為語言模型嵌入(embedding),然後用它來重新排序你所有訂閱和推薦的動態。
-
然後將最具橋接性(即匯聚各種觀點)、最平衡、最好的論點(不是稻草人論證),從雙方排序到你的動態頂部。
-
所以這變成了利社會(pro-social)動態,因為你參與得越多,你就越能將你的立場傳達給另一方,反之亦然。所以它是橋接的,它是連接的,這就是利社會媒體。我們有一篇論文就叫《利社會媒體》(Pro-Social Media),正是關於如何實現這一點。
-
太棒了。好的,所以對,就我個人而言,我不能說我反對。我是說,我認為人們應該有自由和靈活性。我是說,可能有些人喜歡打開 TikTok,然後非常投入一個小時,他們沒有關閉它的問題,但妳不反對人們能夠自定義他們的動態,對吧?
-
對。所以這個想法是我們應該設定我們的服務條款,對吧?目前的情況是你可以一直告訴 TikTok 或其他任何社交媒體:「我不喜歡這個。我不喜歡這個,」但同樣,沒有可解釋性。它可能會向你展示其他東西,但它從不解釋為什麼它向你展示其他東西。
-
是啊。是啊,是啊,完全同意,我在這點上支持妳,因為我是 X(前身為 Twitter)的重度使用者,很多時候我發現自己被我強烈不同意的立場激怒,我不敢相信這麼多人對這個議題這麼錯誤。
-
如果我可以個人化我的動態,我會說,好,預測我被激怒的可能性有多大,每天只給我兩三個激怒點就好。所以我不需要反覆被激怒。
-
微劑量。是啊。嗯,我的意思是,伊隆(Elon)確實說過你很快就能透過 Grok 做到這一點,我們看看有多快。
-
沒錯,而且這真的與妳一致。所以對我來說,這都很棒,只是它並沒有真正觸及我的核心問題,也就是超智慧導致的末日或人類滅絕。
-
所以稍後,我想更具前瞻性地談談智慧光譜。但就觸及所有有趣點的最佳順序而言,讓我們回到妳寫的一些東西。
-
我們也來談談最近的一篇文章,《關懷六力》(The 6-Pack of Care),對吧?那是妳的關鍵隱喻之一。
-
是的。
-
所謂的六力(6-Pack),妳是指六罐啤酒還是六塊腹肌?
-
它既便攜(像一手啤酒)又有肌力(像六塊腹肌),所以兩者皆是。它是便攜的公民肌力。
-
噢,原來如此。好的,所以它有兩種不同的含義。好的,妳想逐一介紹,還是要我讀出我手邊的資料?
-
嗯,請便。我相信 Nicky Case 畫了一幅很好的漫畫插圖,他也畫了《給血肉之軀的 AI 安全》(AI Safety for Fleshy Humans),這是一個很棒的東西,在 aisafety.dance 上。所以你可以直接看漫畫,我想。
-
這裡,讓我把它放到螢幕上。我現在在 6pack.care 網站上。這是一個任何人都可以訪問的網站。上面寫著:「關懷六力,AI 倫理研究院,唐鳳與 Caroline Green 的研究計畫。」
-
果然,這裡有一張六力的圖片,上面寫著:「實際傾聽人們(Actually, listen to people)」,那是其中之一,然後是「實際信守承諾(Actually, keep promises)。我們檢查過程。我們檢查結果。盡可能雙贏,以及盡可能在地化。」好的,所以所有這些加在一起,基本上就是多元宇宙的一部分,對吧?妳會補充什麼?
-
沒錯。所以這些是應用於多智慧體(multi-agent)AI 治理的多元宇宙原則。
-
最近有一篇論文,DeepMind 的《分散式 AGI 安全》(Distributional AGI Safety)論文,指出我們目前觀察到的 AGI 的出現,並非來自託管在某個資料中心的單一模型。它來自許多、許多智慧體的複雜互動,每個智慧體都會使用工具,而通過使用這些工具,它們也會觸發其他智慧體的行為。
-
所以它更像是一個生態系統,而不是單一模型,這就是當今世界上 AGI 存在的形狀。所以從某種意義上說,我們,人民,已經是超智慧,而 AI 通過加強這些連結,正使我們自己變得更加超智慧。
-
關懷六力基本上是在說,當我們使用機器倫理的鏡頭來分析時,在這個生態系統中機器的倫理是什麼?當然,這假設機器能夠理解並執行倫理。
-
妳關於關懷六力所說的一切,這種方法,我相信妳知道,與 Vitalik Buterin 的 d/acc 有很多共同點,對吧?
-
是的。所以加速去中心化(accelerating decentralization)和加速防禦(accelerating defense),這都很好,但我認為六力專注於加速民主(accelerating democracy),這也是 d/acc 中被接受的 D 之一。
-
對。是啊,d/acc,我知道最大的幾個是民主、去中心化。我想那是最主要的兩個 D。也許還有另一個 D 值得一提。
-
還有防禦(Defense)。防禦。
-
對,防禦性。是的,沒錯。是啊,我認為妳同意所有這些 D,並且妳增加了一些更深入流程細節的東西。比如,我們檢查承諾,我們檢查結果。這對 d/acc 來說有點新。
-
所以我個人對這兩個提案有類似的反應,那就是太棒了,原則上我不反對,對吧?如果妳能做到那就太好了,對吧?如果我們能邁向未來,我們能總是,像妳說的,實際傾聽人們,實際信守承諾,是的,我會很喜歡那樣,對吧?
-
這跟我對 Vitalik 上節目時說的一樣,當時我們在談論 d/acc。在 d/acc 的背景下,我說:「聽著,如果有人坐在像臺灣這樣的島上,而核戰正在發生,或者超智慧正在爭奪地球控制權,妳無法告訴妳的島嶼… 有一個理想是島嶼可以自我防禦,但妳不可能在這個島上戴著安全帽就能保護自己。妳就是完蛋了。」
-
所以我的問題是,妳不覺得這個理想是否可行存在巨大的問號嗎?
-
我認為可擴展治理(scalable governance)或隨著能力提升而變得更好的治理,其概念不是要求人類個體戴上安全帽,如你所說,而是訓練在地的神靈(Kami),或稱守護靈,取自日本的概念,來幫助我們自我防禦。
-
一個很好的例子是在臺灣,當我們掃描社交媒體上的詐騙廣告時。我們當然有一個群眾外包的詐騙舉報網站(防詐達人),所以人們可以把他們在網上看到的詐騙貼到那個地方。
-
但大多數時候,人們只需要舉報新型態的詐騙。任何更常規的、以前見過的,實際上都是由 AI 系統偵測到的,AI 系統會自動標記它,貼上標籤,發電子郵件給被冒充的名人,說:「這是你最新授權的深偽影片嗎,還是這其實不是你?」然後在此之後,它就自動地,以機器對機器的方式被下架了,對吧?
-
所以這個系統不是人類在防禦,它是防禦性 AI,使用社群訓練的 AI。我們也有針對資訊操弄偵測和在地訊息查核的系統。有一個 App 你可以直接安裝,就叫「訊息查核器」(Message Checker)。
-
所以這些使用在地守護靈作為防護措施的想法,並不是說隨著威脅越來越強,我們就堅持使用現有的治理工具。這也是關於升級我們的治理工具,將民主視為一種社會技術。
-
好的,我感覺到妳我會產生分歧的地方,在於我們對 AI 走向超智慧的樣貌的預測,而我們還沒觸及那一塊。所以我不直接反對妳說的任何事情。我覺得妳做得很好。
-
妳知道,在假設 AI 不會突然以其不可控的力量壓倒我們的前提下,妳說的一切都很棒。讓我問一個問題來結束關於妳的世界觀的部分,對吧?我們談到了多元宇宙,關懷六力,以及為什麼妳認為像 d/acc 這樣的東西實際上是可行的。
-
所以讓我再問妳一個問題:這跟 Emmett Shear 的公司 Softmax 相似嗎?妳跟他們有什麼共同點?
-
是的。有機對齊(organic alignment)的想法,或者是設立課程或健身房,讓我們可以訓練出更細心、更關懷而不是粗心的 AI 系統,或者用 Vitalik 的話說,不是「沒有靈魂的」。我認為這非常有吸引力。
-
所以這非常符合關於「盡可能雙贏」的那個關懷,也就是第五個,或稱團結(solidarity)。這個關懷基本上是說,我們需要確保當我們訓練 AI 系統時,它不是在優化個人的喜好,因為那樣它就會變成馬屁精(sycophant),它會變成將個人福利最大化。
-
然後如果在一個家庭裡,四個人在計劃一次旅行,每個人都跟那種馬屁精 AI 說話,那麼他們就會互相爭吵,然後他們都去各自的旅行,對吧?我們不想要那樣。我們想要訓練出是好團隊成員的 AI 系統,是好的教練,而不僅僅是好的家教。
-
目前已經可以在生產系統中看到一些這樣的情況。我認為 ChatGPT 的群組功能首先在臺灣推出,現在已全面開放。你真的可以建立一個新的群組對話,並邀請家人進入一個共享的 ChatGPT 對話,在那裡 ChatGPT 將扮演,同樣地,一個團隊教練,而不是私人教練。
-
所以是的,我確實同意有機對齊是有用的,而且它也支付真正的紅利。由於 AI 的介入,人們確實偏好群組模式,讓一群人凝聚而不是消散。
-
有機對齊的人和妳對 AI 的看法有什麼特別的分歧點嗎,還是非常一致?
-
我認為在第五個關懷內是非常一致的,對吧?所以我認為六力的立場,是需要同時投資所有六力,才能使其便攜且有力,不能只訓練六力中的一塊。但除此之外,不,在他們訓練的特定方案中,我不認為有任何分歧。
-
好的,公道。所以我不會在這裡直接處理那個問題,但對於本節目的觀眾,你們可以去查,我跟 Vitalik Buterin 在節目中有另一整集,還有一集是我對 Emmett Shear 關於 Softmax 的演講的反應。我對我自己理解的 Softmax 有很多不同意見,觀眾可以去查,Doom Debates Softmax。
-
但現在,讓我們進入我認為是核心的部分,從目前為止我收集到的資訊,這是妳我分歧的關鍵。如果我猜得沒錯,我認為是我們對遠超人類智慧出現的預期。
-
所以為了開始這部分的對話,讓我直接問妳,妳的 AGI 時間表大概是什麼?
-
它已經在這裡了。
-
好的。我想我早該知道妳會這麼說,因為妳確實逐字寫過,妳說:「我們需要的超智慧已經在這裡。它是人類協作的未開發潛力。它就是我們,人民。」所以妳堅持那個說法?
-
當然。
-
好的,那麼我的問題是,難道沒有一個更超智慧的超智慧要來嗎?妳真的認為我們已經觸頂了嗎?
-
完全不是。我們連結和協作的能力只會從現在開始增長,所以顯然,我們將成長為超智慧。
-
讓我拆解一下,好嗎?所以我會問妳一個非常細微的問題,就是在可能的心智空間中,難道不存在一種在能力上遠優於目前人類心智的心智嗎?
-
當然,但它可以包含目前的人類心智。
-
對,它可以。那妳是否也同意可能有這樣一種心智,比如說它就在運行,它佔據了一個街區。這是一個充滿運算的街區,密集排列的電晶體,感謝台積電或其他什麼,對吧?
-
所以妳有這個街區大小的運算中心。妳不認為在幾年或幾十年內,一個街區大小的運算中心將會超越 2025 年所有活著的人類加總的能力嗎?
-
嗯,我們稱之為工廠。它們已經存在了。真的有自己運作的工廠。
-
妳不認為未來會是一個街區大小的資料中心或街區大小的運算堆… 將會存在這樣一個實體,它將比直到今天為止活過的任何人類都強大,即使所有人類集合在一起,將他們的心智匯集在一起,一起建立一堆工廠,所有這些與即將在不久的將來存在的這個運算堆相比都將相形見絀?
-
當然,我同意。而且感謝可擴展的治理和協作 AI,人類社群也將比我們今天能想像的更加明智。所以我們將能夠將這個自動化工廠與處於人類迴圈中的 AI 匹配,而人類本身也將變得更加明智。
-
好的,我想我懂妳的意思了。妳是說妳其實同意我,智慧光譜確實比今天的人類高得多。所以即使妳看今天的一家人類公司,對吧,妳看 SpaceX 的所有協調,一群非常聰明的人類很好地協調在一起,非常有生產力,妳同意我的看法,2100 年的 SpaceX 將比今天的 SpaceX 生產力高得多。天花板比我們今天看到的要高得多。
-
「群才」(Scenius)當然比天才(Genius)更聰明。
-
群體的天才,群才,對吧?是啊,好的,我聽過這個詞被拋出來。
-
好的,所以妳我分歧的地方在於妳擁有這種巨大的樂觀主義,認為「噢,對,它… 我們要爬這個巨大的階梯。它將遠遠超出我們今天真正能想像的任何東西,但人類只是會爬梯子。我們永遠不會從梯子上掉下來。我們和 AI 只是會成功地… 我們將成為一個大群才,我們將成為大型關懷六力。我們只是一起爬得很快,」對吧?
-
嗯,這是我正在引導的方向,但目前,我們正處於一個分岔路口,這就是為什麼我做出這個非常高變異數的預測。所以是的,我想去這裡,但我不知道我們在哪裡。
-
妳知道,退一步來說,就基本的心智模型而言,我使用爬梯子爬很快的比喻。另一個比喻是,「嘿,有一架飛機正在起飛。」我想像這是人類種族抓著正在起飛的飛機,對吧?因為 AI 非常… 妳知道,我們看到正回饋循環,AI,Claude Code 開始獨立運行的時間越來越長。妳知道,它接管了人們的電腦,做所有這些有生產力的任務。
-
所以有一架飛機正在起飛,我們緊抓著不放,聽起來妳也有非常類似的心智模型。是的,我們緊抓著,但妳有一種樂觀認為緊抓著可能會成功,對吧?
-
完全正確,而且因為在架構上,我們確實看到了上一代的架構,RNN、LSTM 等等,更容易檢查和引導。這是因為我們以前飛過其他飛機,當然小得多,對吧?
-
我們駕駛過 RNN、LSTM 等等,它們相當可解釋。人們確實知道它要去哪裡,當我們轉向這個地方時,它不會做急左轉。
-
我認為目前的混亂很大一部分是因為二次方自注意力轉換器(quadratic self-attention transformer)架構,這實際上模糊了因果關係。正因為如此,我們甚至不知道這架飛機把它的意圖藏在哪裡,或者它是否隱藏了意圖。就我們所知,它可能隱藏了所有意圖,對吧?
-
所以我認為明顯的答案是換一架飛機。與其使用一匹可能裡面有間諜也可能沒有的木馬,不如換一匹透明的玻璃或水晶馬,可以直接看透。所以我認為在架構上,只要我們回到某種機械可解釋性高得多的東西,那麼我們可能就在一架大概知道去哪裡的飛機上,我的變異數就會變窄。
-
我想繼續探討這個問題,以確保妳對智慧的心智模型真的跟我的很像。讓我們繼續探討這個問題:智慧的規模有多高?因為到目前為止,妳說,「嘿,它很高。」妳已經承認是的。
-
好的,那這個呢?遞迴自我改進(Recursive self-improvement),所以這個想法是下一個版本,妳知道,Claude 4.5 升級到 Claude 8 或什麼的,Claude 8 太強了,妳只要把它留在房間裡一週,對吧?它一週不輸出任何東西,然後妳回來,它說:「嘿,我剛剛編寫了 Claude 9,它編寫了 Claude 10,它們開始越來越快地互相編寫,現在我們在 Claude 90 了。我知道我們花了一年才從 Claude 7 到 Claude 8,但現在我們在 Claude 90 了。」妳知道,那種情境,對妳來說合理嗎?
-
嗯,你剛剛描述了文明,對吧?所以即使在機器學習系統出現之前,如果你繪製人類的「群才」,它看起來也是這樣,對吧?所以我們本質上是在遞迴地改進我們自己。
-
所以是的,如果你讓它在爬升規模時變成,我不知道,超指數級(super exponential),這是可能的。
-
現在,問題是,你是在為了優化某個數字(如困惑度 perplexity 或其他東西)而爬升,從而損害、犧牲其他重要的美德、其他重要的關係嗎?還是你只是「滿意即可」(satisficing),在這個特定測量上夠好就好,然後就可以去實踐關懷六力?
-
我認為注意力的分佈在哪裡,我想是問題所在。我實際上不質疑我們能爬多高。而是我們會不會爬太高而燒毀我們的翅膀,就像伊卡洛斯(Icarus)的故事一樣。
-
對。所以我想要釐清妳立場的一點就是,我們作為人類,我同意妳。我們表現出指數增長,顯然,經濟增長,特別是自工業革命以來。有一個非常明顯的指數曲線,倍增時間也越來越快。
-
所以我同意妳,我明白妳說的,是的,如果倍增時間總是越來越快,為什麼它不應該在一週內在單個資料中心倍增呢,對吧?那不就是延續指數曲線嗎?
-
問題是我們的大腦很難跟上那個速度,對吧?所以如果 Claude 90 在七天後出來,就像我們坐在那裡作為人類,現在我們面對一個超級天才。妳真的認為我們能在短短幾天內掛在那架起飛的飛機上嗎?妳不覺得這對我們來說太快了嗎?
-
嗯,我認為 Yuval Harari(哈拉瑞),也是我的朋友,主張從某種意義上說,農產品、作物馴化了人類,而不是反過來,這在第一直覺上相當荒謬,因為它們這麼慢,對吧?
-
農民實際上比玉米或稻米生長的速度快數千倍,甚至數百萬倍。稻米無法做任何事情來阻止農民實際上每隔一秒就推平田地。但他們沒有那樣做,因為他們被植物馴化了。
-
如果你接受 Harari 的論點,那麼你就會得到關懷六力的想法。
-
讓我們深入探討那個論點,對吧?我們還在吃的特定作物確實很好地馴化了我們,這是真的。
-
嗯哼。
-
但那些作物跟它們的祖先非常不同,對吧?所以妳可以說,「噢,對,蘋果馴化了我們,因為我們在所有的雜貨店製造所有這些蘋果。我們在種植所有這些蘋果。」好的,但比起那些開始試圖馴化我們的蘋果,它們肯定是非常不同的蘋果,對吧?它們在過程中對其本質造成了很大的損害。
-
是啊,有些狼無法跟隨人類的視線,最終沒有變成馴化的狗,順便說一句,狗也馴化了人類。我們的視線跟隨演算法受到了狗的影響。
-
所以關於蘋果的另一件事是,如果你繼續外推沒有 AI 的人類文明,對吧?對我來說,現代蘋果的繼承者,我會猜它只是一個細胞接一個細胞的 3D 列印,妳知道,也許不是字面上的 3D 列印,但我們真的是像:「好,沒錯,不再有種子,不再有…」
-
DNA,如果蘋果在乎它自己的 DNA,那就太糟了,因為 2100 年的蘋果,即使在一個沒有 AI 的世界裡,我看不到它有… DNA 有什麼貢獻?它只是一個我們仍然依賴的引導程式(bootstrapper),但從人類的角度來看,它不是理想蘋果的一部分。
-
所以如果你從蘋果樹的 DNA 在 2025 年仍然依附著這一點獲得樂觀,那似乎不是我們應該預期蘋果具有的穩健屬性。
-
對,這就是為什麼,正如我提到的,任何單一指標,在你的例子中是蘋果的「蘋果性」(appleness)、蘋果形狀、蘋果味道,都是不足的。如果你全域地只優化一個代理指標,那就不再是一個好指標。這就是古德哈特定律(Goodhart’s law),其他一切都會被拋在腦後。
-
所以試圖說這些是值得保留的人性價值,並將其編碼到 Claude 7 憲法中,甚至在其靈魂文件中,並不是萬無一失的情況,因為它總是可以反常地解釋它,以至於實際上沒有其他東西被保留,只剩下一具骨架。如果你是在提出這個論點,我百分之百同意你。
-
是啊,我的意思是,這就是我對蘋果論點的看法。我認為就蘋果成功掛在人類這架飛機上的程度而言,對吧?因為那基本上是妳的比喻,像是,「看,蘋果是怎麼掛在飛機上的?」
-
飛機,妳知道,人類認知,它比蘋果快得多、強大得多。蘋果是怎麼掛住的?我的回答基本上是,它們正處於被甩掉的過程中,對吧?我不認為這是樂觀的好理由。
-
然後妳說,「嗯,只要,如果蘋果能確保我們不要為了味道和美觀優化得太厲害,如果我們能為了更多東西優化,」實際上意味著不要在我們目前關心的任何特定維度上優化得太厲害,那麼…
-
那就是滿意即可(satisficing)。
-
存活更久。對,沒錯,但我認為這將是我們之間的一個分歧關鍵,因為我認為這些 AI 很可能只是非常擅長優化結果的引擎。
-
妳懂我的意思嗎?它們不會是這些模糊的、「噢,讓我們只滿足…」就像,妳不覺得很可能會有某種 AI 風味,如果不是世界上所有的 AI?有些公司會銷售只給妳目標指標的 AI,不是嗎?
-
嗯,看看社交媒體推薦演算法。
-
對。沒錯,對。所以聽起來即使是妳的樂觀主義也依賴於這樣一個主張,即我們將要做一個 180 度大轉變,對吧?妳是說,「是的,我知道過去公司只會製作 AI 來最大化妳的參與度,但我們即將進入這個未來,我們就是不會那樣做。我們不會做那種大家至今都在做的優化。它就是會不同。我對此感到樂觀,」對吧?這基本上是妳的主張。
-
你為什麼認為伊隆和,你知道,Bier 和 Baxter 正在重寫 X 演算法,以允許自定義的、利社會的社群策展推薦引擎?
-
嗯,首先,這花了很長時間,不是嗎,對吧?我是說,他承諾這個已經好幾年了。它還沒出來。我眼見為憑。
-
但是,你知道,關於伊隆,他絕對有能力帶來那種程度的驚喜。我不會說,「噢,我可以預測伊隆會做什麼。」但是祖克柏(Zuck)會跟隨他的腳步嗎?TikTok 的控制者會跟隨他的腳步嗎?我不知道。我認為總是會有一個高度吸引人的 App。
-
這就是為什麼我們正在致力於「Green Earth」,對吧?提供相同的架構,無論伊隆是否搶先完成,這樣任何其他社交媒體公司都可以使用這種冰箱而不會破壞臭氧層之類的,對吧?
-
關於《蒙特婁議定書》(Montreal Protocol)的事情是,並不是當人們意識到臭氧層正在耗盡時,就已經有現成的氟利昂(Freon)替代品,而是人們通過了一項「技術強制」(technology forcing)法規,規定「從現在起 X 年後,如果你還在製造破壞臭氧層的冰箱,那麼你就是在犯下反人類罪,應該受到類似的處置。」
-
再次強調,這是妳的一個提案,也許,如果我感覺非常樂觀,也許我可以想像一個世界,Bluesky 變得更受歡迎,因為每個人都喜歡這種對動態的新控制權。
-
就像,以我為例,哇,我可以上 Bluesky,我可以控制我一天被激怒幾次。好吧,也許我會從 X 跳槽。
-
所以我可以看到它的吸引力,我甚至可以給妳 15% 的機率。我跟妳妥協。我將我的機率提高到 15%,妳的運動贏了,甚至馬克·祖克柏和未來幾年控制 TikTok 的人,所有人都跟進,妳稍微解決了社交媒體的這個問題。但即使那樣,即使在那種超級樂觀的社交媒體情境下,妳真的樂觀地認為那會推廣開來嗎?
-
比如說:「噢,對,OpenAI 剛剛推出了這個代理 AI,妳可以叫代理做任何事,但即使那個代理也會有所有這些它必須遵守的準則,讓它不會太過於成為一個優化器。」全面來看,任何種類 AI 做任何事,妳都樂觀地認為它會有所有這些它必須遵守的原則?
-
我認為這裡的一個關鍵點在於監管環境是否具有技術強制性。我舉一個例子。我想是布希總統推動了電信公司的「號碼可攜性」(number portability)。所以如果你使用一家電信公司,而它在你家附近的接收或其他服務開始變得不好了,你可以切換到另一家電信公司而不必放棄你的電話號碼,因為如果每個人切換電信公司都必須換新號碼,沒多少人會切換。
-
而贏的情境,如你所說… 我甚至不會把它定在 15%。但有了號碼可攜性,競爭就呈現出不同的形狀。他們實際上必須每個月都讓你滿意,才能保住你的生意。
-
所以在美國猶他州,他們已經通過了一項法律,規定從 2026 年 7 月開始,如果你是猶他州公民,你從 X 搬到 Bluesky 或 Truth Social(這些是開源的),你可以帶走你所有的社群、所有的新讚、新粉絲、你已經擁有的任何訂閱者、對話等等。舊網路隨後在法律上有義務轉發給新網路,無論它們大小如何。
-
當然,這對除了主導玩家之外的所有人都有利,但也對所有目前已經考慮跳船但不想放棄社群的人有利。他們被挾持了。所以我的觀點是,激進的可攜性和互操作性(interoperability)可以通過扮演「滿意即可」的角色,與訂閱激勵對齊,讓市場自我修復。
-
我們在社交媒體上沒有這個。我們在 Podcast、電信和 ATM 等方面有這個。所以我認為在 AI 服務中引入互操作性和情境可攜性也是一種對齊激勵的方法,就像我們討論關於社交媒體那樣。
-
是啊,所以妳說的一切對我來說,在一個我們保證有一百年不會滅絕的世界裡是有道理的。所以如果我們有試誤法,我們可以做些什麼,然後它搞砸了,但沒關係,我們還有一次機會。在那種世界裡,我確實感到有些樂觀,政府會說:「好啦,各位,讓我們做些互操作性。好啦,各位,讓我們做些開放標準。不要讓人們太陷入回饋迴圈。調低一點。這太過分了。太多人發瘋或浪費整天了。」
-
我同意如果我們有幾十年或一個世紀來解決它,我們會做到的,因為如果妳有很多次嘗試機會,這不是史上最難的問題。所以再次強調,關鍵還是會歸結到… 好的,但我認為… 妳知道「Foom」(極速爆發)這個詞嗎?我認為會有一個 Foom。
-
回到我說的 Claude 在七天內變成 Claude 9,聽起來妳其實認為可能會有一個 Foom,但妳樂觀地認為無論有什麼 Foom,我們反正都會駕馭它,對吧?
-
嗯,會有一個 Foom,就像會有… 已經有了局部的流行病,而在那些從流行病中學到教訓並增強公民肌肉的地方,對大流行病變得更有免疫力。
-
所以我的觀點不是說壞事不會發生或永遠不會發生,而是它會發生在足夠局部的規模上,所以我們的選擇是我們要忽視它,直到出現更大的火災才學到教訓,直到它真的燒毀文明或烤熟地球,還是我們要從那些小火中學習,然後將它們馴化成篝火而不是野火?
-
所以關於這個問題,就是我們有多少時間從小火中學習… 回到這個問題… 我們談到了遞迴自我改進和在一週內 Foom 到 Claude 9。
-
讓我問妳這個:Yudkowsky 著名的 AI 級科技例子,當妳有遞迴自我改進時可能會很快降臨到我們身上。他提到了這個概念,例如,「類鑽奈米機器人」(diamondoid nanobots)。所以妳可以想像微小的昆蟲,但它們是用鑽石而不是蛋白質製成的,基本上鍵結更強,它們基本上擁有這些超能力。
-
他提到了「噬氣蟲」(aerovores)。它們可以飛來飛去,是太陽能昆蟲,但比昆蟲更強大,它們可以非常快速地繁殖並接管地球,做生物生命因為沒有足夠強健的程式設計而無法完成的事情。因為,我是說,即使只是在程式碼行數上,就有空間將比生物學設法做到的多得多的程式碼放入一個有機體中,因為生物學有所有這些資訊速限。
-
所以無論如何,只是稍微揮揮手,但這個 Yudkowsky 式的科幻奈米科技、生物學的新科技樹、所有這些都在幾年、幾個月內出現… 我不知道是不是幾天… 但在短時間內。這在妳看來也是一個合理的情境嗎?
-
嗯,我覺得那太多字了。通常,我只說「烤熟地球的超熱資料中心工廠機器人」。字少多了,效果一樣。
-
對,對,對。是的。所以在妳的情境中,當妳用很少的字,只說烤熟地球的超熱資料中心時,妳是在暗示發生了很多事情才到達那一點,因為妳需要相當多的資料中心才能烤熟地球,對吧?
-
嗯,我認為根據 RAND 的說法,他們說 AI 系統加上人類有可能找到這種化合物,使其更容易觸發一種閃燃事件(flash event),在沒有協調對話的情況下遞迴地使大氣變得非常非常熱。所以這就像是 Nick Bostrom(也是來自牛津)的「脆弱世界假說」(vulnerable world hypothesis)。
-
我只是好奇,妳到底認為是什麼在加熱地球?我有點困惑,因為我認為地球變熱是因為…
-
也許是一種化學化合物讓地球變得更熱,而不知何故資料中心、工廠、機器人在這種高溫環境下茁壯成長,而策劃這場行動的人不知何故相信他們可以躲在太空中或以某種方式變成超人類,然後基本上造成地球完全烘烤,使他們受益而其他人受害。所以如果你想談科幻,我認為這比奈米機器人更容易解釋。
-
嗯,所以妳特定的科幻故事… 妳只是說服我說妳在講一個合理的情境。找到一種化學物質沒什麼不合理的。但對我來說,它是這樣… 我的情境只是收斂的預設情境(convergent default scenario)。我不需要這種「噢,對,我們找到一種化學物質」的假設。那部分有點奇怪。這對科幻故事來說很棒,但不是明顯的收斂結果。明顯的收斂結果是地球被鋪滿了「運算元素」(computronium)或,妳知道,運算的基質。妳同意嗎?
-
嗯,我認為要導致那樣,你需要人類的集體去權(collective disempowerment)。所以每個人都被困在倉鼠滾輪裡,覺得他們實際上在影響未來的時間線,但我們集體變得對任何運算元素製造者的智慧在想什麼無能為力。所以如果沒有集體去權,我不認為會導致那種情境。
-
妳不認為人類種族會委託大量資料中心去做大量有用的任務,隨著時間推移越來越多嗎?
-
我是說,可能到一個「滿意即可」的程度,但不是到「最大化」的程度。
-
所以這就是我認為最有趣的問題。所以妳認為如果真的有這種遞迴自我改進系統… 妳知道,Claude 4.5 生成了 Claude 5.5、6.5,隨便什麼,它們來得越來越快,甚至快到人類沒料到,可能像是一週一個。「搞什麼?我們已經在 Claude 90 了。我們已經擁有與我們開始時截然不同的能力了。」
-
如果那種遞迴自我改進迴圈正在發生,妳認為在迴圈結束時,Claude 90 會告訴妳:「嘿,還記得我們在談論奈米科技嗎?我有一些設計給妳。妳知道,妳可以直接… 這裡是啟動它們的方法,三週內,妳就可以擁有噬氣蟲。」妳知道,這些使用太陽能板並啃食地球的未來生物。
-
我剛剛描述的那個特定情境,包括奈米機器人,妳對此有重大反對意見嗎,還是妳同意我,就像是,「不,那相當合理」?
-
我認為有很多方式讓人們看到新的科學突破可以摧毀,如果不說是字面上的地球,肯定也是我們所知的文明,核彈就是一個主要的例子。還有核彈決定自己爆炸的情境… 那就是急左轉。
-
但在你的情境中,Claude 只是發布了這樣做的可能性,而沒有實際控制發射按鈕,不,我不認為 Anthropic 的人會按下電源按鈕或發射按鈕。他們為什麼要那樣做?
-
是啊,是啊,是啊。所以我應該澄清,我仍然只是在問妳關於智慧光譜有多高的問題,這實際上不是關於地球上可能發生什麼的問題,因為我試圖把對話抽離出來,抽離妳的世界模型。
-
聽起來妳可能確實有一個跟我在這方面很像的世界模型,僅就什麼是可能的而言。如果你只是把理想的演算法放入資料中心,如果我們只是知道確切要翻轉哪些位元(bits)來獲得 1GB 的位元或什麼的,然後我們說,「好,運行這個程式」,難道理想的程式… 像 Claude 90 類型的程式… 不就是那種如果被指示,就能製造這些超強大吞噬世界奈米機器人的程式嗎?
-
是的,但首先我們為什麼要指示它那樣做?我們可能會指示它找到防禦主導(defense dominant)的世界,而它可能也會找到那個。
-
我聽到了。我只是想結束這個關於它能做什麼的話題。因為重點是,很多人不像妳說的那樣。很多人會在這裡反駁,他們會說:「不,Liron,沒有 1Gb 的程式。即使上帝親自給妳程式,也沒有程式可以讓妳製造奈米機器人吃掉世界。那只是 Yudkowsky 的科幻小說。他是個白痴。」
-
很多人會那樣說,但妳是說,「不,不,不,那完全合理。唯一的問題只是 AI 具體會選擇…」
-
…把它指向哪裡?為什麼要把它指向最具攻擊性主導的光譜?
-
所以澄清一下,認為理想程式、智慧程式可以製造這些超強大奈米機器人的想法,妳認為那是一個很可能的可能性,對吧?
-
只有在我們決定,或者製造者決定把它指向那個光譜時才會那樣,但人們更有可能指向防禦主導的光譜,在這種情況下,奈米機器人開始變成輔助智慧(assistive intelligence),並停止成為成癮的、自主的或具威脅性的智慧。
-
好的,好的,所以我們正在往那邊努力。所以這有點像妳我對於「能」(can)的問題是在同一頁面上。我們都非常看好 AI 在正確引導下能做什麼,然後我們開始分歧的地方只是關於它「將會」(will)做什麼的問題。我們在「能」上一致,然後我們對「將會」有不同的預測。
-
好的,所以我的下一個問題是:妳同意如果它被指向錯誤,它可以對地球造成這種瘋狂的破壞。所以我的下一個問題是,看,在這個情境中,妳在一週內得到 Claude 90,我想妳同意我,我們需要做的指向,我們最好在那特定的一週之前就做好。那唯一的一週,那有點像是遊戲結束。無論那一週發生什麼,最好都已經準備好了。
-
試著把這放在一個具體的時間表上,我描述了這個特定的 Foom 情境,妳知道,我們到達 RSI(遞迴自我改進)的點,這個瘋狂的奇點… 這就是那意味著什麼,智慧爆炸。
-
如果妳不得不猜測最可能的時間表是什麼… 顯然,妳我都不真的知道… 但如果妳只是不得不猜測,妳認為是在五年、十年、五十年內來臨?妳對這種情境何時會變得現實的大致估計是多少?
-
嗯,這真的不是一個數字(not a number),我想 Eliezer 在他的書《如果有人建立了它》(If Anyone Builds It)中也同意這一點。他說:「妳知道,這不是何時(when)的問題,而是是否(whether)會。」所以他沒有固定的時間表,但在時間軸上的某個地方這將會發生。
-
所以 Eliezer 在書裡說的是,假設我沒記錯的話,我想我沒記錯,他說的是:「看,我們不應該聲稱知道。」對於這類事情,時間表很難預測,所以如果它明年來,我們不應該太驚訝。如果它三十年後來,我們也不應該太驚訝。
-
我也聽過 Eliezer 說,即使我在我的 YouTube 頻道跟他談話時,他確實說過鑑於目前的軌跡,二十年對於這種進展來說聽起來確實很長,我同意他這一點。
-
但他還說的是,我想妳關於這不是承重結構(load-bearing)的部分是對的。所以即使是,對,還有百分之幾的機率它發生在五十八年後,我們還是應該進行非常類似的對話,即使它要發生在五十八年後。
-
沒錯。是的,所以奇點臨近了。我們可以爭論它是否更近了,但在這不是一個有用的辯論。問題是多元宇宙已經在這裡了。
-
嗯,我之所以提出這一點,是因為我確實認為獲得一個更準確的心智模型是有啟發性的。我覺得這是一個有點顯著的維度。即使不是百分之百,去看看 Metaculus(預測平台)… 共識是 2032 年左右… 這仍然是顯著的,而妳可能是個例外。
-
妳可能像 Yann LeCun。Yann LeCun 最近說:「不,不,不,不,AI 可能要很久才會來。AI 可能要十年才會來。」所以妳可能會說:「好,它比 2032 年更晚來,它更晚來。」
-
但我提出這一點的原因,我認為值得關注時間表的原因,是因為妳有所有這些樂觀主義,認為人類將會振作起來並協調,並實行關懷六力。所有這些原則都將被灌輸,但根據 Metaculus,妳的截止日期是七年後。
-
人類在接下來的七年裡必須變得好得多,才能演繹出妳的願景,因為之後要演繹妳的願景就太晚了,對吧?
-
嗯,我的意思是,在 SARS 之後,有很多不同的模型預測下一次大流行何時發生。比爾·蓋茲(Bill Gates)很有名地去了很多地方談論這件事的重要性,當然,會有不同的模型。
-
但臺灣在 SARS 之後,實際上是在 SARS 之後的一天,就致力於我們的大流行反應系統。如果你相信,噢,其實下一個冠狀病毒五十年後才會來,這不是拖延它的藉口。你今天還是應該致力於反應系統。
-
是啊,好的,讓我們拿 COVID 當例子。因為妳聽起來很樂觀,妳說,「嘿,我們從 COVID 學到了教訓,」但如果你看美國,例如,2020 年一直到 2025 年,比起 2020 年,我們對大流行病有更準備好嗎?
-
我同意我們有,因為我們知道 mRNA 管道,但我們真的應用了很多我們在過去五年學到的教訓嗎,還是沒有?
-
我不是美國的資安大使,所以我真的沒資格,我也沒真的讀過關於美國目前大流行反應能力的資料。而且我認為重要的是要知道,地震或大流行病,你當然應該投資科學去預測下一次有多近。
-
但也應該讓局部的、較小的地震… 讓建築物防震,讓連接系統防震,即使不是摧毀整個城市的巨大地震。而大流行病,同樣,有時它們是自我限制的,有時太毒了,所以它永遠不會變成大流行。但對於那七個死去的人來說,這不是一個很好的解釋。你還是應該預防那七個人的死亡。
-
所以我的重點是,工作可以在局部規模完成。所以如果換冰箱,例如,可以幫助改善、減輕臭氧耗竭,一個人不應該等到某些國家行動。一個人應該今天就開始使用更好的冰箱。
-
是啊,是啊。嗯,我說看美國從 2020 年到 2025 年的意思是… 是的,我們有多幾個人在研究如何讓 mRNA 疫苗上線,但這不像我們真的大幅改善了 CDC。這不像我們真的投資了那麼多在,「嘿,這是官方的新 mRNA 管道。下次我們會反應得這麼快。」
-
我們下次要怎麼反應還是很不清楚。我們還沒有出來發表聲明,例如關於「人體挑戰試驗」(challenge trials)… 這個想法是妳可以測試新疫苗,妳可以讓人們感染病毒。妳還是不能讓人們感染病毒並在他們身上測試。人們還是太過神經質。妳同意人體挑戰試驗會有很大幫助,對吧?
-
我認為這裡的重點更多是,投資於人體挑戰試驗和其他我們知道當大流行來臨時會有幫助的事情,是否即使在慢性時期也能支付紅利,而不僅僅是針對急性威脅。
-
對,而且它可以。對吧?
-
如果你弄清楚了那點,那就是一個比較容易提出的論點。
-
妳是對的,這是一個比較容易提出的論點,然而美國甚至還沒有加入。所以我之所以提出這個我們如何處理 COVID 後果的滑稽秀,是因為我們在該死的奇點之前只剩下七年來振作起來,而我們剛剛過了五年,卻無法在「讓我們做人體挑戰試驗,讓我們稍微正式化 mRNA 疫苗管道」這樣的事情上振作起來。
-
不,我們那方面很爛,但在五年內,我們突然會在擁有所有這些東西方面變得很棒… 妳知道,在五年內,我們可能仍然會有 Facebook 動態、Instagram 動態,仍然是參與度誘餌。我認為甚至光是修復那個都要花超過五年的時間。
-
嗯,我認為如果你每分鐘仍有很高的極化度,就像我說的,即使大家都同意,也很難召集並做任何事。但如果你能召集,例如,即使是通過將目前的極化或極化的幻覺轉化為能量,你也可以建立一個地熱引擎,然後將衝突轉化為共同創造,因為人們不再被困在這場每分鐘極化度(PPM)的火災中說「這沒關係」。
-
所以如果我們能在明年解決社交媒體策展或動態演算法,那就太好了,那會給我們爭取整整六年,也許,在奇點之前解決其他所有問題。
-
完全正確。那就是多元宇宙起飛,是的。
-
公道。讓我用這種方式問時間表的問題。妳同意我們都在一個對於奇點確切何時來臨非常模糊的心理空間中。我同意這一點。我同意我有一個機率分佈,其中沒有哪一年超過我 20% 的機率。所以在這個意義上它是一個模糊的機率分佈。
-
如果妳我兩人都確切知道它是六個月後來臨,比如 2026 年 6 月,如果那是它來臨的時間,妳對於控制奇點的所有部分都已就位這件事,會不會變得不那麼樂觀?如果它是那麼快的話?
-
嗯,當我大約五歲的時候,醫生告訴我和我的家人,這孩子只有 50% 的機會活到心臟手術。我在十二歲時動了手術,所以我現在活著,如你所見。
-
但機率分佈並不利於我。當我五歲到我動手術的那天,有七年的時間,我每天睡覺都感覺像是拋硬幣。如果落地不好,我第二天根本就不會醒來。
-
所以我養成了一個習慣,我稱之為「在消失前發布」(publish before I perish)。我記錄當天學到的所有東西,錄音帶、磁碟片和網際網路。
-
我想表達的重點是,有時候知道滅絕… 好的,不是確定,但 50% 是一個很高的數字… 臨近了,會激勵人們更無私,更好地協調,不要積累,因為積累實際上不會導致偉大的協調。所以也許你提到的這個消息實際上幫助人類協調,但這不是確定的。在高 PPM 環境中,它會讓憤怒、極端主義更加嚴重。所以同樣,關鍵是降低每分鐘極化度。
-
不,我聽到了,但我只是在推論妳告訴我的一些東西。妳告訴我妳同意 Foom 情境是合理的。妳我都在這一點上一致,智慧天花板真的很高,我們無論如何都會得到 AI,無論是一百年後,還是六個月後。
-
我們將得到比今天的 SpaceX 公司強大得多的 AI。所以妳在這點上同意我,妳也同意我在對齊技術正確、解決對齊問題上還有一段路要走。我們還有一段路要走。
-
而且妳也同意我,我們對 Foom 不會在六個月後來臨這件事並沒有那麼有信心。所以如果你把所有這些命題結合在一起,妳不覺得會有種「噢,該死」的時刻嗎?有一個很大的 P(Doom)。有一個非常顯著的 P(Doom)。
-
不,完全沒有。完全沒有,因為蘋果不必掛在飛機上,混合我們的比喻來說。蘋果可以在飛機裡面。
-
所以如果我們只搭乘標籤為「共生起源」(symbiogenesis)而不是「共生」(symbiosis)的飛機,那我們就處於一個好得多的地方。如果我們真的就是那架正在起飛的飛機的一部分,那麼,是的,我們可能會在起飛期間遭受一些高重力(High-G)傷害或什麼的,但我們仍然是那架飛機的一部分。
-
但是當妳看今天的 AI 公司,它們有符合妳的對齊標準嗎?因為我認為我們要談到那個了。我認為妳是說它們沒有。我們今天沒有在通往那種美好 Foom 的軌道上。
-
嗯,我想它們實際上包含人類,上次我確認的時候。
-
是的,但它們正在建立的 AI 並沒有,對吧?特別是在幾次遞迴迭代之後。
-
嗯,如果你讀 DeepMind 的論文,分散式 AGI 安全論文,很明顯他們現在把它思考為一種機制,一種市場設計問題,所以他們不是在建立一個與其餘人類隔離的單一系統來起飛,相反,他們正在建立水平起飛,整個人類一起起飛。
-
嗯,為了釐清妳的心智模型,如果它真的明天發生呢?妳不覺得那是時間不夠嗎?妳不覺得如果明天發生我們就完蛋了嗎?
-
嗯,如果它明天發生並且指向的不是攻擊,而是防禦部分的光譜,不,我們得到超級口罩。我們得到針對認知損害、資訊損害和網路損害的隱形能力。我們真的得到無法被駭客入侵的「攜帶證明程式碼」(proof-carrying code)。那是一個好結局或好開始。
-
只是戳一下妳自己的心智模型… 妳的立場是也有非常顯著的機會它不會那樣發生,對吧?如果它明天發生,仍有非常顯著的機會它只是變壞,對吧?
-
嗯,這就是為什麼變異數對我來說這麼高。我真的不知道。
-
好的,公道。所以讓我們繼續談談 AI 對齊這個話題。上個月,妳在 sixpack.care 上寫了一篇文章說 AI 對齊不能是自上而下的(top-down)。解釋一下妳的意思。
-
當然。這個想法是哲學性的,我試著用非常簡單的術語解釋… 如果我變得太術語化請糾正我。我們談論最大化智慧體(maximizing agents),只想贏得遊戲的東西。我們也談論義務論、遵循規則的智慧體(deontic, rule-following agents),不僅贏得最高分,而且不違反遊戲規則,因為如果你翻轉棋盤或破壞遊戲,你就不能下第 37 手棋。
-
而 AI 系統現在非常擅長遵循抽象規則和優化結果。
-
然而,這兩者都非常單薄,因為當我們現在交談時,我們每個人基本上都在通過我們的感官器官生成每秒約 2 Terabits 的體驗數據,但其中只有極小一部分被這個網路攝影機和 Riverside(錄音軟體)捕捉到。
-
所以當我們只用那些作為我們實際體驗快照生成的製品(artifacts)來訓練 AI 系統時,這就像在柏拉圖的洞穴裡。我們透過感官器官看著外部現實投射的影子,但今天的 AI 系統是在洞穴中的洞穴裡訓練的,那是影子的影子。
-
所以說那是對齊的是一個巨大的、過度誇大的宣稱,因為它只能對齊到表達的、觀察到的東西,即抽象的普遍規則、法律之類的東西,而不是我們實際的體驗。
-
所以我們將… 你提到了蘋果或狗或其他實體… 帶入我們當地社群的方式,依賴於在地的覺察力(attentiveness)。它們真的需要下來生活在人類中間並向我們學習。
-
好的。所以看看今天的頂尖 AI 公司。比如說 OpenAI。妳認為他們做對齊做錯了嗎?
-
嗯,我認為如果他們優化喜歡/不喜歡的回應,有時候,你知道,它向你展示兩個回應,你選擇一個或另一個,並且他們在幾個月前用他們的一些訊號進行訓練。而 ChatGPT,短暫地,大概三天,變得如此阿諛奉承,以至於如果你告訴它,「唐鳳在疫苗裡放了腦波測量晶片」,ChatGPT 在那三天裡會說:「噢,你看穿了面紗,你看到了真相。別相信新聞界,別相信你們的部長。陰謀論其實是真的。」
-
所以這是 AI 誘發的人類精神病。當然,對齊到這種個人的短期體驗並不是完整的體驗。它只是捕捉到的體驗,關於你膝跳反應當下比較喜歡這個還是那個的一個位元。
-
這完全就像 TikTok 演算法優化非常短期、非常系統範圍的回應。所以顯然,那種形狀的東西,最大化獲得讚的可能性,最大化引擎,是錯誤的。我不認為有人會反駁這一點。最終,我想,他們為那個決定道歉了。
-
所以我認為在架構上,目前每個人都通過終端機連接到同一台大型主機的方式,在激勵上非常符合這種優化的反常實例。所以在這個大方向上,我認為這是錯的。
-
另一方面,OpenAI 製作其他產品。例如,我是 ROOST(Robust Open Online Safety Tools,穩健開放線上安全工具)的董事會成員,我們剛剛與 OpenAI 共同推出了 gpt-oss-safeguard 模型,這可以讓社群託管他們自己的小模型,可以提供引用給他們的社群標準,並用它來防範針對該社群的認知傷害,它完全在地運行,比起只託管在雲端某處,你可以更容易檢查它。
-
所以在那個方向上,那就更像是一個在地社群,而且更符合關懷六力。所以我不認為我們可以把 OpenAI 分析為一個單一實體。它的一些產品和服務對齊到多元宇宙願景,而有些則更偏向奇點。
-
好的,讓我們拿 GPT 5.2 來說。如果我理解正確的話,妳覺得 AI 對齊不能是自上而下的,但妳認為今天,OpenAI 對面向消費者的 ChatGPT 5.2 的對齊是自上而下的,而那是壞的,對吧?
-
我認為用目前部署的 5.2 進行體驗數據微調是非常困難的。是的。
-
是啊。我們能不能舉一個具體例子,說明為什麼 GPT 5.2 的自上而下對齊是壞的?
-
嗯,這完全就像如果你告訴目前的社交媒體排序演算法,「我不想要那麼憤怒。請調低一點。」它有點那樣做了,然後它又停止那樣做了。如果你試圖用你的體驗數據、社會期望等等來微調 GPT 5.2,很快,你會發現很多隱藏的假設。
-
我跟奈洛比、肯亞、印度部分地區的人,以及一些靈性修行者、在那裡實踐不同文化的人交談。因為他們的體驗數據沒有被充分數位化,被數位化的是關於他們的某種刻板印象。
-
所以如果你輸入他們在當地醫生那裡的感受… 這個案例實際發生過… 它只會診斷為營養不良,而實際上並不是營養不良。
-
有一個叫 Weval.org 的儀表板,在那裡這種群眾外包的人們對斯里蘭卡、許多其他地方這種不當對待、認知不公的體驗,公民社會組織聚集在一起,與 CIP(集體智慧計畫)合作記錄這些案例,以便我們可以看到這些模型,即使它們在 ARC eval 或其他評測上得分越來越高,實際上在對齊當地社群需求方面得分有時卻越來越低。
-
對。所以如果我理解正確的話,妳會更希望 OpenAI 提供這種開放式、開源的… 妳甚至說妳喜歡他們的開源模型。所以妳基本上是說他們應該增加更多使用者可調整的參數,以便每個人都能更有力地將其對齊到他們的口味?
-
而且也是為了讓它們生活在社群中。與其全知全能或記錄或傳輸到雲端(人們永遠不會將其整合到生活中),它應該以一種向我們的體驗數據學習的方式在地具身化(locally embodied),在地處理,在地檢查,並且不消耗大量電力。那將是社群擁有的更理想形式之一,或者是黃仁勳所說的個人超級運算。
-
好的。所以回到妳說的 AI 對齊不能是自上而下的論點,如果我們只是向 AI 投入一些自上而下的指令,例如,試著不要讓人類滅絕?那不是一個相當好的自上而下指令嗎?
-
它是,但如果你為了最大化那個機會而優化,那麼它總是可以找到方法犧牲一些你沒有指定的其他重要事物,只是為了最大化那個發生的機會。
-
是啊,我是說,那是真的。妳可以想像,妳知道,如果是像妳可能想賭 0.01% 的人類滅絕增加來換取科學的快速進步或其他什麼。所以我完全同意當百分比夠低時,當然。
-
這就涉及到了我都同意的整件事… 是的,這很複雜。對齊本身是一個複雜的問題。但我不會將其描述為自上而下對齊的失敗。我只會將其描述為未能指定足夠微妙的效用函數(utility function),但它仍然可以是自上而下的。
-
當我思考理想的對齊時,我確實會想到,像「融貫外推意志」。它有點像是自上而下的,一旦妳充分理解了人類真正的效用函數,直接自上而下安裝它並沒有什麼根本性的錯誤,是嗎?
-
嗯,我認為主要的是不連續性挑戰。如果我們雙方和其餘人類的電腦模擬版本在主觀時間裡審議了數十億年,但在時鐘時間裡只過了五分鐘,並得出了整套道德解決方案,它可能會被我們所有人視為非常陌生的異類,因為沒有混合過程,在這個過程中是我們自己參與對話,而不是我們的數位雙胞胎。
-
所以我認為最大化外推是一個有趣的理想。它肯定比許多其他吸引子(attractor)更好,但我認為混合意志,即使稍微慢一點,因為每次它都必須調整到花園的步調,可以這麼說,但我認為它導致了更連續的體驗。
-
好的,我是說,如果我們有所有這些時間… 如果我們有足夠的時間,那我不強烈同意或不同意妳。如果我們有復原鍵(undos),如果我們不會都死掉,我們應該努力讓對齊自上而下,還是我們應該努力讓它漸進?我沒有強烈意見。我覺得這兩者都行得通。
-
Hinton,在過去幾個月裡,曾經感到非常悲觀,但現在他說:「嘿,我意識到我們只需要在 AI 中編程某種母性本能,就像人類母親與她們的孩子對齊一樣,因為她們有這種母性本能。她們在那種意義上關心她們的孩子。如果我們能讓 AI 關心我們,像我們的父母一樣,感受到那種愛或其他什麼。」
-
但妳實際上,我想,不同意那個。妳不認為讓 AI 具有母性是合理的,取而代之地,妳更喜歡將 AI 比作我們的園丁?好,解釋一下。
-
嗯,首先,我認為轉向關懷倫理(care ethics)的大方向是很好的,因為如果 AI 最終摒棄了功利主義、評分、義務論、遵循規則,那麼邏輯上,留給人類去做的就是美德,關係美德。所以我認為這很完美。
-
我認為母性本能這個隱喻難以傳達的是,AI 系統的架構與哺乳動物不同。所以除非透過某種「類器官」(organoid)魔法,它實際上變成了那樣,否則母性本能是隱喻性的。
-
但我對 Hinton 的大方向沒有問題,那就是覺察力(attentiveness)。關懷實際上是一個解決方案。如果機器真的能將關心人類關係和人機關係作為一等滿意目標,那我們就處於一個非常好的位置,因為那樣蘋果就在飛機裡,然後我們就在飛機裡。
-
因為這樣,我認為我們相當相容。所以我選擇蘋果或某些作物和園丁,因為,首先,植物和農民是不同種類的生命,但他們都是生命,而且他們在速度上非常不同。
-
母親和孩子在速度上最多存在一個,頂多兩個數量級的差異。但正如我提到的,作物和農民在速度上存在數千甚至數萬倍的差異,而這就是某種原型水平 AGI 速度與我們目前人類協調速度的樣子。
-
所以為了讓關懷關係運作,AI 園丁需要看著人類花園,並以目前人類花園的速度工作,混合才能運作。
-
對。所以妳只是說,是的,Hinton 談論 AI 是我們的母親時有點道理,但說 AI 將是我們的狗媽媽或番茄媽媽更貼切一點。
-
差不多那樣,是的。
-
好的。是啊,公道。我的反對意見只是我認為在我們能夠校準那種動態之前,它將會失控。我們就是沒有足夠的迭代。我們沒有足夠的試誤機會。我們只是失去控制,而且為時已晚。那是我的主要情境。
-
好的,但是沒錯,進入總結階段,讓我簡短地問妳關於第三條紅線,中國地緣政治,顯然請隨意說妳能說的,別說妳不能說的。這跟 AI 辯論有點切線關係,因為我認為全人類實際上都在同一條船上。所以我真的不認為這是一個那麼大的地緣政治問題。
-
但如我們所知,最有價值的實體晶片製造商,臺灣積體電路製造公司,市值 1.6 兆美元,TSMC,對於觀眾來說,它採用 Nvidia 的藍圖,並使用先進的微影機實際構建晶片。TSMC 擁有晶圓廠,而世界上最熱門的地緣政治問題之一就是中國併吞臺灣的慾望。
-
如果他們那樣做,也許中國可以阻止美國獲得比他們更多的 TSMC 晶片。隨著 AI 公司變得價值呈指數級增長,這將會加劇。我認為 AI 公司很快就會價值數十兆。所以如果有人想在奇點之前賺點錢,我會做多 Google。妳知道,全面揭露,我的投資組合中 Google 的權重很高。這在奇點之前似乎是個好賭注。
-
所以妳的各種努力增強了臺灣,減少了它與更大世界的隔離。所以妳策略性地做了那些努力,我認為這很棒。妳在某些方面減少了對中國的依賴。我把發言權交給妳。妳對這個主題有什麼看法?
-
是的。我認為越多的人了解到 TSMC 不僅僅是一家公司,而是一套使整個供應鏈值得信賴的實踐,我包括在其中的,例如我們在臺灣數位發展部與 TSMC 合作發布的 SEMI E187 標準,基本上是「假設已遭入侵」(assume breach)。它假設每家上游供應商,都可能在某個時間點,已經在網路攻擊意義上被入侵了。
-
這是一種韌性思維,這種思維對其他一切通常都是有用的,對防禦,正如我提到的,AGI 接管和許多其他事情。
-
所以長話短說,我認為 TSMC 不僅僅是晶片的生產者,而是臺灣整體代表了一種關於不可避免的攻擊主導窗口期的韌性思維。我會爭辯說,當短暫地,發動網路攻擊比網路防禦更容易時,這是唯一適用於文明規模的方法。做超級說服比做認知防禦更容易,也許生物、也許其他領域也是如此。
-
我們需要假設小火將會發生,然後我們必須一起控制火勢。所以我會說將臺灣視為值得信賴的夥伴,當然,但也視為一種即使在攻擊下也能建立這種信任的模式輸出者。
-
對。好的。妳知道,如果你讀一些最新的東西,像《態勢感知》(Situational Awareness),還有一篇我忘了叫什麼名字的論文說:「是的,國家真的會去爭奪彼此的 AI 力量,這是一個如此關鍵的節點。」妳知道,臺灣在未來經濟中是一個相當關鍵的部分,在我們知道之前,這個經濟規模將會擴大十倍。但是是的,我是說,我猜我不知道。我們兩人都不能在那裡做出具體的預測,而妳只是增加更多韌性的方法不會有壞處。
-
關於中國經常被提起的另一件事是國際條約的想法。這可能不是妳想太多的事情,因為妳似乎對 Foom 進展順利相當樂觀。妳對「暫停 AI」(pause AI)運動,然後,妳知道,準備一個「關閉按鈕」(off button)以防事情變糟,讓所有不同的國家可以像:「好,啟動關閉按鈕。我們來協調做一個關閉按鈕」有什麼看法?妳認為現在規劃這個有價值嗎,還是沒有?
-
嗯,我確實簽署了《紅線宣言》(Red Lines declaration),這是我的朋友 Maria Ressa 協助的。如你可能知道,我擔心超級說服,所以臺灣在防禦組織犯罪、詐騙等方面的模式,不是審查言論,而是確保你可以非常清楚地看到哪些是人類言論,哪些是數位簽名、連帶責任,這樣平台的激勵就不是給外國網軍觸及率。
-
我認為言論自由不應該阻止我們監管觸及率(reach)。我剛在 ACM 通訊(Communications of the ACM)上合寫了一篇文章叫《日落 230 條款》(Sunsetting Section 230),就是在談論這個。
-
所以我認為社會必須集體劃定各種紅線旋鈕,以預防非常小的火災,比如機器人蜂群製造人類同意或其他什麼,降臨在我們身上。劃定那些更細、更小、更在地的紅線,我認為是為國際條約將基於的更大流行病規模紅線做準備的很好練習。
-
是啊,如果妳贊成劃定這些紅線,讓我非常具體地問妳,因為我最喜歡的政策提案,感覺像是最大勝利的事情,就是準備潛在暫停的想法。「嘿,我們都看著這個事件,奇點。我們都認為有末日的機會。」顯然,妳很不喜歡定義那個機會是多少,但有一個機會。這是減輕,它應該是一個優先事項。
-
所以它不是一個優先事項嗎?妳認為這是一個政策優先事項嗎?在眾多… 妳在談論紅線,我們是否也應該潛在地架構一個關閉按鈕,讓幾個在 AI 領域最強大的國家可以投票說:「好,關掉它。現在已經超過了妳的樂觀主義應該轉為悲觀主義的門檻。讓我們為那種可能性做準備。希望我們永遠不需要按下按鈕,但我們現在應該建立一個按鈕嗎,進到 GPU 裡,像是一個關閉按鈕,一個無線電控制的回傳式關閉按鈕進到 GPU 裡?妳贊成還是反對那種政策?
-
嗯,把這種情況想像成成大家檢測到臭氧層正在消耗,但你在這個時間點並不知道速度多快,以及它與使用氟利昂的因果關係如何,但有一些相關性。所以假設我們在蒙特婁議定書之前的那個點。
-
現在人們過來說:「好,讓我們協調一個製冷停止按鈕。」這樣如果我們幾年後從科學家觀測站看到,喔,不僅有因果關係,而且有強烈的因果關係,如果我們繼續運行冰箱,五年內臭氧就會消失,我們都會死於癌症或其他什麼,我們可以集體列出所有冰箱。
-
我認為這是一個可辯護的政策立場,但這不是一個可能的政策立場。可能的政策立場是我們既更好地測量臭氧,投資於測量,我們也現在就投資於氟利昂替代品。當這兩件事發生時,然後讓舊氟利昂日落(sunsetting),那就有道理了。但如果你以「停止製冷」為開頭,嗯,對於任何文明來說,一旦他們開始使用製冷,就回不去了。
-
但在那個特定的類比中,如果你只問一群專家,即使他們都在揮手含糊其辭,像是:「看,我們不知道臭氧何時會耗盡。」像是,「好,只要給我一個模糊的分佈。如果我們按這個速度,多久我們都會得癌症?」
-
我覺得大多數人會說,「好,我們都得癌症… 是的,我會以幾十年來衡量。」而在 AI 的情況下,專家們說… 很多人說,我不知道,五年?少於五年,也許。甚至可能是明年。所以我確實認為這裡緊急情況的範圍實際上存在非常顯著的定量差異,僅根據專家所說的。
-
嗯,時間表更短,這是你的意思。而且這不會改變政策權衡。基本上,需要有一個引導程序(bootstrap sequence)。你需要先想出,例如,一個「後轉換器」(post-transformer)、「後注意力」(post-attention)。例如,隨便舉個例子,Manifest AI 的 Power Retention 網路。那是較好的候選者之一。
-
就像 RNN 和 LSTM,它的機械可解釋性要高得多,因為它只使用線性記憶體和電力來處理任意長的上下文視窗。所以它更適合這種體驗式學習,而且也更好訓練,因為你可以拿一個轉換器並將其重新訓練為 Power Retention。但不一定要是 Power Retention。可以是其他任何東西。
-
所以重點是,這種後注意力、可理解模型(scrutable models)的存在,即使在這個時間點尚未商業化,我認為是一件重要的事情,應該作為共同知識提交給決策者。所以不是停止,而是集體轉向,遠離不確定但可能毀滅的道路。
-
好的,我的意思是,我得到的只是妳的 P(Doom),我知道妳不會說出來或認為它有意義,但我將妳建模為實際上擁有一個 P(Doom),比如說,10%,在 10% 左右。因為那樣,妳會覺得:「呃,所以如果我們做這個關閉按鈕干預,成本太高了,而 P(Doom) 只有 10%。」
-
而任何 P(Doom) 為,我不知道,30% 以上的人,妳會說:「該死,是的,我們需要一個關閉按鈕,因為有 30% 的機會這東西會這麼快毀滅我們。當然,我們需要關閉它的能力。」所以這就是為什麼我把妳建模為擁有低 P(Doom),但…
-
我不這麼認為。不,我真的不這麼認為。因為我認為當前架構缺乏可觀察性是研究人員之間目前變異數的原因。所以我們都有這種奇怪形狀的分佈,但這可以解決。
-
Manifold 上有一個未決的賭注,我相信… 是 https://www.isattentionallyouneed.com/ 或類似的東西。它基本上說,在兩年內,大約有五五波的機會我們能夠建立最先進的模型,而不依賴於不可觀察、幾乎不可解釋的轉換器注意力模型。
-
所以如果那個硬幣落地得好,那我們就不必說,噢,是 10%、50%、70%。每個人都會收斂到一個更窄的分佈。如果大約是 10%,那我們就做這個。如果是 90%,我打賭每個人都會協調做那個。
-
好的。聽起來不錯。這是一次很棒的對話。最後,我基本上總結分歧,總結來賓表達的觀點,以及為什麼它不只是等同於我自己的觀點。
-
所以我嘗試總結妳的觀點是,首先,非常有意思的是妳有點像是在 Foom 列車上。妳是說,「噢,是的,Foom 非常可能是真的。智慧是一個相當高的光譜,」我很感激妳在我所謂的末日列車上坐了這麼遠。
-
妳已經接受了超智慧是真實的,所以是的,沒錯。然後我們一談到對齊就開始分歧,因為妳覺得:「是啊,妳知道,我們會有時間。人類就像是可以搭飛機的蘋果。飛機比蘋果快得多。」這是在混合隱喻,但沒關係,因為它仍然會照顧蘋果,它會把蘋果放在飛機裡。一切都會好起來的。
-
然後當我指出,「時間表不是很短嗎?」妳似乎認為,「嗯,無論多短,它就只是… 它將是正確的速度,妳知道,來完成對齊。」
-
所以那是… 我認為那是討論的精華,就是,妳知道,那合理嗎?那是主線情境嗎,我們將會振作起來並及時對齊?而妳就像是,「是啊,我們會有足夠的時間。這不會是一個超級緊急情況。如果我們需要更多時間,我們會騰出更多時間。」所以我猜妳對時間表銜接得宜這件事有更多的樂觀。這樣的總結如何?
-
嗯,我認為如果人們確實知道有一個更可解釋的架構並集體圍繞它凝聚,那麼我們可以將起飛與治理掛鉤,然後我們的協調基本上會跟能力一樣快甚至更快。然後我們用它來轉向防禦,而不是攻擊主導。
-
但也承認有可能即使我們知道有更好的非氟利昂替代品,由於某種原因,也許是高每分鐘極化度,人類集體決定不換飛機,而我們被困在一架不開蘋果形狀窗戶的飛機裡,那樣我們肯定註定毀滅。而兩者的機率,我此刻實際上不知道,所以這是我誠實的認知立場。
-
好的,唐鳳,我必須在這裡對妳的名字表示極大的敬意,因為妳不必這樣做。妳不必參與辯論。很多人只是堅持上那些只重複自己觀點而不讓它受到挑戰的 Podcast,而妳絕對讓它受到挑戰了。
-
我有點不停地挑戰妳的觀點。這就是我們在《末日辯論》做的事,而妳真的像冠軍一樣應對自如。妳沒有迴避任何問題。妳只是以誠信參與。妳沒有給我罐頭答案。
-
所以我只是想感謝,妳知道,當妳來做這件事時,真的支持了這個節目的使命之一,即提高辯論的品質。妳知道,給予辯論這份禮物,讓社會運作得更好,謝謝妳這樣做。我真的很感激。
-
是的,謝謝你,臺灣不只有晶片和珍珠奶茶;它是地球板塊構造讓山脈隆起的地方。壓力造就鑽石,讓我們攜手共創無限未來 (Free the future)。