其實 2 月 13 日跟主委報告的時候,那時本來找李次,他剛好去立法院,後來呂署長有來。
他說他是代替李次來,我們原本是這樣的構想,您也知道政委對外講說年底要有。
太好了。(笑)基本構想是這樣子,臺灣的學研界沒有練過這麼大的模型,本身有其意義,國網的 GPU 目前沒有跨很多可以串接。
MediaTek 的模型只有 1 billion parameters,然後這個 ChatGPT 是 175 billion parameters,所以那個範圍是差很多的。
就是 BLOOM。
華碩也是。
他說是 2 號。因為華碩是台智雲,臺灣杉 2 號有一半是切給台智雲用。
對。
是半個。
現在我的構想是,國網本身也 operate 半個臺灣杉 2 號,所以整個構想就除了學研界—像李宏毅老師就做了 Reinforcement Learning、所謂 AI 李白的蔡宗翰—那幾個開始在用,計算資源是希望來自於國網,我們的企圖是整個 GPT 3,但是要放臺灣的語料庫。
對,然後所有的資料都是用臺灣的語料庫。當然你要去講接下來做完要怎麼做應用,我們的想法是邀請數位部,因為想說可以將整個政府對民眾的服務、數位助手、數位助理就用 Chat Bot 的形式。
對,那些既有的。
其實跟聯發科合作的,他們當時也是只有用 6 片的 GPU,中研院、國教院、聯發科⋯⋯Size 也是小的。
不同的。
沒有。
對。我們偏好是要更大,像 GPT 3,也就是 175 個 billion 的 size。
是用臺灣的資料。
對。資料上有網頁資料,維基百科的資料等等各式各樣的資料,有中文的。
基本上就是繁體中文。
就看。
就是要稍微篩選一下,因為這個功能我們定位成未來政府對民眾溝通的數位助手,還希望做到英翻中、中翻英文字編輯的。
其實吳政委的想法,世界各地的孔子學院慢慢撤出,臺灣怎麼樣去填補那一塊的需求,像中英翻譯、文字編修,因為現在用它來寫推薦信,非常好用。
都是。
反正我們有李宏毅的 speech to text 跟 text to speech 這些事情⋯⋯
我跟部長說明一下,這分幾個階段,第一個,我們希望在 6 月有一個這種核心的 model 出來,今天來跟您請教也是希望怎麼樣擴大社群參與,他們把這些核心的程式放到 GitHub 上的時候,下面的應用社群就可以進來用,比方在 6 月核心程式出來,然後 8 月創造出⋯⋯我講很快,因為我知道您都沒有問題。
我們如果有 1,000 個帳號開放給 g0v 這些社群來使用,然後我們那些資料就可以再做一次 Reinforcement learning,然後到 12 月就可以做一些公開的 demo,接下來第三階段就是要把一些道德倫理什麼東西都要放上去。
我們希望數位部扮演的角色是,因為數位部知道對民眾的服務有哪一些需求,因此請數位部幫忙找各部會對話機器人服務、蒐集法規,我們也可以讓這個原型的 prototype 去做一些 domain 的 adaptation,就會產生所謂的垂直應用。
這樣的串接,未來就可以跟金融界輸入自己要的一些規定、平常用的對話資料,然後在這個 prototype 下再做 adaptation,中小企業也可以做類似的事情,我們想說串接這樣的經驗,其實還是希望盡量 open 出去。
當然,很多人會問你這個做出來以後,怎麼樣營運,其實有了以後要做服務,這才是真正貴的地方,但是在第一年跨部會署科發基金,並沒有到後面的操作。
我們只是希望有一些人在訓練 super large 的 model,然後 push 國網有那樣的能量,技術上可以串接手頭上的 GPU 來作服務,然後對民眾說明的時候,我們就說透過數位部⋯⋯我一開始是希望透過部長掌握的數位政府司,知道政府對民間有哪一些溝通上的需求,利用這個 model 來作一些服務。
沒有,就是用臺灣的。但是其實 2025 年規劃有臺灣杉 5 號,也是 GPU,我其實跟國網中心主任在談一個事情,過去臺灣杉 2 號在買的時候,並沒有需求,並不知道要做什麼,當時我還記得漢銘一直問你,當時我一直講說為什麼買一個帝寶的毛胚屋,我寧可小一點,上面的服務可以做好一點,上面要查一些法規很像是因為採購法的關係。
我們如果有這樣的經驗,在規劃臺灣杉 5 號用途可能會更具體。
對,就是有一些目標性。
闕次有沒有什麼想法?
因為有一個 prompt learning,那個會做,我們不是單純把資料倒進去而已,因為那有一個評分系統,你講綜整的能力,那其實透過那些,那個是我們會做的。
3、9、12 月都是 check point。我早上有給部長那個 slide,9 月份我們希望有 1,000 個帳號讓社群來使用,然後 12 月就是 1 萬個,3 月份可以正式再做一個更大的。
可能會講一些亂七八糟的話。
是。然後就讓 1,000 個社群去使用,你就可以把這些東西變成回饋再作人類的 Reinforcement learning。
因為 3 月那一版 GPT4 是唯一授權給微軟。
現在就開始到處在 sale,就說很多東西是 OpenAI support,然後服務是微軟來做。
他說他不願意授權。
微軟禮拜五去科技辦,那時因為蔡志宏主任 host,我直接跟微軟講我們要做的理由是,國內沒有人訓練這麼大的 model,我們的國網沒有做過這麼大的 model,所以我們有這樣的目標,我們不只是要當他的客戶。
他來我們這邊說要合作,他說他們要幫我們爭取,我們說我們可以蒐集問題,因為他們有企業專屬版,他可以很快的⋯⋯因為個人現在 40 個 request 就停,即使付錢,service 的順序也不會排前面,他們說我們可以蒐集問題,他們幫我們蒐集答案。
微軟的說法是 OpenAI 做的是實驗室的,他們對於 service 的細部不清楚,但是他們對產品的掌握度很高。
那天微軟來談的是,OpenAI 給他們專屬授權,所以所謂的 GPT4 事實上是微軟在用,沒有地方用得到。
對,就是為何大家願意用舊的。
今天我們要建造一個屬於臺灣版的 ChatGPT,我們想要透過參與,只是有時在那邊玩⋯⋯我本來提一個構想是,現在 ChatGPT 4 還沒有出來,我們就說我們每個禮拜結算,如果 submit 最多的,就給你 20 元去 unlimited service。
我說是不是要趕快架一個社群平臺?我們想要做這件事的理由是,現在都還沒有做,所以有這樣的機制,我就蒐集一些民眾去問 ChatGPT 的問題,我 12 月 當我自己去 demo,他們說有自己的橋段,所以答得很好,我說當時收了一大堆東西,我就 random 選,選 ChatGPT 3 回答,這個是台版的回答。
我很希望的是,如果在跨部會的科發基金中切一小塊錢,拜託數位部讓各個政府基層去使用我們的 ChatGPT,因此知道民眾常常問的問題是哪一類,他們又是怎麼答,然後把它蒐集起來,我們一方面也知道民眾會問什麼問題,這個我會在 9 月份開始做。
對,1999 的資料我們怎麼取得。這裡面會涉及到當政府部會對民眾做服務的時候,裡面如果有一些個資的話,可能要有一些去識別化的處理,我覺得數位部在跨部會署科發基金⋯⋯