
部長好,上次我們信件往返的時候,提到一篇中央社的新聞,其實我覺得有趣的點是您舉的那個例子:在那一篇報導裡面,有講到一個例子很有趣,在講 AI 的準確性,提到中國用語的差異。

其實我們在搜尋的時候,或者是在跟業界、有在做 AI 創業的經理人提到的時候,他們都會覺得其實這個會跟下一代的教育有關係。但我不知道這個對您來講,這個題目會不會太遠?就是如果說我們現在大量的 data,都來自於……

像我剛才用 Llama,就是 TAIDE 的基礎模型,我說請翻譯成英文「他讓我很窩心」。Llama 2 就算是最大的 70b instruct code,它都翻成 “He made me feel very nervous.”

但如果是 TAIDE,就會翻成 “He made me feel very touched” 或者 “He really warms my heart.” 但那這兩個其實是反義的。


一個是 nervous,一個是 touched。因為「窩心」是 touched,這是臺灣的用法,而「窝心」是 nervous 或者不舒服,是北京話的用法。

OK,我覺得這個例子作為開頭,是很能夠讓人理解的。

我們是不是從這裡開始,請您來跟我們分享你覺得準確性最重要的幾個重點,比方三個重點是什麼?

其實像 TAIDE 當時訓練的時候,就很公開説它的目的是要能夠做五個任務:自動摘要、寫信、寫文章、中翻英、英翻中。在這五件事情上面,特別以翻譯來說,包括中翻英、英翻中,特別需要準確性。

其他的時候你還可以說「這是它的創意」、「說個笑話來聽聽」之類的,但是在翻譯上面,當然不會希望翻譯者自己在裡面,插入本來沒有的意思。

所以像如果本來寫「我覺得很窩心」是「很高興」的意思,你不會說把它翻成 nervous 是有創意,這不可能,因為這樣它就是不準確,所以特別是在中翻英、英翻中這兩個用途上面,我們對準確性的要求特別高。

當然除了「窩心」之外,還有像「我對他很感冒」,也有「很不喜歡」跟「很喜歡」的兩個反義。在臺灣這裡是很不喜歡,但是在北京話是很喜歡的意思。或者「土豆」,也是很常舉的例子。「我今天吃了土豆」,到底講的是花生還是馬鈴薯呢?

像這些都是繁簡轉換無法解決的問題,它真的就是這個字,只是有沒有準確的反映它所使用的文化環境。

除了我們在理解文義上面,它會有落差之外,其實就像部長剛剛講的,「土豆」或者是「很感冒」,那其實都還好,我只要知道說可能它是誤用了他國的字義。

但最深層來講說,如果說今天我是從小開始做 AI 教育,他接收到的這個文化基模跟字義,是不是臺灣本土的用語?那這是會有影響的吧?

當然,因為其實像我們常常看一些外國的影集,以前可能是不同的字幕組,簡體跟繁體,分別是找兩組人去翻譯。

但是現在,因為這個工作已經越來越自動化了,也越來越多交給語言模型。不管是先語音轉簡體、然後簡轉繁,或者是他一開始是語音轉繁體、然後繁轉簡,這都會變成對後面的那一個語言來講,像剛剛講到的「窩心」、「感冒」、「土豆」,這在簡繁轉換的時候,通常是不會代換的。

所以就會變成是,從小小孩看到這些,他聽到英語然後看到這些字幕的時候,這個字幕就是不準確的。當然無論你剛剛講的兒少,或者是其實對成人教育都有影響,因為當我們在隨時看影集的時候,如果反覆看到的字雖然是繁體,但他的字幕用法都是不準確的,久而久之大家也就習慣這些不準確的用法了,就會造成溝通上很多的誤解。

其實某種程度來講,像現在其實抖音很多的字幕都是自動生成的,它會有被文化入侵的疑慮嗎?

也不是完全都這樣講,入侵應該是指其中故意的成份。實際上,我們如果沒有一個我們自己的語言模型,或者是我們沒有辦法對國外的語言模型,要進入我們市場的時候,有準確性的評測能力,應該是講說我們自己不做要求吧?

我們不做要求,當然人家就覺得隨便,反正都是漢字,簡繁轉換一下就好了,我們不做要求,就會導致這樣的結果。我也不覺得那些用了其他的語言模型的,好萊塢或者是其他的 AI 開發公司,這些社群大型平台,好像一定是故意用文化入侵我們。很明確地應該是說:我們如果沒有做這樣的要求、評測的話,對方一定都是用最便宜的方式應付。

對,理解。其實在這個評測的重要性裡,我們的訪問第一題是,剛剛部長舉了個人的經驗,說明 AI 的準確性有多重要,但在評測的實際上評測項目裡面,它會有優先順序嗎?可能我們將「準確性」排第一,是嗎?

這要看用在什麼事情上。也就是說,像剛剛講五大功能,中翻英、英翻中,是特別需要準確性的。但如果現在是寫文章,而且寫的都是像你之前題面裡有問到的,如果都是幻想、童話故事之類的,這時候它的準確性的重要性,還會不會排第一就難講了。

它可能想法比較創意、比較自由,也沒有什麼太大的問題。但是翻譯或者是摘要的話,當然就會特別要求準確性,所以我覺得我們評測,是給出一個綜合的評估、一份報告。但是這份報告裡面,哪個測項比較重要,要看它的任務而定;當然翻譯是特別需要準確性的任務。

OK,那他其實就會接到我們的第二題。那這會不會對於生成式 AI,它有創造力或者是會幫我們優化我們原本其實想像不到的事情或想像不到文句的發展,有所牴觸呢?

對,但你可以想像它如果現在是要寫一個故事,就是要把「窩心」的兩個不同的意思當作故事的核心,它想要講這件事情等等,這會很有創意。但當然,它還是得掌握「窩心」在我們臺灣這邊是 very touched, warms my heart 的意思。如果它沒有掌握這個準確的先備知識,它後面也沒有辦法用這個當素材去創作出東西來。

所以很難說對於字的意思的準確性的掌握,好像在創作上面不重要;相反的,如果有寫文學作品的話,對字的意思要掌握得很精確,那是創作的前提。

對,精準的表達語意,會是創作的前提沒錯。

對,所以我會覺得最多可以說當它在做創作的時候,準確性未必是最重要的要求,這樣是可以的。如果你現在寫首詩,裡面有些文法或者字義不規範,那就這樣吧!我們還可以說這是詩人的特權;那如果今天是翻譯,那就沒有什麼特權可言。

所以你最多只能說,他重要性也許略微下降,但是你很難說準確性對於創作有害,好像不是這樣。

理解。再來,因為上網搜尋 AI 準確性,其實很多人的提問是:「我們怎麼能夠相信這個準確性為真?」也就是有可能它原始資料就是有問題的。

這裡在講的是說我們評測時候的那些題目,我們評測題目就是有問題的?還是機器學習它訓練的原始資料是有問題?這是兩回事。

一個是考題本身就出錯了,大考中心這題應該送分,另外一個是它當初看的參考書、教科書就是錯的。這是在問哪一個?

部長可不可以兩個都幫我們分享一下?我看網路上的討論,應該是說他原始資料就是錯的,或是說評測的題目是錯的,但我想要請您幫我們兩個都分享一下。

好的。特別是在講用詞的部分,因為有權威的機構,像是國家教育研究院,不管是樂詞網或其他的,對於各個學術的名詞,或者有一些相關詞、書的資訊,也會把字典詞典都收進來,這部分的問題倒比較小。

基本上我們對 AI 的要求,也就是我們對教育單位的要求、學校的華語文教什麼,我們就同樣來這邊要求 AI。所以,如果我們的上游定義有錯誤,就表示我們整個語文教學都有錯誤,這個機率是比較小的。

所以我們不會自己憑空發明題目,我們找這種準確性題目的時候,後面都會盡量用現有的,而且是有教育規範效力的。像剛剛講到國家教育院的雙語詞彙、學術名詞、詞書資訊網或教育部其他的資訊網等等,都可以當作我們出題的方法。

你剛剛提到如果一開始訓練的資料,就像我剛剛舉的例子,Llama 一開始訓練的資料裡面,顯然「窩心」是不舒服的意思的原始資料比較多,它才會選擇這樣翻譯。但你要說它錯誤嗎?也不是錯誤,只是它沒有符合我們這邊的準確性要求而已。

因為它這個預設的回答,顯然符合北京話的準確性的要求。他們那邊也可以有準確性要求,所以你不能說它原始資料有誤,你應該是說它的原始資料不是符合我們這邊的準確性的要求。這時就要透過對齊的方式。所以,像 TAIDE 在 Llama 的基礎上繼續訓練,去調整、讓它對齊,變成能夠符合我們這邊準確性要求。

那它會有道德問題嗎?

因為等於是它幫我們做了,是守門員的概念嗎?可是「字的意思」好像無關乎道德,對不對?

我們在這邊講的只是「土豆」這個字跟「花生」這個字比較近,還是跟「馬鈴薯」這個字比較近?或者是「窩心」這個字,它跟「溫暖」比較近,還是跟「不舒服」比較近?這種字的距離,好像跟我們在應用上面,所謂道德倫理,關係好像比較小一點。

理解。OK,所以關於準確性,我們的題目差不多了,您回答得都滿完整的。

如果就這個題目要再往下延伸的話,您有沒有什麼更多的事情是想要跟讀者分享的?

對,我們說隔行如隔山。其實每一個行業裡,都有類似於剛剛土豆或窩心的狀況,一個詞語都在臺灣使用,但是跨了學門意思就不一樣了。又或者是可能有一些公司或者是一些事業,它內部有一些自己約定俗成的詞或者一些簡稱,這些在外面的字典是找不到的。

當它有一些自訂的詞彙、一些行話(jargon)的時候,不管是 TAIDE或者其他是對著教育部詞彙訓練的模型,都沒有辦法完全達到在那個特定行業,或特定場域裡面要的準確性。

所以也不要覺得 TAIDE 就這樣對齊,一切事情都解決了。而是我們自己在部署在應用的時候,我們還可以再做第二次的調校跟對齊。

好比,我們現在很多翻譯社,在你給他翻譯文章的時候,你可以給他一個 glossary、一張詞彙表,然後說在我們的用法裡面,這個英文字就是要這樣翻,而不是那樣翻。所以,等於再給他一張額外詞彙表的這件事情,再進一步對齊。

所以,今年一個很重要的研究方向,是因為現在開放的模型、大家可以自己下載模型,已經早就超過 GPT 3.5 的能力了,而且事實上已經非常接近 GPT 4 的能力了。很多人會說,今年一定就會超過 GPT 4 的能力——至少在純文字上——所以這個時候你就不需要去做取捨。

以前是你要能夠自己再調校,它能力就會比 GPT 差,但你如果不能自己調校,GPT 容許的調校範圍很窄的。這時GPT 就可以享受到比較好的功能,但你對它的控制力比較低,對不對?

去年是有這個權衡,你要就調一個比較厲害的,但你能調的範圍真的很有限。你如果想要自己從頭調過,那威力就不怎麼樣了,能力就不怎麼樣了。但在今年,特別因為是2月這波新開放的模型出來,大家發現說你在可以自行調校的前提上,它的能力都沒有比 GPT 4 差多少,或甚至一樣,這時我想就會有越來越多人,因為要自己調校的關係,會去選擇這種比較開放的模型。

自己調校的意思是說,比方說企業內部,他可以給一個自己的…

對,一個詞彙表。你這個模型拿來,配上你內部的詞彙表,然後跑個一個晚上或兩個晚上,你就有了一個學會你的這邊特殊的、能夠要求你的在地的、我們叫地端的模型。可以有一個更好的準確性、調校過的新的模型,但就是微調,稍微調一點點。

某種程度來說,它還是把過去留在語言裡面的,那些行內知識、沒有被文字化的行內知識,灌到這個相對地端的 AI 模型裡面,好像給它上補習班。

當然OpenAI 也有賣微調服務。可是它的那個服務非常非常貴,就除非你非常有錢,不然通常付不太起。但你下載下來,在自己的機器上微調,或你租個雲端來微調,現在需要花的錢真的就很少,可能幾千塊。所以會越來越多人,因為準確性的要求,就開始去看到這種開放式的、地端可以部署的模型的好處。

我想再請教部長的是,這個可能會直接影響到的企業,我們不要講說會被取代,可能某種程度上,讓一些人的工作改變嗎?

當然,像我們剛剛講到的翻譯,就是最好的例子。如果現在機器翻譯的準確性,一直都不夠好,那翻譯的人,總是最後還要有一個重新校對的一個過程。

如果現在機器翻譯的模型,可以很容易去微調成這個滿足準確性要求,當他準確性高過專業翻譯工作者的時候,專業翻譯工作者就會變成只需要最後稍微校個稿。他大部分時間,反而是在調這個模型,而不是在翻譯文章。我想很多地方,大概都會看到類似的情況。

這樣的技術什麼時候會普及,或是它可能會有另一波像去年那樣的熱潮?

我們評測的這個能力,大概今年會陸續建置。因為這主要是企業端才需要,你是一個比較大的組織,才有自己的行話,個人的行話可能沒有那麼多。所以,我不覺得像之前 GPT 一下到 2C 的時候,那樣子變成好像每個人都有點 FOMO,「這個我沒用過,是不是落伍了」這樣。

所以應該不會到同樣程度的熱潮。但就實用性的要求來講的話,確實會有越來越多這樣子的需求出現,所以不會是這一、兩年內的事情,有可能三、五年內,會慢慢走向這樣的情況。現在技術上已經比較成熟了,大家感受到這種需求的程度會越來越多。

你一旦有這樣子的需求,你的下游開始跟你要求準確性的話,你去挑準確性高的模型,或是你透過微調的方法、對齊的方法,讓你手上的準確性變高,這個需求才會創造出來。有了這個需求之後,就會有更多人投資在這種調整的技術上,但這些技術,都是已經成熟的技術。

我想跟您分享一下,其實今年我們會做專欄調整,應該說讀者很喜歡看私人經驗,也就是對於某個議題的私人經驗或者是個人的見解。

所以,未來這個專欄的採訪裡面,我們會希望您跟我們分享更多你過去這一個月曾經發生過的那個事情,然後跟題目相結合。


然後,這篇我應該就會用你剛剛講的「窩心」那個例子作為開頭,然後帶出準確性,它會在哪五件事情上面會是最重要的,及為什麼這件事情重要。再來,就會講這個東西它如果要落地到特定行業裡面的話,它的作法會是怎麼樣。

對,我覺得你如果要舉特定行業的例子,倒不妨舉法律相關領域,不管是律師事務所或者是甚至未來公部門來使用的例子。因為法律就是一個很明確的、有它的行話的領域,也就是說,同樣的字在日常用語是一個意思,但在法律很可能是另外一個意思。

像我們平常說這個有沒有「辦法」,辦法是那個意思,但是在法律裡面「辦法」完全另外一個意思,類似於「要點」。或許不一定要用「辦法」這個例子,可能再想別的例子,但法律就是一個非常需要準確性的行業,而且它的用法、行話的用法跟普通語言不一樣。

所以,我想今年我們也會特別關注這種生成式模型,如果用在法律相關的工作上的話,怎麼確保它是不只是符合我們當地中文用法的準確性,而且也符合六法全書裡語言的準確性。

好,請問部長還有要補充的嗎?因為訊息量應該是夠了。
