意思是跑完轉檔工具之後,不管是 in put 或者是 out put 都不是開放資料,老師剛剛問的是這個,用來訓練模型或者怎麼樣,我們也不知道,反正就提供這個工具,並不是用了這個工具就必須承諾未來某一天會變成開放資料。
這個我們已經有討論過嗎?
老師的意思是上面的 ODT 是已經掛在 data 平台上或者不是?
這個做一次,接下來各部會就省很多力氣,這就很像公建的形狀,很多都可以放到公建的形狀裡面來處理。
所以剛剛講的並不是 CKAN,而是讓我們這個看起來很像 CKAN 一樣,對著大家 CKAN 寫好的工具去對接。
我們這邊有支援 DCAT 嗎?就是他們 CKAN 彼此間互通的?
像這樣的方向,大家覺得怎麼樣?
我舉例,好比像 data 平臺上有很多朋友覺得目前只能用關鍵字跟「#」,但是大部分的人不知道怎麼下關鍵字跟「#」,所以如何分類的話,可以用相似的意思搜尋,一次碰到比較多的資料集,像現在 RAG 這種東西,現在在民間是理所當然的事情了,其實我們自己的建置能力未必到那裡,所以意思是這邊 open source 出來之後,說不定找第三方的團隊去做融入 AI 來檢索的工作,但是因為 public code,別的單位也可以來使用。
這個類似 AI public code 的想法,就是 data 這個平台,上面還沒有提到 AI public code。我們的想法確實一開始大家會架的並不是一整套 data 平台,反而是第 13 頁的工具,那些工具有一些聽起來像結構化的文件等等,但是有大家彼此用開發工具的習慣,我相信很快就會有比較永續性而且可能用得到 AI 工具在上面。
一方面像剛剛老師說的,如果我們自己訓練出 AI 模型,可以在公務上用得到,這個對需求方是很明確的誘因,但是 CK 有想到什麼提供方的誘因嗎?
剛剛講到這些指引,很多都是降低風險,也就是風險管理用,最後處理到開放的情況,是不會造成公務員的負擔。你剛剛提到的疲勞是做這件事很累還是沒有誘因?
看大家有沒有其他的追問?
剛剛聽到的是,簡報右上角不太瞭解具體要怎麼樣達到,大家今天可以討論,但我覺得滿重要的是,所謂的「資料匯流」是什麼意思?不然大家會用一些形容詞或者是名詞,像「資料大壩」是韓國大壩還是哪裡的大壩,比較容易補上自己的意思,所以我是滿建議看多元司能不能說把隱私強化技術或者是資料經緯的部分整理成比較像願景文件,剛好可以放在這一張兩、三頁的程度,再加上一些基本的說明,會後不只是民間委員,各部會的委員也可以有一些基本討論的依據,之後再商量哪一些指引的時候,也比較有共同的想像。
我想數據公益當然主要是因為有限制用途,所以跟開放資料不一樣,但是隱私強化技術的部分則是完全相關的。因為經過先進的隱私強化之後,確實有可能變成開放資料,所以至少在隱私強化技術的部分,不管是剛剛講的資料匯流的願景,或者是公建計畫利基的隱私強化技術指定用指引等等,我覺得倒是早一點讓委員知道可能會比較好。
一邊是 AI 研究社群跟資料提供者,另外一邊是資料管理社群跟我們這邊作為程式碼的提供者,如果沒有對接上的話,等於放出來沒有人用的情況。看有沒有第二個要討論的?如果沒有,是不是請多元司綜合回應?
OK,這樣大概瞭解。請嘉凱。
聽起來是這邊的高價值跟 AI 的社群研究是有重疊的,但是說不定也許他們要的有一些還不算我們本來判定為高應用價值。好比有點是要做藝術創作,我們目前並沒有把上次文化部的歸類成高應用價值。但如果那個不會用來回答事實性問題,就比較沒有誠實不誠實的問題,只有符合或不符合本來文化溯源的問題,也許相對好解決的話,那個價值可能就比這個還要高,可以這樣理解嗎?
所以確認一下,所謂的 AI ready,並不是把高價值應用資料,全部每一項都轉成 Hugging Face 相關格式狀態。而是先瞭解到學研界或者是自己公務用到哪一些,剛剛老師的意思是說有個精緻化的,類似平衡計分卡等等,國際標準怎樣,我們就做到怎樣。所以並不是我們要靠 data.gov.tw 來從頭預訓練一個模型,反正沒有那個量,而是把所有各領域用得到的精緻化資料集建立起來。可以這樣理解嗎?
所以老師的意思,是透過解釋蓋過去,或者法規本身可以修正?
也就是有沒有辦法蓋過法令,或者是作為那個法令的特別法?
我問剛剛老師的意思,舉例來說,schema.gov 有訂一些格式,或者是像第 13 頁有一些工具,目前的困難是,當然 ready to use,但是沒有一個機制變成業務單位就要做,或者是資料的需求單位,假設提供單位不做的話,需求單位有沒有機制可以自己來做,聽起來意思是這樣子,也就是資料供需雙方,並沒有一個 mandate 的狀態?
我確認一下,像剛剛第 11 頁有很多題目,每個都有點像 action item,聽起來委員的意思是,右上角除了寫預備資料匯流未來之外,很像 vision、mission 怎麼串接的這一件事可能沒有什麼著墨,會導致後面有點零碎,感覺上是這樣子。
感謝。聽聽看民間委員的詢問?
這個應該就解除列管?我剛剛有看一下,客觀上是有介接到,所以沒有問題,這個部分看闕次有沒有要提醒大家的?如果沒有的話,那就這樣子,剛剛所謂的資訊公開就停在資訊公開狀態,剛剛也說明了,以今天的會議紀錄來當作理由解除列管,再往下。
這個部分可以怎麼樣有應用價值,也請委員幫忙開始思考一下,我們在報告案的時候再進行討論,其他的部分聽起來都沒有問題,我們就往下。
我想問一下,剛剛說分成這四個,在報告案當中也會講,是不是要先摘要一下,基本上不管平臺或者是你們自己的,對於這樣子粗分四類的不同意見是什麼,這樣委員們腦裡比較有想法。
沒有的話,因為我才剛坐下來,我也沒有要特別 push 的意思。先往下。
簡單來講,是要格式一致都不容易,對不對?聽起來意思是這樣子。那如果用今天的會議紀錄當作說明,然後解除列管,自然會變成這個結果,如果沒有人要 push 的話。看有沒有其他補充?
謝謝。
是。我也想強調的是,這並不是只能進 AI 基本法或者是只能進其他部會的相關法律,我們自己的評測中心本身也有運作機制,所以我們也可以在評測中心的範圍當中先來做。文章如果要提到 AI 基本法,或許是作為一個引子,但是剛剛提到一系列的程序,是在我們現有評測制度當中就可以開始落實,不需要等到基本法三讀通過。
像我們之前也有討論過,其實 AI 的比重不一定要到八成,有的時候兩成也可以。所以 AI 可以作為引導師,其實引導的大概不一定比人類好,但是差別就是 AI 可以一次有 4,000 個引導師,人類大概沒有辦法,一下子要訓練 4,000 個引導師本身就是很大的挑戰;所以這樣的情況之下,如何讓大家在發現 AI 這一件事有所幫助,也就是正面的用法,並不是要擋住他而已,這個我們剛剛說要用來說 guide rail 這類的技術,我們儘量快速引導到能夠強化我們的治理、強化我們的公眾審議等等的這個方向去,我覺得這是可以強調的。
應該算比較領先。
所以,透過 AI 來引導討論,就有機會大家完全用線上的方式,你一次就可以好比 4 萬人來,但是我們就變成 1,000 個同時 40 個人的討論場域或者是 4,000 個的 10 人討論的場域,以前的困難不可能一次請到 4,000 個引導師來做小組討論,但是這 4,000 個都是 AI,就可以這樣做;這有一點像「我城對談」,事後的蒐集、整理、綜整等等,可以透過 AI 來加強,以我所知,目前國家政府來採用這樣一套有規模、持續地做,這個比較少,Meta 用這個方式已經做了兩、三次了。
以我所知,如果去找「Deliberative Polling」計畫,他們當然在各國都有一些審議式民主學者做了類似的事情,但是之前他們一直有一個挑戰,要大家到同樣實體的地方來進行審議討論的成本相當高,以至於不能像現在滾動式民調的每兩天做一次一直做,但是像現在這種線上的好處,很多引導師的工作,一定程度可以交給語言模型、AI 來做,因為它真的聽得懂你講話的意思,雖然沒有辦法精確體會你的感受,因為生成式 AI 還沒有身體,但是至少知道你講的這一句話跟這個題目是不是有切題、是不是需要拉回來、是不是要問你是不是可以講一些事實基礎等等,這個程度完全在語言意思的層次,這個 AI 是可以做的。
剛剛講的「審議式調查」,理論上可以兼具大家審慎地討論及全人口抽樣代表性,並不是少數先期參與者,所以這樣的方式我覺得還滿值得我們來試試看,未來如果有機會的話,也希望成為評測中心持續的部分,不過這個當然要跟評測中心的委員們討論。
我想先 push back 一下,如果有不破壞臭氧層的冷媒,那麼製造冷氣機或者是冷卻的事業,還會覺得破壞臭氧層是我的自由、科技就是要無限制的增長嗎?不是這樣子,大家瞭解到有明確的公共危害,而且投資去找出替代品之後,不用那個新的替代品,基本上就是公害,就是害群之馬,而且也沒有經濟誘因去做這一件事,這個我們上次訪問都有討論到,所以我不覺得有什麼問題;現在的問題是在前期的社會評測沒有做,你就只能做所謂最後要掉下懸崖前擋住的護欄,就像你剛剛講的,但是我們除了做 guard rail(護欄)之外,我們還可以做 guide rail(導軌),我們前期就知道會有這樣的情況,我們就可以導引產業去往我們已經知道比較不會造成公共危害的這些方向來進行發展,這個我想在環境的治理上有非常多的例子,我不在這邊繼續舉環境污染的例子,相信你們應該滿瞭解的。
但是另外一個方法是,像審議式調查的方法,也就是「sortition」,抽出全國具有代表性的某些人,裡面幾百人、甚至上千人在線上類似 Google Meet 當中去進行腦力激蕩,這樣既可以注重人口的抽樣代表性,也就是大家都有機會參與,並不是只有知道這一件事或者是先期參與者參與;二方面,根本還沒有應用或者是受到影響的人,有機會透過一段審議的過程,先瞭解有這一件事,而且放在自己的生活情境當中,想一想如果輪到我或者是親朋好友或者公司,開始這樣採用的話,預期會有這樣的危害。所以廣泛抽樣跟精確討論跟審議,我們分別都有做一些,但是把這兩個結合在一起,目前都還在規劃。
這有兩個部分,第一個是所謂的「self-selection」,也就是我自己覺得有的危害,能夠應該有一個地方可以讓我舉手發言,而且跟其他與我類似處境的人討論,這個是一個。另外一個,可能也需要一定廣泛的代表性,在一些文獻當中,我們可以看到有一些是採取民調的方法,先知道人口比例是什麼,然後做分層抽樣、抽個一千多人、正負 3%,大家都很熟悉這一套的信心指數、然後問它一些問項,但是這種傳統的民意調查方法是,很難問開放性的問題,問的是已經知道哪一些危害,然後問嚴重不嚴重,這個可以,要打電話問都可以;但是如果是問開放性的問題,像工作上感覺到有破壞哪一些在意的價值等等,這用電訪及純統計代表性的量化方法就比較難做到這一件事;當然,這種互動式訪問也因為生成式 AI 出現,這個技術也在進步。
應該這樣講,如果某一個技術在下游應用的時候,會造成不可逆的公共危害,當然環境污染是最常舉的例子,我想不會有人說把臭氧層破壞掉是冷媒製造商的自由,按照上次討論的例子來講,所以這個跟自由沒有關係,沒有誰有破壞我們居住環境的自由,所以差別只是在你多快可以讓整個社會、業界瞭解到某些特定的應用方式,當這些條件滿足的時候就會造成重大危害,像手機的螢幕很小,不是危害,手機是用觸控的,很方便、也不是危害,推送通知也不是危害,透過 AI 來讓你看到你覺得比較有意思、會待比較久的社群、別人的貼文本身也不是危害,這幾個加在一起就是會產生成癮性、注意力相關的問題,就會產生很多包含言論極化等等的問題,這個是我們在過去十年有看到的;但是你看裡面的每一個科技,難道你要禁止觸控式螢幕?這個是不可能的;我們是預先要先讓社會瞭解到,有些人把這個加在一起用,當加在一起用的時候會有重大危害,所以如何快速發現這一件事才是重點。
這類俗稱「沙盒」的這些法案,可以說是育成後面法案的孵化器,在這當中試,如果發現有重大危害,我們說不定後面要通過法規的修正去抑制這個危害,如果在這個沙盒當中發現有重大的利益,我們說不定也要修正既有的法規,本來限制的東西要開放,不是本來開放的東西要限制而已,等於這種實驗調適的機制,我覺得也是相當重要的。
當然其實我們有一些法規的設計,像金融創新相關的實驗條例,也就是俗稱「金融沙盒」或者是「無人載具的相關實驗條例」等等,這些法律存在並不是要預測未來會需要立哪一些法,而是讓他有一個先期實驗的場域,在這個先期實驗的場域裡面我們花比較多的時間來看如果無人載具進入社會,這個社會的反應是怎麼樣,並不是一下子讓無人載具在全臺灣都可以跑,或者一個金融事業要導入 AI 來進行某部分的活動或者是工作,同樣先讓一些自願的測試者來讓我們知道這個過程中是不是會有好比像潛意識影響人等等的這些問題或者是個資、隱私等等的問題。
對,也就是預防性的,也不能叫「監管」,比較有點像「調適」,也就是讓社會知道有這樣的一種新能力出現,可能會造成這些危害,我們就預先採取哪一些新的方式,來讓這些危害不能蔓延、不嚴重等等的情況,這個是先期的,也就是預防勝於治療,但是後面治療、懲罰等等,這個當然還是會有。
但是,如果最後被發現投資詐騙的危害被先期發現了,最後要通過修訂這一方面懲罰的法律,當然還是要回歸到金管會、消費保護體系去,所以每一個不同的部會都要參加到危害發現跟對峙的概念裡面。
我們要建立的是這樣一種機制,這種機制不是只是在這些 AI 系統或者產品的研發過程中去進行評測,我們有一個評測中心可以評測一些性質,而且也要實際布署到社會,但是社會還沒有大規模採用的這一段時間來做「社會評測」,也就是我們去問先開始用的人,已經感覺到會有怎麼樣的危害,因為我們不是那些從業人員,其實沒有辦法在實驗室裡或者是開發商這邊就預先想到會造成這樣、那樣的危害,所以應該要有一種系統性的方式,至少每半年等等透過一種調查的方法來廣泛蒐集大家看到未來半年看到的危害是什麼,有這樣的機制。
不能這樣講,這樣講很像說如果訂了 AI 基本法,剛剛講的那些投資詐欺、選舉跟其他相關都不用處理了,絕對不是這樣子。
我再舉一個例子,像我們在疫情的時候,就已經有發現到每次要開發新的、大的系統,就有一些詐騙訊息問是否才剛從口罩系統訂了口罩,但其實並不是真的有取得使用者個資,只是因為所有的人都在做領取口罩的這件事,所以亂槍打鳥的擊中率很高。但是,我們從今天開始,所有機關在共同供應契約上都可以很容易用一封 0.75 元的價格來共用「111」的簡訊號碼來進行發送,以後等到大家都採用了,我們很快就會說不是用短碼發送的,基本上當作詐騙就好了,就不需要再一一回應不同簡訊詐騙的態樣,就像你講到的退到一個源頭,如果不是藍勾勾或者是短碼,這樣就是假的,這也是打預防針的方法。
大家看到這個東西或者是信以為真之前,就先打預防、接種疫苗那樣,先讓大家知道未來會有這樣的危害,大家用自己的方式能夠提高警覺等等,等到這個造成危害的技術變得普及的時候,相對衝擊就沒有這麼大,因為大家心理已經做好防備,而且已經知道要如何對應等等,所以我覺得超前布署還是最重要的部分。
但是我剛剛講的不是,我剛剛講的是超前的態度,在還沒有發生大規模損害,只是危害,也就是有損害的可能、有這個危險與風險,可能只影響到一小部分的人、影響的程度不嚴重,在大規模蔓延之前,我們如果已經有一套系統的方式,好比像半年前就先發現有這樣的情況,我們就可以超前布署來說我們怎麼樣開發不只是防治的部分,而且也是提前教育大家,好比像幾年前有請科技會報辦公室當時跟我拍的一支影片,用很便宜的手機或者是筆電,Deepfake 我自己的影片跟影像,跟大家說現在用 Deepfake 很容易的這件事。
這個後面有一個想法,好像我們打地鼠,冒出一個、我們就來處理一個,如果很嚴重,我們就通過法律來處罰,後面有隱含的是,很像反應的速度不及危害出現的速度,所以是追著跑的感覺,我可以這樣理解嗎?
就像裡面重複的部分,像同一個人用同一支 AI 程式攻擊相當多不同的標的,不管是攻擊要騙錢的部分,或者是其他資安方面的攻擊,我們在防守方其實看起來很像是上千個不同的事件,但是事實上不管是調查、處理或者是後面一些相關程序的時候,事實上都是完全重複的,因為其實是只有一個,如何確保不能因為分身攻擊很多地方,我們這邊就要花幾百或者是幾千倍的這種行政作業流程、文書處理流程等等,這是很重要的一件事。