所以它在技術上面也好、在法律上也好,都可以節省平台方的成本。所以,目前以我們所知,已經有在做這些 KYC 的,這些數位經濟相關的行業,對於能夠用一種自動化,而且又可以節省他們的時間,然後在法律風險上也比較少使用這樣一種數位簽章的方法,都是樂觀其成。希望有回答這個問題。
而且,數位簽章因為按照新的《電子簽章法》,它已經推定是本人簽名的效力,所以它用技術直接去驗證就可以了,不需要每次再去看身分證正、反面的照片,它到底是什麼時候拍的?它真的是針對這次來提供來使用嗎?還是說這個人也可以主張它的正反面照片是之前留給別人的,是那個人冒充他?這在舉證責任上比較麻煩。但是因為每一次簽到電子文件,數位簽章都會留那時具體的日期、時間等等,所以就很清楚說我這次簽,是為了登這個廣告來使用。
當然這裡的挑戰是如果要把這種 KYC 的做法變成各種廣告,像投資廣告什麼都要適用的話,目前從 Facebook 的角度來看,它驗證文件所需要的成本,包含需要的時間等等,就會越來越高。
至於,問到平台是不是有技術上面的能力,我們舉 Facebook 當例子來講好了。在政治類的廣告,Facebook 現在已經有 KYC 的要求,如果要在好比說選舉期間,登一個幫誰助選等等的這種廣告或者是他們叫做泛政治類的廣告,當然包含社會議題的廣告,目前他們需要透過像正、反面影本的身分證,或者是其他的證件,來進行真實性的確認。
所以,接下來我們也會跟內政部警政署、金管會儘快協調,看是不是儘快在要點層級把這個準備好。當然它實際上要生效,需要數位簽章給予這個法律的定義,所以還是需要立院三讀通過《電子簽章法》這次的修法。但是我們會儘量準備,修法一旦三讀通過,我們這邊不管是技術上,還是行政規則要點上面的配套,就可以第一時間做好。
至於,需不需要再去修法,好比像說 《證券投資信託及顧問法》,需不需要修法加入數位簽章的字樣?以我們所理解,它是母法,已經授權警察機關,有個 《警察機關處理違反證券投資信託及顧問法第 70 條之一案件統一裁罰基準及實施要點》。所以它是在要點層次,把 24 小時之內下架、揭露姓名、冒充名人的情況要加速處理等等,這些是寫在要點層級。
第一個是,我們管轄「無實體網路廣告」這個營業項目,會不會需要修法?以我們所知,行業登記表的修訂等等是屬於行政上面的公告。
我看 slido 有個問題,我們是不是就接著來回答?這是中央社思云的問題,可能分成三個。
所以這樣子的情況下,好比像我們一些銀行跟立陶宛那邊的企業要進行金融的往來,或者反過來,我們存取立陶宛一些 Fintech 等等,這些部分都可以透過這樣的方式,而不是像現在如果一定要紙本的話,就要透過像 FedEx 等等方式,把紙本的文件從這邊寄到那邊,我想碳足跡或需要等待的時間,透過數位簽章的方法,都可以大幅節省。不曉得俊秀有沒有要補充?
另外還有一個例子是,像我們之前有去立陶宛,立陶宛是非常普遍地在使用這樣數位簽章的技術。由於我們以前舊的《電子簽章法》,現行版本並沒有技術對接、安全相當,可以彼此承認,所以目前為止還沒有國外的憑證機構跟我們來申請承認的情況。現在我們新版是,只要安全程度是 OK 的,技術可以直接對接,不一定需要簽兩國之間的合約,我們還是可以互認彼此的簽章。
像您剛剛提到金融方面,不管是個人的開戶或是貸款等等的應用,或者是法人的應用等等,今天在院會上金管會黃主委也說,《電子簽章法》通過是讓他們法定的效力變得更強,然後更容易去確認這個人數位簽章的身分。所有跟金融有關的業務,都可以來運用。
對於一般人來講,其實任何需要簽名或蓋章的場合,我們新的電子簽章法通過之後,只要相對人不反對就可以去運用我們電子簽章、電子文件的方法進行線上簽署。
很棒的問題。對,我們剛剛講的主要是防詐方面的應用。
我就先補充到這邊,接下來就如果大家有提問的話,我們再來回答。
我們就會第一時間主動發現這些狀況,特別是在投資詐騙的態樣裡面,盡快地去協調大家都要運用數位簽章,然後來進行源頭管理。
當然,在大家的關注之下,我們也看到大家希望我們不是只是去掃描電商,或像這些投資詐騙廣告,其實數產署所負責的所有這些數位經濟相關產業,甚至包含第三方支付、遊戲產業等等,接下來都會是我們聯防平台的成員。
所以我想這部分的工作,我們也很積極地在跟經濟部進行討論。因為在此之前的廣告業,包含實體、網路上的廣告是經濟部所主管,現在因為數產署成立了,所以就是無實體的純網路廣告平台,我們接下來也會爭取成為主管機關,希望很快能夠成為「無實體廣告業」的目的事業主管機關。這樣的話,我們作為主管機關,再加上《電子簽章法》,如果修法通過的話,就可以有相當多源頭防治的運用方法。
第二個,他以後再去刊登這種投資詐騙的廣告,也沒有辦法那麼容易地再變出另外一個自然人的身分來,因為他不可能再取得數位的印鑑證明,然後另外做出一個數位簽章等等,這樣的話,就可以很有效地達到聯防效果。
第一個是以前被檢舉下架之後,他換另外一個帳號後又上架,所以就變成每個 24 小時下架之後,你隔天又看到差不多的東西。但現在因為數位簽章,是關係到這個個人,所以他如果真的簽了,發現是假冒的,然後把它下架之後,同一個自然人在別的平台所登這些投資詐騙等等的廣告,我們透過聯防的通報系統,就可以一次告訴其他人都要下架。
這樣有什麼好處呢?
所以,接下來我們就會跟主要的網路廣告平台,像剛提到 Facebook、YouTube 或者是 LINE 等等說這類的投資廣告,未來不是上架後被檢舉再下架,而是上架前就要求上架的那個人去簽數位簽章,也就是要為他刊登的內容負責。
現在數位部透過《電子簽章法》修法,剛才俊秀副署長有說,我們不是像以前那樣只有電子簽章——好像電子文件上面蓋章而已——我們還多加一個層級:數位簽章。等於那個蓋章有一個印鑑證明,可以證明真的是這個人蓋下來的章。
但 24 小時下架之前,那個名人的臉還是在那裡,大家滑的時候還是看到那個廣告,所以造成相當大的困擾。
像這樣的投資詐騙,我們在防詐相關的聯防機制裡,數位部數產署其實都已經有主動去掃描。它如果是連到一頁式的網站的話,那個網域如果你有點下去的話,你就會看到 165 已經把它的網域攔阻掉了,也就是把這個訊息攔阻掉了。
很謝謝俊秀剛才的說明,接下來我就舉實際應用的案例。大家可能知道現在在網路上很多的廣告平台,好比像 Facebook、YouTube,有時會看到某個名人的名字,甚至還有他的照片,然後說就是他推薦什麼投資之類,請大家加入等等。
謝謝。
所以,我想今年我們也會特別關注這種生成式模型,如果用在法律相關的工作上的話,怎麼確保它是不只是符合我們當地中文用法的準確性,而且也符合六法全書裡語言的準確性。
像我們平常說這個有沒有「辦法」,辦法是那個意思,但是在法律裡面「辦法」完全另外一個意思,類似於「要點」。或許不一定要用「辦法」這個例子,可能再想別的例子,但法律就是一個非常需要準確性的行業,而且它的用法、行話的用法跟普通語言不一樣。
對,我覺得你如果要舉特定行業的例子,倒不妨舉法律相關領域,不管是律師事務所或者是甚至未來公部門來使用的例子。因為法律就是一個很明確的、有它的行話的領域,也就是說,同樣的字在日常用語是一個意思,但在法律很可能是另外一個意思。
好的。
你一旦有這樣子的需求,你的下游開始跟你要求準確性的話,你去挑準確性高的模型,或是你透過微調的方法、對齊的方法,讓你手上的準確性變高,這個需求才會創造出來。有了這個需求之後,就會有更多人投資在這種調整的技術上,但這些技術,都是已經成熟的技術。
所以應該不會到同樣程度的熱潮。但就實用性的要求來講的話,確實會有越來越多這樣子的需求出現,所以不會是這一、兩年內的事情,有可能三、五年內,會慢慢走向這樣的情況。現在技術上已經比較成熟了,大家感受到這種需求的程度會越來越多。
我們評測的這個能力,大概今年會陸續建置。因為這主要是企業端才需要,你是一個比較大的組織,才有自己的行話,個人的行話可能沒有那麼多。所以,我不覺得像之前 GPT 一下到 2C 的時候,那樣子變成好像每個人都有點 FOMO,「這個我沒用過,是不是落伍了」這樣。
如果現在機器翻譯的模型,可以很容易去微調成這個滿足準確性要求,當他準確性高過專業翻譯工作者的時候,專業翻譯工作者就會變成只需要最後稍微校個稿。他大部分時間,反而是在調這個模型,而不是在翻譯文章。我想很多地方,大概都會看到類似的情況。
當然,像我們剛剛講到的翻譯,就是最好的例子。如果現在機器翻譯的準確性,一直都不夠好,那翻譯的人,總是最後還要有一個重新校對的一個過程。
當然OpenAI 也有賣微調服務。可是它的那個服務非常非常貴,就除非你非常有錢,不然通常付不太起。但你下載下來,在自己的機器上微調,或你租個雲端來微調,現在需要花的錢真的就很少,可能幾千塊。所以會越來越多人,因為準確性的要求,就開始去看到這種開放式的、地端可以部署的模型的好處。
某種程度來說,它還是把過去留在語言裡面的,那些行內知識、沒有被文字化的行內知識,灌到這個相對地端的 AI 模型裡面,好像給它上補習班。
對,一個詞彙表。你這個模型拿來,配上你內部的詞彙表,然後跑個一個晚上或兩個晚上,你就有了一個學會你的這邊特殊的、能夠要求你的在地的、我們叫地端的模型。可以有一個更好的準確性、調校過的新的模型,但就是微調,稍微調一點點。
去年是有這個權衡,你要就調一個比較厲害的,但你能調的範圍真的很有限。你如果想要自己從頭調過,那威力就不怎麼樣了,能力就不怎麼樣了。但在今年,特別因為是2月這波新開放的模型出來,大家發現說你在可以自行調校的前提上,它的能力都沒有比 GPT 4 差多少,或甚至一樣,這時我想就會有越來越多人,因為要自己調校的關係,會去選擇這種比較開放的模型。
以前是你要能夠自己再調校,它能力就會比 GPT 差,但你如果不能自己調校,GPT 容許的調校範圍很窄的。這時GPT 就可以享受到比較好的功能,但你對它的控制力比較低,對不對?
所以,今年一個很重要的研究方向,是因為現在開放的模型、大家可以自己下載模型,已經早就超過 GPT 3.5 的能力了,而且事實上已經非常接近 GPT 4 的能力了。很多人會說,今年一定就會超過 GPT 4 的能力——至少在純文字上——所以這個時候你就不需要去做取捨。
好比,我們現在很多翻譯社,在你給他翻譯文章的時候,你可以給他一個 glossary、一張詞彙表,然後說在我們的用法裡面,這個英文字就是要這樣翻,而不是那樣翻。所以,等於再給他一張額外詞彙表的這件事情,再進一步對齊。
所以也不要覺得 TAIDE 就這樣對齊,一切事情都解決了。而是我們自己在部署在應用的時候,我們還可以再做第二次的調校跟對齊。
當它有一些自訂的詞彙、一些行話(jargon)的時候,不管是 TAIDE或者其他是對著教育部詞彙訓練的模型,都沒有辦法完全達到在那個特定行業,或特定場域裡面要的準確性。
對,我們說隔行如隔山。其實每一個行業裡,都有類似於剛剛土豆或窩心的狀況,一個詞語都在臺灣使用,但是跨了學門意思就不一樣了。又或者是可能有一些公司或者是一些事業,它內部有一些自己約定俗成的詞或者一些簡稱,這些在外面的字典是找不到的。
我們在這邊講的只是「土豆」這個字跟「花生」這個字比較近,還是跟「馬鈴薯」這個字比較近?或者是「窩心」這個字,它跟「溫暖」比較近,還是跟「不舒服」比較近?這種字的距離,好像跟我們在應用上面,所謂道德倫理,關係好像比較小一點。
因為等於是它幫我們做了,是守門員的概念嗎?可是「字的意思」好像無關乎道德,對不對?
因為它這個預設的回答,顯然符合北京話的準確性的要求。他們那邊也可以有準確性要求,所以你不能說它原始資料有誤,你應該是說它的原始資料不是符合我們這邊的準確性的要求。這時就要透過對齊的方式。所以,像 TAIDE 在 Llama 的基礎上繼續訓練,去調整、讓它對齊,變成能夠符合我們這邊準確性要求。
你剛剛提到如果一開始訓練的資料,就像我剛剛舉的例子,Llama 一開始訓練的資料裡面,顯然「窩心」是不舒服的意思的原始資料比較多,它才會選擇這樣翻譯。但你要說它錯誤嗎?也不是錯誤,只是它沒有符合我們這邊的準確性要求而已。
所以我們不會自己憑空發明題目,我們找這種準確性題目的時候,後面都會盡量用現有的,而且是有教育規範效力的。像剛剛講到國家教育院的雙語詞彙、學術名詞、詞書資訊網或教育部其他的資訊網等等,都可以當作我們出題的方法。