所有這些討論的每一字都有記錄。資料很有趣,一般送禮物的時候你送了別人禮物,你就沒有了,但是資料是你送完別人之後你跟他都有,用的人越多、價值越多,像所有這些討論,以及各部會的意見都收集在vTaiwan這個平台上。
今天我們不可能討論很多技術細節,但是按照不同的資料使用方法,我們可以使用不同的去識別化的方法,而代碼化真的不是一個有效的去識別化方法。
Google Chrome在回報你的使用訊息的時候,它對每個位元丟一個硬幣,有一半的幾率是正確的回報,有一半的機率是亂數值回報,這個叫做differential privacy,這個時候我們即使是NSA,在中間截聽了這些資料,也沒有辦法推斷出這個人到底機器上面的狀況是什麼樣。
在這裡想再強調一次,如果是特定目的,使用者在生成這個資料的時候,就知道這個資料會被你拿來做分析的話,你就完全不需要管這一大堆限制。為什麼我們要討論這個?是因為它是要做目的外之利用,所以要經過一個去識別化的方式,我們在vTaiwan很慎重地討論了。
討論完公司法之後,我們就開始討論資料相關的,這個是去識別化的議題。公共部門收集了很多資料,你把它改成一些代碼,但是那個代碼跟識別符一一對應,這樣算去識別化嗎?這個在國際上的定義並不明白,所以說我們當時vTaiwan就在討論:到底什麼樣的程度算是無從識別。
我們獲得了一個粗略共識以後,就寫一個建議書,請行政人員去逐條回覆。
我們工作組怎麼進行呢?我們在討論裡面,會看大家的論點,字體有七個粗細,越粗表示越多人給這個論點,O表示實況的描述,R是大家的反應和期待,I是大家的具體建議。我們給出所有的留言,現場的人在現場參加,不能前來的人可以通過螢幕參加,我們這邊討論每20分鐘會切過去20分鐘,然後去看線上,去收集這邊的意見,盡可能讓遠端的人和近端的人有相同參與的權限。
所以公司法就修改了,實施細則即將頒布,在今年年底之前上路。
立法院為什麼會把有些法案往後排,排到最後一案?立法院最常用的原因,就是『尚未取得社會共識』。經過這樣的過程,尤其是一些立委助理也有參加,他們沒有辦法說尚未取得社會共識,所以兩大黨都表態說完全支持vTaiwan的這份建議書、完全支持這個精神。
之後建議書就送給經濟部,經濟部就審這個草案,然後再找各個縣市的團隊,他們討論一輪之後覺得這個建議書不錯,於是就逐條回覆哪些有採納、哪些沒有採納,哪些在未來的實施細則裡面訂定,過了一個半月就出院會了。
過了五天之後,我們請在討論裡面有提出建設性意見的人,一起來寫出一個建議書。我們不太懂法律,所以是按照我們知道第一線事務的狀態,來提建議。我已經退休了,所以我是中立的主持人,帶學者跟這些新創公司的朋友,討論公司法如果要修改的時候,它的應修改事項、不得修改事項、應該考慮的東西。
按照g0v一貫的效率,我們瞬間變出了一個prototype,然後在2月1號開始初步討論,真的有很多新創公司的朋友和法律界的朋友來討論,討論之後過了一個半月,借用行政院場地辦了民間的諮詢會議,用直播、文播的方式讓大家知道。
臺灣有非常多的公司都是去開曼設立,因為創始人想要保有超過51%的控制權,而在臺灣的公司法規下,他們只有第二輪或者第三輪一定會被dilute掉,而技術股認定又很困難,所以沒有辦法跟創投合作。公司法也許應該要修正,但是要怎麼修正?他們找不到代表,這就是vTaiwan成立的一個開始。
而且更重要的是,這個社群是鬆散的。不會有人站出來說『勞動部您好,我代表所有臺灣的新創公司』,這是不可能的,所以會議很難按照他們本來的程序召開。因此,蔡玉玲就來g0v這邊以鄉民的身份挖個坑,然後說我們來討論:『可不可以不要到開曼設公司』?
另外一個問題,新創公司,因為當時勞動部的朋友們念頭一轉,最會找電傳勞動者的雇主是新創公司,我們不如把老板找來,他們也許可以分享一些意見,他們就問『請問一下新創公司有沒有工會代表,有沒有理事長,我們也可以請來』,當然也沒有,因為工會通常是一個很成型的產業,新創公司下一餐發不發得出來都是問題,怎麼可能有空去組工會。
他們就說『請問一下遠距電傳勞動者有沒有工會,是否可以邀請工會代表給一些政策上的指導』,然後我們就哈哈大笑。我們寫程式的人在遠距工作的時候自動打卡,但我們不敢代表遠端寫曲子的,不敢代表遠端畫漫畫的,這些其實完全不同的工作,而且也不可能有人敢說代表全臺灣的遠距的畫漫畫的,因為每個人都不一樣。
這裡是12/9的時候,g0v有4位朋友被邀請到蔡玉玲主持的一個會議,會議中勞動部的各科科長都到了,他們說想要討論電傳勞動,電傳勞動是什麼?就是我們在家寫程式,剛好我們四個人都是在家寫程式,所以他們想問,我們是否可以代表遠距工作者給一些意見。
三是資訊爆炸之牆:假設你又越過了白目之牆,開始真正討論那個法案,然後就會碰到資訊爆炸之牆,當一個法案要改一個字的時候,事實上又有別的主管機關,差不多要看50萬字左右,才能知道一個字的改動對所有人的影響是什麼。當然在行政也有專門的人來做這件事情,但並不是大家都有這種專業,所以就會變成懶人包來讓大家表達意見,可是很少的懶人包會直接連結到data,這樣懶人包裡面沒有寫的就不知道,很難作出完整的討論。
二是白目之牆:假設你現在有組織,你有一個關心的聯盟,你越過了無知之牆,實際到臉書或者其他地方去做討論,然後讓公共部門碰到,就會遇到白目之牆。如果那個空間設計得不好,一開始大家比較認真討論,可是後來留言的人不是說好棒棒就是說好壞壞,而且奇怪的是那些人得到的讚都很多,接下來就會有人開始貼圖了,一發不可收拾,然後就不用討論了,所以在這種情況下,你在臉書上要做有意義的討論,有效評論,對行政機關有意義的討論是非常非常困難的事情。
一是無知之牆:制定新創企業法案的人都沒有開過新創企業,但是那些實際會被法案影響的人都是最後一秒鐘才知道。
在網路上面做法規調適其實不是一個新的概念,從2004年Michael Herze教授就一直在討論,但是他們一直都會碰到很多問題。目前碰到的問題總結成三大障礙,而越過這三大障礙稍微比較成功的,是康奈爾的RegulationRoom,vTaiwan是以此作為範本,然後從這個基礎上面開始開發。是哪三個障礙?
我在之前擔任了六個月的行政院的顧問,現在已經卸任了,是從data governance的角度來看這件事情。我跟國發會主要合作的是vTaiwan這個計劃,這個計劃很特別,完全沒有拿任何補助款,從政府的角度來看是收集民意,從民間校對來看是收集部會意見。這是一個雙向的溝通平台,我們在這上面討論很多網路法規的調適。
這就是我們在g0v怎麼做Crowdsourcing,怎麼樣讓大家覺得主動提供資料不僅是一件有意義的事情,而且也是一件好玩的事情。
另外一個例子是阿美語字典,這次不是切豆腐,是切豆干了,切成一條一條,你只要會打字就可以把它打出來。在臉書上我們發現阿美族的人很多,阿美族的朋友也很多,他們這樣號召的力量絕對不亞於政治獻金,所以同樣的一瞬間這麼厚的一本字典,一瞬間又變成了一本結構化的資料,然後你現在到amis.moedict.tw,你可以打『四邊形』就可以查到阿美語。
因為這樣的關係,每次我們邀請大家來做貢獻的時候,即使只有萬分之一的人來做貢獻也蠻多的。我們在幫教育部挑錯字的時候,用一個程式做對比,發現這樣兩個有一個是錯字時,電腦不能判斷哪一個是錯字,所以就請人腦來判斷,而每一個這樣的錯誤又有一個鏈結,所以你參加之後又可以分享和留言,很好玩就會分享,18天國教院收到的6000多個校正裡面有5000多個是我們這邊給出的。
我們知道在臉書上面要有傳染力,最好的方法就是附上一張圖,但是如果要附圖的話,截圖、盜圖這個問題很大。這個時候,萌典只要打字就幫你生圖出來,而且還有各種不同的開放免費字體的圖,大家覺得很好玩,這就是為什麼我們每個月有幾百萬人次。
資料的網址就是permalink,有它就可以做linked data。有這樣的鏈結以後,大家就開始在臉書上分享在萌典上查的詞。那麼萌典上沒有詞怎麼辦?絕對不是『404找不到』,而是把它斷詞,比如說斷成開放、資料、工作坊,然後給出底下的定義,而且配上一個漂漂亮亮的九宮格的書法。
在網路上你要主動取得資料,在你邀請之前一定要先把鏈結和分享的文化做出來。像萌典當初為什麼發出這個計劃?就是因為教育部網站的辭典,你查到一個詞拷貝到臉書上,別人是打不開的。我的意思是說辭典網站是1995年的作品,當時大家並沒有permalink這個概念,所以我們就用新的概念做了一次。
在雨傘運動前夕他們領導都被抓了,所以他們在街上的哪些人不得已採取協作的模式,每個人每個地區做的事情都公開出來,直播、逐字稿,別的地方看到好主意就採用,不好的主意,像練詠春拳這個就不會採用,比較好的主意,像架關公像出來發現白道黑道都不太敢攻這個地方,那麼別的地方說做一個聖母瑪麗亞像,這個就叫做A/B testing,結果就會發現黑道兩個都怕,但是警察不怕聖母瑪麗亞,所以說後面關公就比較流行。重點是誰都沒有問過誰,這是一個協作的模型。
在香港佔中當時有一個畫家畫了這樣一幅圖,為什麼之前香港每一次社會運動都失敗,因為要大會通過,大會不通過的那一派就會覺得被收割了,所以就要切割。雖然香港社運發展得很蓬勃,他們充滿了社會運動的三大要素,就是收割、切割、帥哥,但是沒有辦法取得政治上的進展原因其中之一是:一直都要合作,而沒有辦法採取協作的模式。
合作的方式是大家都要先建立共識,先同意,可是我們知道到20個人都會出現階層,因為不可能每個人都很熟每個人,到150個人就再也不可能合作了,這是人類的限制。
為什麼萌典能做這麼多呢?並不是因為我這麼厲害,懂這麼多種語言。我完全不懂阿美語。重點是做阿美語的那個團隊根本不用問過我,因為我們採取的是協作的方式,而不是合作的方式。
我有經常參加的長期專案就是萌典。萌典有非常多國語兩岸辭典,民間捐出來的國語、台語(閩南語、客家語、阿美語),上個月藏語都進來了,基本上臺灣有人在使用的語言我們都會收錄。
我記得這是第一次在24小時之後,就獲得了衛星地圖上捐出來的震後圖資,這樣就可以把震後的也標出來,這樣的話紅十字會、聯合國進去的時候能走哪一條、不能走哪一條路,以及最重要的就是災民自己設置的帳棚在哪裡。
這是八仙塵爆時所有急診室推床的狀況,這是當時臺北資訊局提供的資料。塵爆的時候是在周末,人不在,所以g0v的朋友就可以自己做這樣的系統,也做各地血庫存量的系統。尼泊爾救災的時候也有,當時是把衛星圖切成一小塊一小塊,同樣每個人只需要貢獻一點點時間就可以把那塊的道路和建築物標出來。
所謂『誰在乎誰痛苦』,所以他就很痛苦,他一整天如果不把它做得更好一點的話什麼事都不用做,後來他就把它做得比較漂亮。後來我們發現在手機上、平板電腦上看起來沒有辨識度,那個紅點太小了,後來又改良,可是如果不是一開始有人不怕丟臉,就不會一張圖惹怒設計師,把更好的創意引發出來。
舉一個最簡單的例子,零時政府一開始的兩位發起人是特別會寫程式,但是特別不會做logo的,他們做的logo超醜,可是他們不怕丟臉,就把這樣超醜的logo掛著,有一位設計師就來了,他說看著這個logo全身不舒服。
我很喜歡的一個歌手的一句話,『萬事萬物都有缺口,缺口就是光的入口』。所有的事情都有不完美的地方,這樣別人才有參加的動力。
那為什麼叫做坑,而不叫做專案呢?因為我們不要有專案經理人、專案代表人的頭銜,我們就是挖坑、填坑的,它完全沒有上下階級。坑的另外一個意思就是說,一切東西都有不完美的東西,我們先面對,現承認那個不完美的東西。
因為是開源的關係,所以你填到一半跑掉也不會良心不安,接下來的人不用問你,也可以做下去。在這樣的前提下就是一個迴圈,你加入黑客松可以認識很多坑,你加入坑之後會認識更多人,他們會把推到各種松,你又認識更多坑,這就是一個零的迴圈。
昨天有20多個提案,每個提案人上來挖一個坑,說有些事情需要做,好比開放政治現金,然後需要什麼樣專長的人,比如需要兩個法律工作者、兩個文字工作者、兩個設計師等等,然後就組隊,最後就會發表,通常就會約每兩個禮拜做下去。g0v並不是一個一般意義上的團體或者組織,因為挖坑的人不能強迫別人來填坑,他填坑也不受坑主的指揮,很多坑主挖完就跑了,所以每個人都是自己要做什麼就做什麼。
今天跟昨天,都是兩個月一次的大型黑客松,幾百個人,有很多東西吃,進來的人自己拿一個自己的專長貼紙,可以貼在自己的肩膀上面,第一次來的人有梅花鹿,來很多次的人有黑熊。這個東西要做什麼呢?重點就是要提案。
反過來講,如果是在北韓或者在中華人民共和國,或者在一些中東國家,我們不要說12萬人,我們聚集到12個人就被請去喝茶了。所以你需要有一個卡在影印機時代的政府,跟一個蓬勃自由的公民系統,這樣才能作出像開放政治獻金這樣的事情來。
高嘉良去開會的時候,全世界20幾個國家做civic tech的人聚在一起,他們統計了一下,看起來以色列跟臺灣是最活躍的,臺灣的規模又是以色列的10倍,所以高嘉良就說我們不出國比賽不知道自己第一名。可是這個第一名並不是那麼值得驕傲,如果是在英國或者美國,他們的陽光法案,本來監察院這些資料就是公開的,不需要花那麼多力氣去做這些事情。
最後就是我們自由軟體的人,我們欠缺的就是公民精神,我們平常其實真的沒有那麼關心這些事情。g0v就是把這三種人結合在同一個空間,讓大家彼此學習到彼此的優點,這樣就可以作出這三方單一都沒有辦法做出來的事情。現在有很多臉書的訂閱,有很多透明公開的專案的共筆。
g0v提供一個空間,結合社運團體,好比剛才說的核456,他們持續進去把東西印出來,他們不習慣的是什麼?是分身伐樹,他們很習慣的是十個人,然後可能花一整年,把東西都打成資料,並不習慣把它切出去拿給幾萬個陌生人一起協作,所以這是開源模式。
這樣的模式是g0v一直以來運行的模式,本來群眾媒體,像張大春或者是馮光遠,他們個人都非常有影響力,臉書隨便上發一個文就有幾百個贊,但是他們並沒有行動主義的感受。像馮光遠好了,他為什麼用比較cynical文筆來寫東西?很大一部分是因為他覺得,他寫的東西不能真的改變什麼,這樣的話就會有一種無力感。
當然,我們也可以看到有些政黨特別艱困的選區,需要許多的競選經費,民進黨也有,中間紅色的顏清標委員不太需要政黨,自己有很多的選舉經費,可以做一些比較。
好比在11/29投票的時候g0v的朋友們找到了各地的市徽,就有人說按進去發現22個候選人,我看完了補助記錄、出席記錄、投票記錄之後就只需要從兩個人選,所以這對民主的深化是有幫助的。
結構化資料可以做什麼?在座的各位比我都知道可以拿來什麼,我們只能做一些很基本的,比如說顯示。這裡沒有針對特定委員的意思,但是我們可以知道他的政治現金從哪裡來,花到哪裡去,如果他是議員的話,跟他的補助款的公司之間有什麼關聯。