• 各位伙伴大家午安,大家好。我是這一場的主持人,我是彭啟明,任職於天氣風險管理開發公司,同時也是臺灣開放資料聯盟的會長。

  • 今天非常榮幸能夠主持這一場非常有意義的『開放^資料』。

  • 各位知道我們今天的講者是唐鳳,每個人心目中都有一個神,我知道唐鳳是在自由軟體的時候,那時候不知道他的中文名字是什麼,只知道有一個英文名字在網路上,然後這幾年他做開源,然後g0v,現在還有一些社會的運動。

  • 『開放資料』其實在臺灣這兩三年真的還蠻重要的,有的時候我感覺起來是像鐵板一樣,這個牆還蠻高的,但是政府裡面小幫手也幫助我們很多,所以需要大家各種力量的努力。下面,我們熱烈歡迎唐鳳。

  • 謝謝彭會長達人的介紹。

  • 今天的演講結構大概是這樣,我會分兩個部分,一個部分講Open Data ,另一個部分講Data Governance,兩個部分加起來大概講35分鐘,最多40分鐘,最後留10分鐘左右的時間問答。我的演講一般來講都會被認為講得特別快,所以如果有聽不清楚或者想討論的也歡迎隨時打斷我,然後我們就講的內容去討論。

  • 當時昇瑋要我講的時候,本來是『開放×資料』,各位議程上還可以看到,我後來想一想,乘法左右兩邊對調是一樣的,但是資料開放跟開放資料是完全不一樣的兩個概念,所以就換成了『開放^資料』。

  • 這是最近發生的一個例子,我們國家教育研究院課程發展委員會,我現在是課發會的委員,我們開會的時候聽到吳部長說『學生要求會上的發言都被公開,這樣委員就沒有辦法放心』,在他講這句話的時候我正在會場跟其他委員說把『被』字去掉,主動公開,大家就可以放心了。

  • 所謂的『開放^資料』,很多人是想先取得資料,這些資料本來不是為了開放而取得的,它是目的外之利用,然後政府再把它開放出來,可是這樣就有很多問題,包含個資的問題、目的外之利用的問題,當初被搜集的人其實不一定為了取樣,他們也不一定是主動的,你也許還要取得他們的同意,等等。

  • 但是你如果把它調換起來,一開始請使用者說做這件事情就是為了要累積資料,就是為了要把資料開放出來,這樣你就完全沒有後續利用的問題,這叫做主動公開。

  • 先請大家想一想,『資料開放:被動開放』跟『開放資料:主動開放資料』是兩件不同的事情。

  • 第一部分的主題要討論的就是Crowdsoursing(眾包),怎麼樣說服許許多多的人,一起來願意提供資料,讓後續的利用者使用?

  • 我們在這裡黑客松的時候,通常都會用三個關鍵字來介紹自己:開源、公民、黑客。開源的意思是部分或者全部地拋棄掉著作權讓其他人利用,公民的意思是關心這個社會,黑客的意思就是用有創造力的方式解決問題(當然不一定是不合法的)。

  • 我是1994年出社會的,工作了20年,2013年退休了,退休之後就沒事做,跟一般退休人士一樣做志願性質的事情。我退休之後才發現,臺灣的第三部門有別於由上而下各個科層的公部門,跟以市場機制為交換的私部門,每個人自動自發願意捐一點時間、捐一點力氣出來,這種志願部門非常強大。

  • 誰也不能命令誰,也不是通過金錢交換的方式,每個人自願地去填坑,用這樣的方式就可以跟公部門、私部門有各種不同程度的合作。以私部門而言,我這5年來在跟蘋果合作做Siri的案子,所以看到資料的時候腦裡想到的都不是數字,都是文字,因為其實我們處理的東西全部都是自然語言,而且是雙向的東西。

  • Socialtext,就是我2013年賣掉的那個公司,是把Facebook試著賣到各大政府和各大企業裡面。萌典是g0v的,我待會兒介紹,目前正在跟牛津大學合作。

  • 我的第二個部分,就是Data Governance,會講到跟臺灣的國發會合作。

  • 剛才有聽到我在課發會剛擔任委員,開了三次會。我主要做的事情就是希望能夠建立一個系統,把所有課發會每個人講的話,還有照片都公開,這樣的話每個人每個時候講了什麼話可以成功地呈現在全民的面前。

  • 其實g0v本來另外就有一個專案,就是零時政府立法院,ly.g0v.tw就可以到零時政府的立法院,它顯示的東西跟這邊的政府是一樣的,只是說比較視覺化,比較容易,每一個法條好像購物車:到什麼程度,甚至它給的每個字,你可以把那個東西的超鏈結分享出來,我們就可以就法案的修正做討論。

  • 既然司法院也是逐字稿,立法院也是逐字稿,為什麼國教院不能是逐字稿?這是我的基本想法。經過三次討論以後,也很感謝20位出席的委員全部同意,所以從今天開始如果各位到archive.tw的話,就可以看到之前三次跟之後所有的國教院的逐字稿。

  • 為什麼我會想要做這些事情?我自己開始寫程式是1989年的事情,當時我8歲。

  • 在我開始寫程式的時候我爸剛好在天安門,他是從5月採訪到6月1號,我們知道沒幾天就發生天安門事件,因為這樣的關係所以他對學生運動起了非常大的興趣,1989年年底去了柏林,當時有一個柏林圍牆倒塌的事件。當時東德警方沒有開槍,很多人都覺得是因為已經發生了6月那件事情,他們不想要重蹈覆轍,當然1990年臺灣野百合,也都會有類似的想法。

  • 因為我爸的博士論文是做天安門學運裡面的人際關係研究,所以到德國,然後把當時流亡在德法的中國名人士結合起來,試著去做深入的訪談跟研究。我陪著他去念博士,所以整天在客廳聽到的就是要民主化,要對話,讓整件事情不要有那麼悲慘的結局。

  • 我是1993年回臺灣的,我從一年級以後就沒有再去學校,為什麼?因為1994年發生了一件人類歷史上很重大的事情,就是全球資訊網的發明,我發現我在上面可以接觸到所有尖端的研究,而且不需要等十年時間編成教科書,就可以接觸到目前關心的事情發展到怎麼樣。

  • 我從全球資訊網得到那麼多,我也想給回一些東西,所以說我剛才的一個想法就是促進一個安全的空間,這裡隔著螢幕不會有剝奪彼此發言權的狀況,大家可以互相學習,一步一步朝向實際可行的想法或者實際可行的理念,把它實現出來。

  • 最近跟我長期合作的呂家華,他說『技術者背後不會也不該只有技術,每個技術背後有它追求的價值』。我跟家華說我的價值在1994年開始就非常穩定了,就是持守這個價值。

  • 接下來很快速地跟大家介紹一下在g0v這兩年多來,怎麼樣做Crowdsoursing,怎麼樣做眾包。2013年春Wired訪問張大春,張大春喜歡玩『臉書』,也很關心政治,然後外界問說臉書能不能影響政治,他回答『絕對不會。它會讓公民以為自己參與,好象真的有做什麼事,但是事實上並沒有改變,想不出來一個讓大家真正參與行動的實踐』。

  • 玩臉書的時候大家都很懶,都只有1分鐘。如果用一句話來形容零時政府g0v,它就是一個讓大家又懶,又可以參與的真正的行動的實踐。舉一個例子,監察院的政治獻金,資料只有他們自己有,提供給民間的只有影印出來的資訊,也就是說只有監察人才能做監察,人民只能幫他做覆核。

  • 可是你說這是因為監察院黑箱嗎?也不是,而是因為定那個想法的那些人,本來就是卡在影印機時代的人,並沒有想到這些資料放出來是有更多的價值、應用。

  • 當然,立法委員是最會被這個開放影響的,所以他們排案可能排到最後一案,不審這個修正案。所以怎麼辦?就有一位馮光遠,是一位國寶級的白目,他除了跟計程車司機吵架之外,也會提很多很有趣的主意。他挖了一個坑,我們用一個太陽與北風的戰略,實際去監察院印資料,然後把它拿出來、把它轉成結構化資料。監察院一定會跳出來,說怎麼能保證資料百分百正確呢,這個時候我們就可以說『好啊,你們改一下查閱辦法,你們自己去釋出百分百正確的資料』。

  • 專案裡有NGO、工程師可能不到四成,還有設計師,還有做文案的,很多資料包。在這裡『豆腐』的意思就是被切成一塊一塊。第一批印出來的資料大概30萬筆,號召了9700多人參與在24小時之內,每一格有三個人以上看過,這個就是所謂的宅力文字辨識 Otaku Character Recognition,大家宅在家裡沒有事的時候就花一點點時間。

  • 那為什麼能夠這樣呢?像馮光遠當然不可能自己跑到監察院印幾百頁資料出來,所以確實是有NGO、核456的朋友們跑進去。他們印出來之後就是這樣一張A4紙,我試過要這樣key大概要3分鐘到5分鐘,如果號召大家來捐3分鐘或者5分鐘,根本不會有人來。

  • g0v有一個最主要的概念,就是分身伐樹的概念。我們如果把它切成低於1分鐘,每個人只要花10秒鐘就可以做貢獻,那麼他們花的時間就跟有一個評論、有一個分享、有一個讚差不多,而且他們能夠獲得心理上的快樂是勝過在臉書上發文章的,這樣的話就可以把臉書上的人吸引過來,主動變成資料的貢獻者跟提供者。

  • 所以我們就把它遊戲化,變成一個數位化的網站,在上面說現在有40萬筆,每次資料包上線的時候就會有更多筆輸入。有玩過開心農場的人就知道,人類是一種很奇怪的動物,你只要看到一個數字一直跑,即使不睡覺都會想把它跑到0,只要有一個進度條,不睡覺都要跑到滿。

  • 所以大家都在臉書上分享,一大堆人跳出來,24小時就把它變成了結構化資料。

  • 結構化資料可以做什麼?在座的各位比我都知道可以拿來什麼,我們只能做一些很基本的,比如說顯示。這裡沒有針對特定委員的意思,但是我們可以知道他的政治現金從哪裡來,花到哪裡去,如果他是議員的話,跟他的補助款的公司之間有什麼關聯。

  • 好比在11/29投票的時候g0v的朋友們找到了各地的市徽,就有人說按進去發現22個候選人,我看完了補助記錄、出席記錄、投票記錄之後就只需要從兩個人選,所以這對民主的深化是有幫助的。

  • 當然,我們也可以看到有些政黨特別艱困的選區,需要許多的競選經費,民進黨也有,中間紅色的顏清標委員不太需要政黨,自己有很多的選舉經費,可以做一些比較。

  • 這樣的模式是g0v一直以來運行的模式,本來群眾媒體,像張大春或者是馮光遠,他們個人都非常有影響力,臉書隨便上發一個文就有幾百個贊,但是他們並沒有行動主義的感受。像馮光遠好了,他為什麼用比較cynical文筆來寫東西?很大一部分是因為他覺得,他寫的東西不能真的改變什麼,這樣的話就會有一種無力感。

  • g0v提供一個空間,結合社運團體,好比剛才說的核456,他們持續進去把東西印出來,他們不習慣的是什麼?是分身伐樹,他們很習慣的是十個人,然後可能花一整年,把東西都打成資料,並不習慣把它切出去拿給幾萬個陌生人一起協作,所以這是開源模式。

  • 最後就是我們自由軟體的人,我們欠缺的就是公民精神,我們平常其實真的沒有那麼關心這些事情。g0v就是把這三種人結合在同一個空間,讓大家彼此學習到彼此的優點,這樣就可以作出這三方單一都沒有辦法做出來的事情。現在有很多臉書的訂閱,有很多透明公開的專案的共筆。

  • 高嘉良去開會的時候,全世界20幾個國家做civic tech的人聚在一起,他們統計了一下,看起來以色列跟臺灣是最活躍的,臺灣的規模又是以色列的10倍,所以高嘉良就說我們不出國比賽不知道自己第一名。可是這個第一名並不是那麼值得驕傲,如果是在英國或者美國,他們的陽光法案,本來監察院這些資料就是公開的,不需要花那麼多力氣去做這些事情。

  • 反過來講,如果是在北韓或者在中華人民共和國,或者在一些中東國家,我們不要說12萬人,我們聚集到12個人就被請去喝茶了。所以你需要有一個卡在影印機時代的政府,跟一個蓬勃自由的公民系統,這樣才能作出像開放政治獻金這樣的事情來。

  • 今天跟昨天,都是兩個月一次的大型黑客松,幾百個人,有很多東西吃,進來的人自己拿一個自己的專長貼紙,可以貼在自己的肩膀上面,第一次來的人有梅花鹿,來很多次的人有黑熊。這個東西要做什麼呢?重點就是要提案。

  • 昨天有20多個提案,每個提案人上來挖一個坑,說有些事情需要做,好比開放政治現金,然後需要什麼樣專長的人,比如需要兩個法律工作者、兩個文字工作者、兩個設計師等等,然後就組隊,最後就會發表,通常就會約每兩個禮拜做下去。g0v並不是一個一般意義上的團體或者組織,因為挖坑的人不能強迫別人來填坑,他填坑也不受坑主的指揮,很多坑主挖完就跑了,所以每個人都是自己要做什麼就做什麼。

  • 因為是開源的關係,所以你填到一半跑掉也不會良心不安,接下來的人不用問你,也可以做下去。在這樣的前提下就是一個迴圈,你加入黑客松可以認識很多坑,你加入坑之後會認識更多人,他們會把推到各種松,你又認識更多坑,這就是一個零的迴圈。

  • 那為什麼叫做坑,而不叫做專案呢?因為我們不要有專案經理人、專案代表人的頭銜,我們就是挖坑、填坑的,它完全沒有上下階級。坑的另外一個意思就是說,一切東西都有不完美的東西,我們先面對,現承認那個不完美的東西。

  • 我很喜歡的一個歌手的一句話,『萬事萬物都有缺口,缺口就是光的入口』。所有的事情都有不完美的地方,這樣別人才有參加的動力。

  • 舉一個最簡單的例子,零時政府一開始的兩位發起人是特別會寫程式,但是特別不會做logo的,他們做的logo超醜,可是他們不怕丟臉,就把這樣超醜的logo掛著,有一位設計師就來了,他說看著這個logo全身不舒服。

  • 所謂『誰在乎誰痛苦』,所以他就很痛苦,他一整天如果不把它做得更好一點的話什麼事都不用做,後來他就把它做得比較漂亮。後來我們發現在手機上、平板電腦上看起來沒有辨識度,那個紅點太小了,後來又改良,可是如果不是一開始有人不怕丟臉,就不會一張圖惹怒設計師,把更好的創意引發出來。

  • 這是八仙塵爆時所有急診室推床的狀況,這是當時臺北資訊局提供的資料。塵爆的時候是在周末,人不在,所以g0v的朋友就可以自己做這樣的系統,也做各地血庫存量的系統。尼泊爾救災的時候也有,當時是把衛星圖切成一小塊一小塊,同樣每個人只需要貢獻一點點時間就可以把那塊的道路和建築物標出來。

  • 我記得這是第一次在24小時之後,就獲得了衛星地圖上捐出來的震後圖資,這樣就可以把震後的也標出來,這樣的話紅十字會、聯合國進去的時候能走哪一條、不能走哪一條路,以及最重要的就是災民自己設置的帳棚在哪裡。

  • 我有經常參加的長期專案就是萌典。萌典有非常多國語兩岸辭典,民間捐出來的國語、台語(閩南語、客家語、阿美語),上個月藏語都進來了,基本上臺灣有人在使用的語言我們都會收錄。

  • 為什麼萌典能做這麼多呢?並不是因為我這麼厲害,懂這麼多種語言。我完全不懂阿美語。重點是做阿美語的那個團隊根本不用問過我,因為我們採取的是協作的方式,而不是合作的方式。

  • 合作的方式是大家都要先建立共識,先同意,可是我們知道到20個人都會出現階層,因為不可能每個人都很熟每個人,到150個人就再也不可能合作了,這是人類的限制。

  • 在香港佔中當時有一個畫家畫了這樣一幅圖,為什麼之前香港每一次社會運動都失敗,因為要大會通過,大會不通過的那一派就會覺得被收割了,所以就要切割。雖然香港社運發展得很蓬勃,他們充滿了社會運動的三大要素,就是收割、切割、帥哥,但是沒有辦法取得政治上的進展原因其中之一是:一直都要合作,而沒有辦法採取協作的模式。

  • 在雨傘運動前夕他們領導都被抓了,所以他們在街上的哪些人不得已採取協作的模式,每個人每個地區做的事情都公開出來,直播、逐字稿,別的地方看到好主意就採用,不好的主意,像練詠春拳這個就不會採用,比較好的主意,像架關公像出來發現白道黑道都不太敢攻這個地方,那麼別的地方說做一個聖母瑪麗亞像,這個就叫做A/B testing,結果就會發現黑道兩個都怕,但是警察不怕聖母瑪麗亞,所以說後面關公就比較流行。重點是誰都沒有問過誰,這是一個協作的模型。

  • 在網路上你要主動取得資料,在你邀請之前一定要先把鏈結和分享的文化做出來。像萌典當初為什麼發出這個計劃?就是因為教育部網站的辭典,你查到一個詞拷貝到臉書上,別人是打不開的。我的意思是說辭典網站是1995年的作品,當時大家並沒有permalink這個概念,所以我們就用新的概念做了一次。

  • 資料的網址就是permalink,有它就可以做linked data。有這樣的鏈結以後,大家就開始在臉書上分享在萌典上查的詞。那麼萌典上沒有詞怎麼辦?絕對不是『404找不到』,而是把它斷詞,比如說斷成開放、資料、工作坊,然後給出底下的定義,而且配上一個漂漂亮亮的九宮格的書法。

  • 我們知道在臉書上面要有傳染力,最好的方法就是附上一張圖,但是如果要附圖的話,截圖、盜圖這個問題很大。這個時候,萌典只要打字就幫你生圖出來,而且還有各種不同的開放免費字體的圖,大家覺得很好玩,這就是為什麼我們每個月有幾百萬人次。

  • 因為這樣的關係,每次我們邀請大家來做貢獻的時候,即使只有萬分之一的人來做貢獻也蠻多的。我們在幫教育部挑錯字的時候,用一個程式做對比,發現這樣兩個有一個是錯字時,電腦不能判斷哪一個是錯字,所以就請人腦來判斷,而每一個這樣的錯誤又有一個鏈結,所以你參加之後又可以分享和留言,很好玩就會分享,18天國教院收到的6000多個校正裡面有5000多個是我們這邊給出的。

  • 另外一個例子是阿美語字典,這次不是切豆腐,是切豆干了,切成一條一條,你只要會打字就可以把它打出來。在臉書上我們發現阿美族的人很多,阿美族的朋友也很多,他們這樣號召的力量絕對不亞於政治獻金,所以同樣的一瞬間這麼厚的一本字典,一瞬間又變成了一本結構化的資料,然後你現在到amis.moedict.tw,你可以打『四邊形』就可以查到阿美語。

  • 這就是我們在g0v怎麼做Crowdsourcing,怎麼樣讓大家覺得主動提供資料不僅是一件有意義的事情,而且也是一件好玩的事情。

  • 我在之前擔任了六個月的行政院的顧問,現在已經卸任了,是從data governance的角度來看這件事情。我跟國發會主要合作的是vTaiwan這個計劃,這個計劃很特別,完全沒有拿任何補助款,從政府的角度來看是收集民意,從民間校對來看是收集部會意見。這是一個雙向的溝通平台,我們在這上面討論很多網路法規的調適。

  • 在網路上面做法規調適其實不是一個新的概念,從2004年Michael Herze教授就一直在討論,但是他們一直都會碰到很多問題。目前碰到的問題總結成三大障礙,而越過這三大障礙稍微比較成功的,是康奈爾的RegulationRoom,vTaiwan是以此作為範本,然後從這個基礎上面開始開發。是哪三個障礙?

  • 一是無知之牆:制定新創企業法案的人都沒有開過新創企業,但是那些實際會被法案影響的人都是最後一秒鐘才知道。

  • 二是白目之牆:假設你現在有組織,你有一個關心的聯盟,你越過了無知之牆,實際到臉書或者其他地方去做討論,然後讓公共部門碰到,就會遇到白目之牆。如果那個空間設計得不好,一開始大家比較認真討論,可是後來留言的人不是說好棒棒就是說好壞壞,而且奇怪的是那些人得到的讚都很多,接下來就會有人開始貼圖了,一發不可收拾,然後就不用討論了,所以在這種情況下,你在臉書上要做有意義的討論,有效評論,對行政機關有意義的討論是非常非常困難的事情。

  • 三是資訊爆炸之牆:假設你又越過了白目之牆,開始真正討論那個法案,然後就會碰到資訊爆炸之牆,當一個法案要改一個字的時候,事實上又有別的主管機關,差不多要看50萬字左右,才能知道一個字的改動對所有人的影響是什麼。當然在行政也有專門的人來做這件事情,但並不是大家都有這種專業,所以就會變成懶人包來讓大家表達意見,可是很少的懶人包會直接連結到data,這樣懶人包裡面沒有寫的就不知道,很難作出完整的討論。

  • 這裡是12/9的時候,g0v有4位朋友被邀請到蔡玉玲主持的一個會議,會議中勞動部的各科科長都到了,他們說想要討論電傳勞動,電傳勞動是什麼?就是我們在家寫程式,剛好我們四個人都是在家寫程式,所以他們想問,我們是否可以代表遠距工作者給一些意見。

  • 他們就說『請問一下遠距電傳勞動者有沒有工會,是否可以邀請工會代表給一些政策上的指導』,然後我們就哈哈大笑。我們寫程式的人在遠距工作的時候自動打卡,但我們不敢代表遠端寫曲子的,不敢代表遠端畫漫畫的,這些其實完全不同的工作,而且也不可能有人敢說代表全臺灣的遠距的畫漫畫的,因為每個人都不一樣。

  • 另外一個問題,新創公司,因為當時勞動部的朋友們念頭一轉,最會找電傳勞動者的雇主是新創公司,我們不如把老板找來,他們也許可以分享一些意見,他們就問『請問一下新創公司有沒有工會代表,有沒有理事長,我們也可以請來』,當然也沒有,因為工會通常是一個很成型的產業,新創公司下一餐發不發得出來都是問題,怎麼可能有空去組工會。

  • 而且更重要的是,這個社群是鬆散的。不會有人站出來說『勞動部您好,我代表所有臺灣的新創公司』,這是不可能的,所以會議很難按照他們本來的程序召開。因此,蔡玉玲就來g0v這邊以鄉民的身份挖個坑,然後說我們來討論:『可不可以不要到開曼設公司』?

  • 臺灣有非常多的公司都是去開曼設立,因為創始人想要保有超過51%的控制權,而在臺灣的公司法規下,他們只有第二輪或者第三輪一定會被dilute掉,而技術股認定又很困難,所以沒有辦法跟創投合作。公司法也許應該要修正,但是要怎麼修正?他們找不到代表,這就是vTaiwan成立的一個開始。

  • 按照g0v一貫的效率,我們瞬間變出了一個prototype,然後在2月1號開始初步討論,真的有很多新創公司的朋友和法律界的朋友來討論,討論之後過了一個半月,借用行政院場地辦了民間的諮詢會議,用直播、文播的方式讓大家知道。

  • 過了五天之後,我們請在討論裡面有提出建設性意見的人,一起來寫出一個建議書。我們不太懂法律,所以是按照我們知道第一線事務的狀態,來提建議。我已經退休了,所以我是中立的主持人,帶學者跟這些新創公司的朋友,討論公司法如果要修改的時候,它的應修改事項、不得修改事項、應該考慮的東西。

  • 之後建議書就送給經濟部,經濟部就審這個草案,然後再找各個縣市的團隊,他們討論一輪之後覺得這個建議書不錯,於是就逐條回覆哪些有採納、哪些沒有採納,哪些在未來的實施細則裡面訂定,過了一個半月就出院會了。

  • 立法院為什麼會把有些法案往後排,排到最後一案?立法院最常用的原因,就是『尚未取得社會共識』。經過這樣的過程,尤其是一些立委助理也有參加,他們沒有辦法說尚未取得社會共識,所以兩大黨都表態說完全支持vTaiwan的這份建議書、完全支持這個精神。

  • 所以公司法就修改了,實施細則即將頒布,在今年年底之前上路。

  • 我們工作組怎麼進行呢?我們在討論裡面,會看大家的論點,字體有七個粗細,越粗表示越多人給這個論點,O表示實況的描述,R是大家的反應和期待,I是大家的具體建議。我們給出所有的留言,現場的人在現場參加,不能前來的人可以通過螢幕參加,我們這邊討論每20分鐘會切過去20分鐘,然後去看線上,去收集這邊的意見,盡可能讓遠端的人和近端的人有相同參與的權限。

  • 我們獲得了一個粗略共識以後,就寫一個建議書,請行政人員去逐條回覆。

  • 討論完公司法之後,我們就開始討論資料相關的,這個是去識別化的議題。公共部門收集了很多資料,你把它改成一些代碼,但是那個代碼跟識別符一一對應,這樣算去識別化嗎?這個在國際上的定義並不明白,所以說我們當時vTaiwan就在討論:到底什麼樣的程度算是無從識別。

  • 在這裡想再強調一次,如果是特定目的,使用者在生成這個資料的時候,就知道這個資料會被你拿來做分析的話,你就完全不需要管這一大堆限制。為什麼我們要討論這個?是因為它是要做目的外之利用,所以要經過一個去識別化的方式,我們在vTaiwan很慎重地討論了。

  • Google Chrome在回報你的使用訊息的時候,它對每個位元丟一個硬幣,有一半的幾率是正確的回報,有一半的機率是亂數值回報,這個叫做differential privacy,這個時候我們即使是NSA,在中間截聽了這些資料,也沒有辦法推斷出這個人到底機器上面的狀況是什麼樣。

  • 今天我們不可能討論很多技術細節,但是按照不同的資料使用方法,我們可以使用不同的去識別化的方法,而代碼化真的不是一個有效的去識別化方法。

  • 所有這些討論的每一字都有記錄。資料很有趣,一般送禮物的時候你送了別人禮物,你就沒有了,但是資料是你送完別人之後你跟他都有,用的人越多、價值越多,像所有這些討論,以及各部會的意見都收集在vTaiwan這個平台上。

  • 我們重點就是讓很多人一起來討論,至少開放30天以上。這張我就不講了,但是重點是說這些都是免費資源,你不太需要花任何成本,自己架一個vTaiwan,目前每個月大概一百萬人次。

  • 國發會還有一個平台,但是它做的是中後期,就是已經有階段性的想法,讓大家表態,我們是在最前期,就是行政人員還不知道要做什麼的時候,我們是做在前面,而且是完全開源的。

  • 我們參考RegulationRoom的架構,在上面有做一些額外的修改。它是請學者們來對話,但是我們是直接請部會來對話,部對對所有的問題七天之內要回覆,國際法的問題科法所會在七天之內回覆。

  • 我們要的是政府制定應有的民主精神與態度。

  • 最後回來講跟資料科學比較相關的。vTaiwan接下來要討論什麼議題,其實是大家自己來決定的,在vTaiwan上面的參與者們最想討論的就是Uber、Airbnb。像數位遺產或者無人飛行器討論得比較少,數位連署是最少的,蠻可憐的。我們可以看到一個趨勢,只要出現英文字就會出現在前面...

  • 因為這樣的關係我們就優先討論Uber,我們採取的工具是pol.is。大約有一半的參加者是司機朋友們,他們在開車的時候不可能拿出一台電腦來打意見,所以我們盡可能簡化他們參與的方式:先看在全世界Uber的狀況,然後在臺灣的狀況以及目前大家的意見,大家上來之後看到別人的留言,只需要在手機上點同意或者不同意,就會自動歸到跟他相似的群體裡面。

  • 目前三萬人次,他們慢慢開始互相說服,然後就慢慢變成兩群。第一群開始很兇,他們說交通部已經駁回Uber的訴願,為什麼臺北市政府還不取消公司登記?第二群是說『如果不趕時間,就算馬路邊有許多計程車,還是會選擇Uber』。

  • 隨著時間的過去,他們會一直想要著出新的論點來說服其他人,所以群組一的人修正他們的論點,其實他們的重點是交通部還是有責任去取締,這邊就說計程車司機都要加入車隊才能生存、如果也加入Uber的話可以顛覆這項不成文的規定。

  • 雙方會互相拉票,因為這個意見的關係,我們可以看到第二群組多了2%左右的票。

  • 到最後的重點其實並不只是這些群組怎麼想,而是大家跨群組的感受。大家都覺得法律是可以根據科技來修改的,安全是最重要的,乘客保障是最重要的。95%的人覺得如果政府可以應對Uber的挑戰,把計程車也升級,慢慢計程車有一套評價的方式,這樣的話司機也可以獲得很好的服務品質。

  • 也有一開始相當兇的人說『應盡一切努力使其停業,不需要國人表示意見』,最後65%的人表示反對,65%的人覺得應該還是要討論一下,之後如果你要認為它不合法,你再說它不合法。

  • 最後是產生一些共同建議:公平管制規則,不是因為Uber的公司名稱有英文就要幫助。設計一套法律,我上了Uber的車上之後怎麼知道那個人是那個人、那台車是那台車?交通運輸還是有一些公共性,即使Uber宣稱它是免費平台,還是應該像食品藥品這樣嚴格地把關。還有人說自用車載客可以登記,上下班的時候順帶載一些人。

  • 這裡為大家挖一個坑,我們在下個星期四的行政院公開直播,包含Uber的人、交通部的人,以及計程車隊和公會的人,都會對資料做一次討論。Uber目前已經出了一份分析報告,如果各位資料科學的前輩朋友們願意下載一下我們的這個平台,我們全部都會合併到下星期四的報告裡面。

  • 最後,非常感謝挖坑的人和填坑的人。謝謝大家!

  • 我們開放兩個問題。

  • 你好,感謝你這個報告。我一般看g0v都是資訊的平台,剛才了解到推動政策的過程。我有兩個問題,第一個問題,我認為我們香港應該有自己的Wikileaks,事實上沒有,你們好象有一點像,但是又不太像,是因為用公開的資訊來做一些整理,你們有沒有這方面的計劃?第二個問題,臺灣常常看到的民意很多時候都是媒體主動,有些政策建議政府不一定會接納,你們跟媒體的關係如何?

  • 我非常快速地回答,因為第一個只要一句話來回答:歡迎你來挖坑,請到g0v上面提一個專案,我目前還沒有看到,但是只要你提了就有人做。

  • 第二個問題,我們跟媒體的關係其實跟政府的關係差不多。這邊的政府發文給零時政府的時候其實真的是給『零時政府 高村長 嘉良』,這是一個特殊的政府對政府的關係。

  • 第三部門要有第三部門的樣子,我們的樣子就是fork the government:我們並不是否定現成的所有東西,fork的意思就是拿現在的東西往一個不同的方向去開發,如果那個開發是好主意的話我們希望本來的那個主線能夠合併進去,否則的話反正大家都是自願的,沒有什麼成本。

  • 我們跟媒體的合作也是這樣的概念:我們是供稿的,他們願意採納就採納。

  • 我有一個問題,vTaiwan跟join競爭嗎?

  • 沒有,我們是它們的上游,vTaiwan這邊只討論跟網路使用者為主要的利益相關者,因為我們不希望討論有不當代表的人。join沒有挑這個,所以上面例如有通姦除罪化、同性婚姻,但是我們沒有任何研究顯示說,這兩個議題的利害相關者是重度的網路使用者或者有任何重疊性,因此我們不討論這個,我們只做利害關係人的討論平台。

  • join試了不同的方法,他們有0800的專線,你可以任何時候打進去,會幫你記下這個意見,如果有回應的話還會打電話給你,這讓更多人參加。所以我覺得這是在於政策實行各個階段,這個部分是特別適合的,並不是競爭的關係。

  • 謝謝精彩的演講,我覺得Crowdsourcing這方面的能力非常強,但是最後您有列出六個意見,這是誰來列的,最後大家凝聚的六個是客觀的,還是主觀的?

  • 非常好的問題。為什麼我們叫做意見徵集?重點就是說這些數字本身不賦予意義,我們只是選擇出在第一階段要討論哪些問題而已。另外一個,我們希望越多樣的意見出來越好。

  • 剛才的那六點其實彼此之間是有衝突的,但建議是公共部門可以回應的。感受跟期待:是在什麼樣的感覺底下做出這樣的建議?這是客觀的。但是要怎麼分出感受、期待或者建議,它當然多少有一些主觀的因素在裡面。

  • 有沒有可能把這個平台跟i-voting結合?

  • 這是非常好的主意。那就交給你了,麻煩在hackpad上寫一個計劃,謝謝。(笑)

  • 我們最後用熱烈的掌聲感謝唐鳳,謝謝!