「開放資料」是主動的,使用metadata-aware tools,你在創造資料、做的時候那一件事情本身,我們在資料交換的時候,就一併存了一份可以開放的版本,這樣的話,這樣才能在我們產生資料的時候,那個脈絡才可以被繼續下去。
「資料開放」跟「開放資料」是名動形式跟動名形式,其實是不一樣的。前者是先有資訊再決定要不要公開,但這樣的問題是在資訊、資料先累積的過程中,等到要開放的時,在中間跟中間資料的脈絡是會消失或者是必須要重建,像是現在21世紀你要去猜當年的作者是誰,這個是草稿或者是贗品或者是倣製。
接著是開放資料,如果我們完全只是講政府把資料開放的話,最常的是資訊公開法,但資訊公開法對東西的定義只是public「不特定人可讀」,但我們現在做open data是附加的,還要能夠改作,也就是要做衍生的著作,在著作權上不做額外的限制。另外是要允許自由的改作,也就是你釋出的資料不能跟微軟簽了一批很貴的約或者是跟其他的大廠簽很多的約,所以一定要用XML、JSON、CSV這一類的格式來釋出,所以開放的要件是除了不特定的人之外還有「自由」和「改作」。
但是我在這五年來幫Apple開發Siri,都是處理文字資料,並不是數字資料,所以我並不會用數據來想。我們用數據來想時,都會直接往sensor走,但我覺得結構化的文字資料是開放的大宗,也可以做很好的結構化處理,這個是資訊跟資料的區別。
另外一個關鍵字是開放資料,我自己在DataSci.tw那一場其實也有講到:人可以看得懂的是資訊,我們在中文裡面,至少在字典裡面,「數據」都是資料,但資料不一定是數據。我自己通常說數據是指numeric data,量測出來給機器的是數據。
有一派覺得PPP是公私協力,是公部門跟私部門的合作。但我們是公部門跟第三部門的協力,像跟NGO的協力,但當然裡面也會有私部門的利益關係人,只是結構上不是促參,這個是我自己理解的方式。
其實剛剛有提到PPP跟公民參與主要的一些差別,我想我把我理解中的定義跟大家分享,如果定義OK的話,就大家自由聊,如果定義很不OK,我們就直接談定義。
今天很開心來這邊,這和我今天在環保署是同一份簡報,內容也是公開的。
這是非常好的主意。那就交給你了,麻煩在hackpad上寫一個計劃,謝謝。(笑)
剛才的那六點其實彼此之間是有衝突的,但建議是公共部門可以回應的。感受跟期待:是在什麼樣的感覺底下做出這樣的建議?這是客觀的。但是要怎麼分出感受、期待或者建議,它當然多少有一些主觀的因素在裡面。
非常好的問題。為什麼我們叫做意見徵集?重點就是說這些數字本身不賦予意義,我們只是選擇出在第一階段要討論哪些問題而已。另外一個,我們希望越多樣的意見出來越好。
不會。
join試了不同的方法,他們有0800的專線,你可以任何時候打進去,會幫你記下這個意見,如果有回應的話還會打電話給你,這讓更多人參加。所以我覺得這是在於政策實行各個階段,這個部分是特別適合的,並不是競爭的關係。
沒有,我們是它們的上游,vTaiwan這邊只討論跟網路使用者為主要的利益相關者,因為我們不希望討論有不當代表的人。join沒有挑這個,所以上面例如有通姦除罪化、同性婚姻,但是我們沒有任何研究顯示說,這兩個議題的利害相關者是重度的網路使用者或者有任何重疊性,因此我們不討論這個,我們只做利害關係人的討論平台。
我們跟媒體的合作也是這樣的概念:我們是供稿的,他們願意採納就採納。
第三部門要有第三部門的樣子,我們的樣子就是fork the government:我們並不是否定現成的所有東西,fork的意思就是拿現在的東西往一個不同的方向去開發,如果那個開發是好主意的話我們希望本來的那個主線能夠合併進去,否則的話反正大家都是自願的,沒有什麼成本。
第二個問題,我們跟媒體的關係其實跟政府的關係差不多。這邊的政府發文給零時政府的時候其實真的是給『零時政府 高村長 嘉良』,這是一個特殊的政府對政府的關係。
我非常快速地回答,因為第一個只要一句話來回答:歡迎你來挖坑,請到g0v上面提一個專案,我目前還沒有看到,但是只要你提了就有人做。
最後,非常感謝挖坑的人和填坑的人。謝謝大家!
這裡為大家挖一個坑,我們在下個星期四的行政院公開直播,包含Uber的人、交通部的人,以及計程車隊和公會的人,都會對資料做一次討論。Uber目前已經出了一份分析報告,如果各位資料科學的前輩朋友們願意下載一下我們的這個平台,我們全部都會合併到下星期四的報告裡面。
最後是產生一些共同建議:公平管制規則,不是因為Uber的公司名稱有英文就要幫助。設計一套法律,我上了Uber的車上之後怎麼知道那個人是那個人、那台車是那台車?交通運輸還是有一些公共性,即使Uber宣稱它是免費平台,還是應該像食品藥品這樣嚴格地把關。還有人說自用車載客可以登記,上下班的時候順帶載一些人。
也有一開始相當兇的人說『應盡一切努力使其停業,不需要國人表示意見』,最後65%的人表示反對,65%的人覺得應該還是要討論一下,之後如果你要認為它不合法,你再說它不合法。
到最後的重點其實並不只是這些群組怎麼想,而是大家跨群組的感受。大家都覺得法律是可以根據科技來修改的,安全是最重要的,乘客保障是最重要的。95%的人覺得如果政府可以應對Uber的挑戰,把計程車也升級,慢慢計程車有一套評價的方式,這樣的話司機也可以獲得很好的服務品質。
雙方會互相拉票,因為這個意見的關係,我們可以看到第二群組多了2%左右的票。
隨著時間的過去,他們會一直想要著出新的論點來說服其他人,所以群組一的人修正他們的論點,其實他們的重點是交通部還是有責任去取締,這邊就說計程車司機都要加入車隊才能生存、如果也加入Uber的話可以顛覆這項不成文的規定。
目前三萬人次,他們慢慢開始互相說服,然後就慢慢變成兩群。第一群開始很兇,他們說交通部已經駁回Uber的訴願,為什麼臺北市政府還不取消公司登記?第二群是說『如果不趕時間,就算馬路邊有許多計程車,還是會選擇Uber』。
因為這樣的關係我們就優先討論Uber,我們採取的工具是pol.is。大約有一半的參加者是司機朋友們,他們在開車的時候不可能拿出一台電腦來打意見,所以我們盡可能簡化他們參與的方式:先看在全世界Uber的狀況,然後在臺灣的狀況以及目前大家的意見,大家上來之後看到別人的留言,只需要在手機上點同意或者不同意,就會自動歸到跟他相似的群體裡面。
最後回來講跟資料科學比較相關的。vTaiwan接下來要討論什麼議題,其實是大家自己來決定的,在vTaiwan上面的參與者們最想討論的就是Uber、Airbnb。像數位遺產或者無人飛行器討論得比較少,數位連署是最少的,蠻可憐的。我們可以看到一個趨勢,只要出現英文字就會出現在前面...
我們要的是政府制定應有的民主精神與態度。
我們參考RegulationRoom的架構,在上面有做一些額外的修改。它是請學者們來對話,但是我們是直接請部會來對話,部對對所有的問題七天之內要回覆,國際法的問題科法所會在七天之內回覆。
國發會還有一個平台,但是它做的是中後期,就是已經有階段性的想法,讓大家表態,我們是在最前期,就是行政人員還不知道要做什麼的時候,我們是做在前面,而且是完全開源的。
我們重點就是讓很多人一起來討論,至少開放30天以上。這張我就不講了,但是重點是說這些都是免費資源,你不太需要花任何成本,自己架一個vTaiwan,目前每個月大概一百萬人次。
所有這些討論的每一字都有記錄。資料很有趣,一般送禮物的時候你送了別人禮物,你就沒有了,但是資料是你送完別人之後你跟他都有,用的人越多、價值越多,像所有這些討論,以及各部會的意見都收集在vTaiwan這個平台上。
今天我們不可能討論很多技術細節,但是按照不同的資料使用方法,我們可以使用不同的去識別化的方法,而代碼化真的不是一個有效的去識別化方法。
Google Chrome在回報你的使用訊息的時候,它對每個位元丟一個硬幣,有一半的幾率是正確的回報,有一半的機率是亂數值回報,這個叫做differential privacy,這個時候我們即使是NSA,在中間截聽了這些資料,也沒有辦法推斷出這個人到底機器上面的狀況是什麼樣。
在這裡想再強調一次,如果是特定目的,使用者在生成這個資料的時候,就知道這個資料會被你拿來做分析的話,你就完全不需要管這一大堆限制。為什麼我們要討論這個?是因為它是要做目的外之利用,所以要經過一個去識別化的方式,我們在vTaiwan很慎重地討論了。
討論完公司法之後,我們就開始討論資料相關的,這個是去識別化的議題。公共部門收集了很多資料,你把它改成一些代碼,但是那個代碼跟識別符一一對應,這樣算去識別化嗎?這個在國際上的定義並不明白,所以說我們當時vTaiwan就在討論:到底什麼樣的程度算是無從識別。
我們獲得了一個粗略共識以後,就寫一個建議書,請行政人員去逐條回覆。
我們工作組怎麼進行呢?我們在討論裡面,會看大家的論點,字體有七個粗細,越粗表示越多人給這個論點,O表示實況的描述,R是大家的反應和期待,I是大家的具體建議。我們給出所有的留言,現場的人在現場參加,不能前來的人可以通過螢幕參加,我們這邊討論每20分鐘會切過去20分鐘,然後去看線上,去收集這邊的意見,盡可能讓遠端的人和近端的人有相同參與的權限。
所以公司法就修改了,實施細則即將頒布,在今年年底之前上路。
立法院為什麼會把有些法案往後排,排到最後一案?立法院最常用的原因,就是『尚未取得社會共識』。經過這樣的過程,尤其是一些立委助理也有參加,他們沒有辦法說尚未取得社會共識,所以兩大黨都表態說完全支持vTaiwan的這份建議書、完全支持這個精神。
之後建議書就送給經濟部,經濟部就審這個草案,然後再找各個縣市的團隊,他們討論一輪之後覺得這個建議書不錯,於是就逐條回覆哪些有採納、哪些沒有採納,哪些在未來的實施細則裡面訂定,過了一個半月就出院會了。
過了五天之後,我們請在討論裡面有提出建設性意見的人,一起來寫出一個建議書。我們不太懂法律,所以是按照我們知道第一線事務的狀態,來提建議。我已經退休了,所以我是中立的主持人,帶學者跟這些新創公司的朋友,討論公司法如果要修改的時候,它的應修改事項、不得修改事項、應該考慮的東西。
按照g0v一貫的效率,我們瞬間變出了一個prototype,然後在2月1號開始初步討論,真的有很多新創公司的朋友和法律界的朋友來討論,討論之後過了一個半月,借用行政院場地辦了民間的諮詢會議,用直播、文播的方式讓大家知道。
臺灣有非常多的公司都是去開曼設立,因為創始人想要保有超過51%的控制權,而在臺灣的公司法規下,他們只有第二輪或者第三輪一定會被dilute掉,而技術股認定又很困難,所以沒有辦法跟創投合作。公司法也許應該要修正,但是要怎麼修正?他們找不到代表,這就是vTaiwan成立的一個開始。
而且更重要的是,這個社群是鬆散的。不會有人站出來說『勞動部您好,我代表所有臺灣的新創公司』,這是不可能的,所以會議很難按照他們本來的程序召開。因此,蔡玉玲就來g0v這邊以鄉民的身份挖個坑,然後說我們來討論:『可不可以不要到開曼設公司』?
另外一個問題,新創公司,因為當時勞動部的朋友們念頭一轉,最會找電傳勞動者的雇主是新創公司,我們不如把老板找來,他們也許可以分享一些意見,他們就問『請問一下新創公司有沒有工會代表,有沒有理事長,我們也可以請來』,當然也沒有,因為工會通常是一個很成型的產業,新創公司下一餐發不發得出來都是問題,怎麼可能有空去組工會。
他們就說『請問一下遠距電傳勞動者有沒有工會,是否可以邀請工會代表給一些政策上的指導』,然後我們就哈哈大笑。我們寫程式的人在遠距工作的時候自動打卡,但我們不敢代表遠端寫曲子的,不敢代表遠端畫漫畫的,這些其實完全不同的工作,而且也不可能有人敢說代表全臺灣的遠距的畫漫畫的,因為每個人都不一樣。
這裡是12/9的時候,g0v有4位朋友被邀請到蔡玉玲主持的一個會議,會議中勞動部的各科科長都到了,他們說想要討論電傳勞動,電傳勞動是什麼?就是我們在家寫程式,剛好我們四個人都是在家寫程式,所以他們想問,我們是否可以代表遠距工作者給一些意見。
三是資訊爆炸之牆:假設你又越過了白目之牆,開始真正討論那個法案,然後就會碰到資訊爆炸之牆,當一個法案要改一個字的時候,事實上又有別的主管機關,差不多要看50萬字左右,才能知道一個字的改動對所有人的影響是什麼。當然在行政也有專門的人來做這件事情,但並不是大家都有這種專業,所以就會變成懶人包來讓大家表達意見,可是很少的懶人包會直接連結到data,這樣懶人包裡面沒有寫的就不知道,很難作出完整的討論。