「院臺數位字○○號」。
是直接借調來的,現在院裡成立了一個可以發文的小組。
超愉快。因為有十五個人,真的是超強的。九位寫程式,其他六位做規劃,都比我專業。
對啊,超愉快啊。
三點要出門到機場。
非常感謝觀眾朋友的收看。
就是盡可能用「大家早一點下班,而不是晚一點下班」的理由來推Open Data,我覺得這樣子也比較推得起來。
我們現在在政策上,我覺得反而不要給壓力,而是要讓我們幫助部會,讓部會進行常規業務的時候,透過怎樣的資料交換,可以在先期就不要引發民怨,或者在先期就知道跟其他部會有什麼關聯。
現在再說「人家有,我們沒有」,這個本身不太構成政治上的壓力了。
但是現在我們第一名了,這時說「大家本來有的,為什麼我們沒有?」部會絕對可以說:「可是我們也有人家沒有的東西。」(笑)
最後再次申明,以前我們在推Open Data的時候,我們可以說臺灣是世界第二十幾名或者是第十一名,鄰國都已經做到了,為什麼我們都做不到?
當然,沒有問題。
現在很多部會,都在計畫還沒有最後版本的情況之下,也不知道如果現在處理了,會不會被列入新的管考項目裡面。大概是這樣子,就是從1月1日開始起算。
事實上NICI那時候還在執行,它執行到12月31日,所以我們現在用這個架構做任何決定都不適當,因此當然是從明年1月1日開始,剛剛所講的這些話題,就開始變成DIGI+可以處理的東西,從那時候再來算週期,我想對所有部會都比較沒有壓力。
當然,我相信是這樣子。因為數位國家現在的大方向確定了,我作為「幕僚的幕僚」工作告一段落,但各個部會的行動方案目前還正在提報中,是年底第一次DIGI+會議才會有最終版本。
像這種東西是存在的,但是他存在的時間區間或是顆粒度,是不是大家覺得有用,或者是需要加強的,這個是另外一回事。但是至少以逐年年報的程度,剛剛講的那一些欄位都在裡面。
應該是這樣子講,當有決定的時候,當然就是會有一個決定的發布,但訴願進行中的時候,我這邊看到的是,各級機關訴願業務統計是在分年度來做的,就是每年發佈,而不是每天、每季這樣子,後者要評估他的人力負荷情形,包含量能到底能不能處理。
對啊!就是中華民國行政院訴願系統查詢。
可是訴願本來就有系統,不是了嗎?
2017年數位國家開始運行後,我相信這會是國發會數位國土裡面,很重要的一部分。當它進入這部分的時候,就會開始請地方資訊首長,包括還沒有資訊首長、但是快要有資訊首長的地方,來加以處理。
是。
如果要把這些所有的東西放進來,我覺得一下子也並沒有政治意志可以做得到。
當有這一個理由出現的時候,才比較容易告訴六都及其他別的縣市說,現在要用某一種方式提出,否則國土規劃沒有辦法進行討論;但當然這種裁罰會限於國土不當利用或這些部分,比較沒有辦法把所有的行政、交通罰單這一些東西都放進來。
我同意啊。這就是為什麼我今天在上午的開放資料諮詢小組,具體提出兩年之後要做國土計畫,它是要基於每一個地區去進行國土的使用討論,這時農地工用、工地不知道誰用的這些現況,無論是裁罰、行政檢查,或環境資訊這些東西,都會變成討論的題目。
就是設一個入口頁面,點二十三次就都看到了?
對啊!
但如果一開始不建立結構化系統的話,大家都會選那個「沒辦法」,然後把PDF附件上去,所以在這邊整理出來至少好比訂了九個欄位,行政規則、法規解釋,這九個裡面如果有三個,至少這三個用結構化方法提供;如果這六個不適用,那也沒有辦法,也就是PDF附件,我們是用這個策略來進行。
我們會先從這一種半結構化文字開始,目的就是先建立起跟它相對應的API,然後我們接下來再說那一些比較不結構化的部分,裡面的這一些結構有的,我們就比照辦理。結構沒有的部分,就是加一個欄位叫做「任意文字」,那就隨便本來填什麼就填什麼進去,甚至用PDF附件,我也沒有辦法。
我想要說的是,我們之所以挑公報網的原因,是因為要整理一個API是相對容易的,因為格式相對齊一,如果是函釋跟行政規則的話,除了一定有送達目的機關、日期幾號、發文字號外,所有其他的欄位都是任意文字。這跟法規命令不一樣,法規命令還有一個格式,但如果是函釋的話,那個格式是任意的。
我們還是回來看,法規命令草案當即日起生效的時候,剛剛已經講了因為「眾開講」的關係,這將會變成Open Data。函釋不在裡面,而且地方政府的行政規則也不會在裡面,這邊包含了也許40%、50%左右的量,但是確實有一大塊黑的地方,確實也是真的。
對,兩、三個版本。
不一定是同一家廠商,地方政府的行政規則就是另一套。
開放資料只要確定有了,那就不能收回,後續任何對顆粒度的要求就是循正常程序討論。
好像是多選一?我不記得了,好像是有一個欄位。
沒錯。
同一個想法,也就是最小阻力路徑的想法:如果司法院資訊處的格式比較友善,就從那裡下手,如果比較不友善,再回來法務部。
但當時是給特定人,以特定目的為利用。這個東西要轉成甲類資料的時候,我們還是要按照正當程序來處理。
我知道。
我想就判決確定是公開資料,這我們可以專門來檢討。
正在上訴的先不去管它,就是判決確定?
是判決後。
是的。
如果這個紙本,好比能跟光碟同時遞送,這邊的結構化資料在上一層才能進行匯集分析,這時能把紙本跟光碟等同的函釋,必須是要準備光碟的人是具有特定的身份、公務及專職做這一件事等等,目前法務部還是要先做出這個解釋。如果沒有這個解釋的話,即使中間結構化建立再好,在最上面判決看起來的時候,仍然是A4掃描的結果,這是實際情況跟大家分享。
但這個稿子是建立在聽錄音打字的人屬於公務人員,本於職權、符合所有相關法令,而且有認證的人來做這一件事,這樣它的產出,才會說跟本來的紀錄具有相同效力。
這件事我也有跟司法院的資訊處進行討論、協調。聽起來,他們需要法務部進行一個函釋,好比我舉一個例子:在進行訊問的時候,其實取證的時候是用錄音,可是上法院的時候很少聽錄音,大部分是看稿子,也不一定看全部的逐字稿,而是看某一段的稿子,這時就需要一個函釋說「這段稿子的有效性,相當於那一個錄音的有效性,除非有人提出質疑。」
所以,可能在來源是有結構化的,但是經過兩、三層出去之後,在司法體系裡面就變成圖片的資料,必要時還要用OCR。
在中間除了克漏字的這個情況之外,好比像我在第一個階段有結構化資料,但必須要印成A4掃過去,所以裡面表格的線段,除非像 @ronnywang 那麼厲害,能夠用OpenCV把它還原回來,不然的話就又回到純文字,最多PDF變成Word檔,進Word改完之後再出去。
其實從偵查、起訴,甚至中間警察去進行訊問、製作筆錄,到所有能夠呈上法庭的所有這些紙,目前按照現行的作業內部法規流程,都必須是紙本,所以就會變成不同的機關,從警察局到偵查,所有這些東西進行資料交換,是用他們自己的電子系統印出來,印出來之後厚厚一疊送到下一站,那一站用掃描機,再把它掃描回JPEG檔之後進行OCR的讀取。
我沒有這樣說的意思,就是邀請大家一起做。
這件事如果是院長並不覺得需要解決,民眾也沒有聲音是覺得需要解決的問題,那我自己無法去做這樣的建議。