創業新聞

走進農田裡的資料科學家,蜂巢數據吳君孝:資料是一門探索未知的學問

吳君孝提供

創業小聚#99,AgriTech Revolution——新世代農夫,用科技收成!
蜂巢數據執行長吳君孝將擔任講者,03/06前報名享超早鳥6折優惠,點擊連結報名

「那時候我其實不知道這對我的人生來說有什麼意義。」阿龜微氣候天眼通團隊資料科學家吳君孝回憶,2004年他讀大學時沈迷於寫程式,當時去試聽一堂叫做資料探勘(Data Mining)的課,然後決定從教室走出去。

他描述,當時看到的東西還很學術、很技術,「那時候不知道為什麼要學?也不知道會發現什麼?」例如在上資料庫課程時他同樣感到困惑,因為即使學CRM(客戶管理系統),但那個年代的資料不多,就算拿來分析,也無法把現象描繪的很全面。

吳君孝當時認為,資料探勘本身應該是門很實用的知識,但當時的應用很少,攤開學術論文也多在追求演算法的準確率,不像現在的資料科學論文都已走到應用端。後來的轉捩點,在於網路的興起,用戶創造的資料越來越多,可以分析的資料也越來越全面,傳統熟知的資料探勘用在全新的資料,才催生了新的應用。

跟資料奮鬥的日子

接觸資料的早,應用卻還沒長出來。但陰錯陽差地,吳君孝後來的職業生涯都與資料探勘脫不了干係。

2011年他進入資策會,前三年是資料工程師,一開始做數據分析,負責處理各種使用者的行為資料跟雲端數據管理平台開發。2012年,大數據興起,資料的應用也開始多了,「當時我就想,這麼多的資料該怎麼發現它的價值?」在資策會的後三年,他開始實際跨入客戶端解決問題,接觸到的都是環保署、農委會、警政署等政府中央部會,經手過警政、媒體、經濟、環保、資安、農業、食安等不同領域的資料。

吳君孝與資料為伍的日子從2011年至今已超過6年。
吳君孝提供

這時候,吳君孝的身份也從原先的資料工程師,慢慢往所謂的資料科學家轉型。例如,他幫忙做警政情資系統,透過使用者行為編碼去做犯嫌習性分析,估算犯嫌可能出現的區域;或者透過爬梳社群媒體裡的公開言論,做輿情分析軟體、提前預估可能的犯案行為等。

印象最深刻的專案是,當時他幫忙做涉及食安風險的廠商分析,把原先擅長的使用者行為分析技術,應用在找具有可能性的公司上面。他拿了包括環保署、財稅部、食藥署、衛福部、工商登記等來自不同部會、融合近十幾種公開資料來做公司特性解析,再進一步分析什麼樣的廠商最有可能買進毒化物原料。

對他而言,跨領域的合作難,一方面是資料多,前三個月都在做資料的清洗跟建模,一方面也是因為接觸到的問題難。例如要找出具有可能性的廠商,就得對毒化物如何流入食品製程的經過非常了解。吳君孝回憶,為了累積領域知識,他三天兩頭就往台大跑,去請教專家問題,「我查了塑化劑、甲醛、二甲基甲醯胺⋯⋯」即使是幾年前的專案,現在一脫口還是能說出各種專有名詞,「我甚至想過要去讀食品化學博士。」他笑說。

「有趣的是,一開始在跟食安專家討論時,他們覺得資本額越大的公司,越不可能發生食安事件。」當然,這樣的假設並不成立,因為透過與專家合作、以及從資料看到的嫌疑者都是大公司,「所以應該是透過資料去證明說,到底是不是這樣?」吳君孝說,後來數起食安風暴興起,政府召開食安會議,應證了當時他建立的風險特性模型是有效的。

不過,近七年來與各個政府單位為伍的日子,也讓他看到侷限。像是大家對於大數據的幻想就是一點,這讓他遇過非常多匪夷所思的需求,最扯的一次來自某政府部門,「那時候大數據這個詞很夯,他們(官員)希望可以透過資料分析,計算出最有可能被問到的問題,讓他們每天在接受質詢時有題庫可答。」

吳君孝認為,其實資料科學沒有固定的方法可以走,他不會說你做1、2、3、4,就會得出結果。這奠定了他對資料科學的方法論:從需求出發。先了解需求,再去想你應該要怎麼做、資料來源可能是什麼?不同的問題適合分析的模型都不一樣,你要找最適合的模型來回答你的問題,但更多問題是沒有現成的模型的。

「他們聽不懂,所以我想要去證明,資料科學是一門探索未知的學問。我現在要做的就是從方法論,到讓這件事產生價值。」他說。

走進農業的資料科學家

當初走出課堂的吳君孝,在十年多後的今天,帶著資料科學走進了農業。

今年2月剛從資策會離職的他,職業生涯也翻開新的一頁,他申請G0V的計畫,組成一個「阿龜微氣候天眼通」團隊,成員包括農夫、農業專家、軟硬體工程師、資料分析師、科學家等來自各領域的人,要把資料科學的精神導入到農業裡,實際解決問題。

過去兩年吳君孝接過農委會的案子,因此熟知農業既存的問題。他說,農業是與資訊隔閡最大的行業,這讓許多資訊人要跨入農業卻不得其門而入。但這幾年越來越多青農返鄉,他們非常希望有資訊化的工具補足實務經驗上的不足,而最好的切入點就是資料。

吳君孝說,團隊想要做的「微氣候資料科學」,是透過田間感測器,把蒐集到的環境資料傳到雲端平台,再透過前端視覺化的儀表板,讓農夫可以在日常工作的時候觀看各種關於環境監控、農務決策,或是病蟲害知識的資訊。

例如,現在團隊已經做出了灌溉最佳化模型,讓農夫做更好的決策。未來,團隊希望能將這樣的東西開源,讓這些資料能發揮最大的價值。吳君孝認為,每個資料科學家都會有自己分析時的偏好跟思維,所以如果能夠透過開放資料,讓其他人也能用自己的方式去建模,才會使農業資料科學的價值極大化。

從一開始不懂資料有什麼價值,到跨入資料工程、分析,最後讓資料在農業中落地。吳君孝笑說,現在自己不僅工作,連生活都跟資料科學脫不了干係,甚至就連買房、自己小孩的成長經歷,都自己做了模型參考,「就是好玩吧!」

本文授權轉載自數位時代,作者:曾靉

延伸閱讀