You are now offline.

台大生因語料訓練資料遭中央社提告!AI訓練在台灣的兩難

台大生因語料訓練資料遭中央社提告!AI訓練在台灣的兩難
DALL·E生成
分享
收藏
已完成
已取消

2025年7月14日更新:
遭到《中央社》提告的台大博士生 Eric Lam 在上週五(7/11)表示,感謝律果科技陳啟桐律師及中央社黃兆徽董事的協助,已順利與中央社達成和解。

台大博士生分享的繁體中文資料集遭《中央社》提告,因其包含未經授權的新聞內容。此事件引發關於AI訓練資料著作權爭議,網友認為《中央社》不該提告博士生,而是最上游的開源平台與爬蟲者。

台大博士生做繁中資料集供AI訓練,遭中央社提告

一位台灣大學博士生、開源志工,在數個月前於Facebook的「Generative AI技術交流中心」社團分享了繁體中文資料集(fineweb-zhtw),如今卻收到檢調寄信通知,原來資料集中包含台灣官方媒體《中央社》的大量新聞報導資料,並已被該媒體提起刑事告訴。

根據《中央社》7月7日發表的聲明,該資料集包含自2011年至2021年止、約14萬筆來自中央社的新聞內容,而這些內容從未獲得該媒體授權。

這位博士生在事件曝光後,已將原本分享的繁體中文資料集貼文刪除,並公開表示會配合檢調調查,目前也將Facebook個人檔案鎖上。

中央社:身分不詳才提告,維護新聞產業著作權

《中央社》表示,對於未經授權大量使用該社新聞內容的公司或個人,一向秉持維護著作權的立場,會儘可能取得聯繫要求下架。但本次事件是因為「該公開者之身分資訊不詳」,基於維護權益目的才提起刑事告訴。

該社強調,新聞報導均來自第一線記者採訪整理,有些是經授權的外電消息再由編輯團隊翻譯撰寫,每一則新聞都是記者與編輯的心血結晶。

《中央社》也表示支持《媒體議價法》的推動,盼能與數位平台建立公平合作模式,為台灣媒體環境注入正循環。

中央社提告分享含有未經授權內容繁體中文資料集的台大博士生

中央社應該告誰?Common Crawl V.S 台大博士生

《中央社》在聲明中表達強烈捍衛新聞著作權的立場,但引發網友強烈反彈。

有網友指出,《中央社》應該提告最上游的Common Crawl,這是國外一個大型公開的網路爬蟲專案,從 2008 年就開始運作,可能早已未經授權爬到了不少台灣媒體報導內容,而不是只針對下游整理和清理資料的台灣博士生提告,因為各家大語言模型包括OpenAI ChatGPT、Google Gemini、Meta Llama等都使用Common Crawl來訓練模型。

另有網友批評此舉荒謬,認為真正的訴訟對象應該是Hugging Face,也就是這位台大博士生採用的開源AI平台,而非使用資料的台大博士生本身,更有網友痛批:「作為國家通訊社,理應優先維護台灣權益,卻先向自己人開刀,難免令人遺憾。」

不過也有網友支持中央社行使權利,認為目前AI訓練市場中,缺乏繁中資料、繁中主權模型、新創等理由,不能當作是作為剝削他人創作內容的藉口。即使是非營利的AI訓練用途,也應該經過著作權持有者同意。

數發部:AI訓練陷兩難,正籌備台灣AI語料庫

數位發展部政務次長林宜敬 在《中央社》聲明前,曾針對此事發表看法,認為這是數發部面臨的兩難。

一方面希望保護台灣媒體業與出版業著作權,另一方面又希望民主國家科學家能方便取得具備台灣觀點的中文資料,訓練出具備台灣觀點的AI模型。

林宜敬指出,美國科學家會使用大量簡體中文資料訓練AI模型,部分原因是中國向來不注重著作權,使用來自中國的簡體中文資料不會有侵犯著作權風險。

而台灣繁體中文資料不但量少,還有著作權風險。因此數發部正積極籌劃《台灣主權AI訓練語料庫》,讓世界各民主國家都能安心使用繁體中文資料訓練AI模型。

數發部政務次長談中央社提告繁體中文資料集提供者爭議

不過,在數發部的台灣AI語料庫正式出爐前,個人使用含有未經授權的繁體中文著作權內容,來製作AI訓練資料集,可能仍有法律風險。在生成式AI技術快速發展的同時,如何平衡創新與智慧財產權保護,仍是各界需要共同面對的挑戰。

本文授權轉載自《加密城市》,作者:Ariel,原文標題:台大生做繁中資料集給AI遭中央社提告!官媒遭噴:只向自己人開刀

延伸閱讀
本文作者 《加密城市》Ariel 《加密城市》Ariel

加密城市Crypto City,是專注於NFT、GameFi賽道的區塊鏈資訊交流平台,致力於打造一個完善且透明的社群,即時提供業界新聞與相關資訊。

使用會員功能前,請先登入

  • 收藏文章
了解更多關於創業小聚的資訊,歡迎透過以下服務: