台大生因語料訓練資料遭中央社提告！AI訓練在台灣的兩難

2025年7月14日更新：
遭到《中央社》提告的台大博士生 Eric Lam 在上週五（7/11）表示，感謝律果科技陳啟桐律師及中央社黃兆徽董事的協助，已順利與中央社達成和解。

台大博士生分享的繁體中文資料集遭《中央社》提告，因其包含未經授權的新聞內容。此事件引發關於AI訓練資料著作權爭議，網友認為《中央社》不該提告博士生，而是最上游的開源平台與爬蟲者。

台大博士生做繁中資料集供AI訓練，遭中央社提告

一位台灣大學博士生、開源志工，在數個月前於Facebook的「Generative AI技術交流中心」社團分享了繁體中文資料集（fineweb-zhtw），如今卻收到檢調寄信通知，原來資料集中包含台灣官方媒體《中央社》的大量新聞報導資料，並已被該媒體提起刑事告訴。

根據《中央社》7月7日發表的聲明，該資料集包含自2011年至2021年止、約14萬筆來自中央社的新聞內容，而這些內容從未獲得該媒體授權。

這位博士生在事件曝光後，已將原本分享的繁體中文資料集貼文刪除，並公開表示會配合檢調調查，目前也將Facebook個人檔案鎖上。

中央社：身分不詳才提告，維護新聞產業著作權

《中央社》表示，對於未經授權大量使用該社新聞內容的公司或個人，一向秉持維護著作權的立場，會儘可能取得聯繫要求下架。但本次事件是因為「該公開者之身分資訊不詳」，基於維護權益目的才提起刑事告訴。

該社強調，新聞報導均來自第一線記者採訪整理，有些是經授權的外電消息再由編輯團隊翻譯撰寫，每一則新聞都是記者與編輯的心血結晶。

《中央社》也表示支持《媒體議價法》的推動，盼能與數位平台建立公平合作模式，為台灣媒體環境注入正循環。

中央社應該告誰？Common Crawl V.S 台大博士生

《中央社》在聲明中表達強烈捍衛新聞著作權的立場，但引發網友強烈反彈。

有網友指出，《中央社》應該提告最上游的Common Crawl，這是國外一個大型公開的網路爬蟲專案，從 2008 年就開始運作，可能早已未經授權爬到了不少台灣媒體報導內容，而不是只針對下游整理和清理資料的台灣博士生提告，因為各家大語言模型包括OpenAI ChatGPT、Google Gemini、Meta Llama等都使用Common Crawl來訓練模型。

另有網友批評此舉荒謬，認為真正的訴訟對象應該是Hugging Face，也就是這位台大博士生採用的開源AI平台，而非使用資料的台大博士生本身，更有網友痛批：「作為國家通訊社，理應優先維護台灣權益，卻先向自己人開刀，難免令人遺憾。」

不過也有網友支持中央社行使權利，認為目前AI訓練市場中，缺乏繁中資料、繁中主權模型、新創等理由，不能當作是作為剝削他人創作內容的藉口。即使是非營利的AI訓練用途，也應該經過著作權持有者同意。