OECD在今年2月發表了一份報告(Intellectual Property Issues in Artificial Intelligence Trained on Scraped Data),探討爬蟲程式如何在促進AI創新與保障智慧財產權之間達到平衡。在OECD的報告中,明確指出爬蟲程式是大語言模型(LLMs)預訓練不可或缺的資料來源。
「資料」是人工智慧發展的基石。根據規模定律(scaling law),資料量越龐大且多元,模型在訓練與泛化上的能力就越好。而大家都知道,資料規模有限,是台灣打造自主大語言模型長期以來的結構性困境。因此「爬蟲程式」成為許多台灣新創、學術單位彌補資料量不足的重要工具。
然而,在七法Lawsnote案的判決中,新北地方法院將「爬蟲程式」認定為觸犯刑法第359條。這一紙判決,可能敲響了台灣AI產業發展的警鐘。
台灣新創史上的罕見重判
2025年6月26日,新北地方法院的一份新聞稿震驚了台灣新創圈:台灣產業不多見的法律科技新創,七法(Lawsnote)股份有限公司,遭法院認定違反著作權法以及刑法「無故取得他人電腦電磁紀錄罪」,創辦人郭榮彥被判4年有期徒刑,並需連帶賠償逾億元。
七法Lawsnote不僅是台灣少數推動法律科技的新創公司,同時也是台灣法律AI領域的先行者之一,曾入選人工智慧科技基金會(AIF)「2024年AI生態系暨台灣AI新創地圖」。
這個判決震撼台灣新創圈,不僅因為法官量刑罕見地重。更讓人意外的是,法官在本案中的法律見解。其中,法官在論罪時,針對「無故取得他人電腦電磁紀錄罪」之構成要件所做的法律解釋,尤其值得AI產業關注。
爬蟲程式構成刑事犯罪?
根據判決書,法官在認定七法Lawsnote使用爬蟲程式爬取複製資料,致觸犯刑法第359條「無故取得他人電腦電磁紀錄罪」部分,主要考量以下三個構成要件:
- 是否有使用爬蟲程式取得資料?
- 是否「無故」?
- 是否導致他人損害?
在以上的構成要件中,爬蟲取得資料是否「導致他人損害」屬於著作權法要處理的問題,非本文討論的範疇。我們所關注的是,究竟使用爬蟲程式,是否屬於「無故」?
在七法 Lawsnote 案的判決中,法官直白認為,不論資料網站的使用規範中是否明文禁止爬蟲,核心仍在於「是否取得著作權人書面授權」。只要未經同意擅自重製,即屬違反使用規範,並構成無故取得他人電腦電磁紀錄罪。
相信任何對資訊產業稍有了解的人,都會有一個共同的疑問:若按照以上法律見解,那麼小至經營媒體監測業務的平台,如潤利艾克曼、大數軟體、Qsearch等,大至任何涉及搜索引擎的平台,如 Google、Yahoo、或OpenAI,顯然並未取得「著作權人書面授權」,所以統統屬於「無故」,都涉嫌觸犯刑法「無故取得他人電腦電磁紀錄罪」。
是台灣獨有或是國際趨勢?
在美國,針對爬蟲程式是否構成刑事犯罪的討論,主要圍繞在其是否違反《電腦詐欺與濫用防治法》(Computer Fraud and Abuse Act, CFAA)。就結論來說,美國聯邦法院並不認為爬蟲程式違反 CFAA、構成犯罪行為。
CFAA在爬蟲案件中的核心爭點,與我國刑法第359條一樣,在於如何定義「授權」(authorized)一詞。由於CFAA未提出明確定義,所以何謂「授權」或「無故」,需由各地巡迴法院逐步形成共識。
自2017年以來,美國法院對爬蟲程式是否違反CFAA的討論,傾向回到CFAA的立法目的,即該行為是否真正構成傳統意義上的「駭客行為」,以及資料是否受技術性保護。
在hiQ Labs, Inc. v. LinkedIn Corp.案中,法院裁定,LinkedIn無法阻止hiQ Labs爬取LinkedIn公開的個人資料,因為這些資料是公開且未受到密碼保護。在Sandvig v. Sessions案中,法院認為爬取公開網站的行為屬於美國第一修正案(言論自由)的範圍,且與人類瀏覽網頁在技術上並無實質區別,因此除非爬蟲規避了技術性代碼屏障,否則不應適用CFAA。
OECD的報告則指出,若從著作權角度加以分析,大多數國家的著作權體系(尤其是美、歐、日)在設計之初,並未針對大規模自動化爬蟲行為提供明確規範。OECD認為,爬蟲可以促進AI發展、降低資料偏誤(bias)、幫助本地語言與小眾資料集的取得,所以在法律規制上,應著重「產業可操作性」而非一味擴張法律禁令。
七法 Lawsnote 案對台灣 AI 產業的深遠影響
正如 OECD 所述,爬蟲技術是生成式 AI 的資料供應鏈起點。更重要的是,資料新鮮度對於生成式 AI 尤為關鍵,爬蟲技術允許企業持續更新語料庫,縮短模型「知識時滯(knowledge cutoff)」。
目前全球生成式AI生態逐漸分裂成兩個陣營:第一,是已擁有大規模語料、掌握自有搜索引擎或版權資料的一線巨頭;第二,則是仰賴公開資料進行訓練的新創與中小企業。在這樣的結構下,若爬蟲技術被限制,勢必加速資料壟斷,讓生成式AI高度集中在少數超級平台手中。
台灣在生成式AI的發展上,長期受限於本土資料規模不足、資料品質差、缺乏公開資料等問題,導致台灣在開發基礎模型上困難重重。現在,台灣的AI新創們在努力創新,加速追趕海外同業的同時,隨著七法Lawsnote案判決的誕生,又有一個新的枷鎖要關注:你的資料取得方式,是否可能構成犯罪?
七法Lawsnote案判決所帶來的法律不確定性,恐將導致台灣的AI發展停滯,難以突破僅能以他國的開源模型進行微調的現況。
如何在法律規範與AI產業發展上尋求平衡?
產業發展並非法官的責任,期待台灣的刑事庭法官在審判時考量判決對產業的影響,是不切實際的。而為台灣AI產業的長期發展創造良好環境,是立法者與政府的責任。
以爬蟲技術為例,立法者或許可以參考美國,考慮如何讓刑法第359條的規制行為更加明確,例如明確「突破技術性屏障」作為是否構成「無故」的要素之一、或是納入Robots Exclusion Standard(robots.txt)作為判斷的依據等。
OECD在報告中則建議,應優先透過多元利害關係人共同制定「自律型資料蒐集行為準則」(Data Scraping Code of Conduct),並鼓勵發展「標準化技術工具」(如資料存取控制、opt-out協議、資料來源透明標註),搭配「標準合約條款」(Standard Contract Terms)作為管理基礎,處理爬蟲與著作權保護之間的衝突,同時提升 AI 開發者對訓練資料來源的揭露義務,以促進產業合理運作。
除此以外,OECD同樣建議各國政府,應避免單純依賴訴訟與刑事手段解決爭議,確保在保障智慧財產權與支持生成式AI發展之間取得平衡。期望我國政府與法界能夠以此為戒,共同為台灣AI產業的發展創造良好的環境。
本文授權轉載自《知勢》,作者:曹以慈,原文標題:爬蟲程式觸犯刑法?詳解七法 Lawsnote 案對台灣 AI 未來的啟示