「爬蟲程式」為什麼觸法？Lawsnote一案對台灣AI發展的影響是什麼？

OECD在今年2月發表了一份報告（Intellectual Property Issues in Artificial Intelligence Trained on Scraped Data），探討爬蟲程式如何在促進AI創新與保障智慧財產權之間達到平衡。在OECD的報告中，明確指出爬蟲程式是大語言模型（LLMs）預訓練不可或缺的資料來源。

「資料」是人工智慧發展的基石。根據規模定律（scaling law），資料量越龐大且多元，模型在訓練與泛化上的能力就越好。而大家都知道，資料規模有限，是台灣打造自主大語言模型長期以來的結構性困境。因此「爬蟲程式」成為許多台灣新創、學術單位彌補資料量不足的重要工具。

然而，在七法Lawsnote案的判決中，新北地方法院將「爬蟲程式」認定為觸犯刑法第359條。這一紙判決，可能敲響了台灣AI產業發展的警鐘。

台灣新創史上的罕見重判

2025年6月26日，新北地方法院的一份新聞稿震驚了台灣新創圈：台灣產業不多見的法律科技新創，七法（Lawsnote）股份有限公司，遭法院認定違反著作權法以及刑法「無故取得他人電腦電磁紀錄罪」，創辦人郭榮彥被判4年有期徒刑，並需連帶賠償逾億元。

七法Lawsnote不僅是台灣少數推動法律科技的新創公司，同時也是台灣法律AI領域的先行者之一，曾入選人工智慧科技基金會（AIF）「2024年AI生態系暨台灣AI新創地圖」。

這個判決震撼台灣新創圈，不僅因為法官量刑罕見地重。更讓人意外的是，法官在本案中的法律見解。其中，法官在論罪時，針對「無故取得他人電腦電磁紀錄罪」之構成要件所做的法律解釋，尤其值得AI產業關注。

爬蟲程式構成刑事犯罪？

根據判決書，法官在認定七法Lawsnote使用爬蟲程式爬取複製資料，致觸犯刑法第359條「無故取得他人電腦電磁紀錄罪」部分，主要考量以下三個構成要件：

是否有使用爬蟲程式取得資料？
是否「無故」？
是否導致他人損害？

在以上的構成要件中，爬蟲取得資料是否「導致他人損害」屬於著作權法要處理的問題，非本文討論的範疇。我們所關注的是，究竟使用爬蟲程式，是否屬於「無故」？

在七法 Lawsnote 案的判決中，法官直白認為，不論資料網站的使用規範中是否明文禁止爬蟲，核心仍在於「是否取得著作權人書面授權」。只要未經同意擅自重製，即屬違反使用規範，並構成無故取得他人電腦電磁紀錄罪。

相信任何對資訊產業稍有了解的人，都會有一個共同的疑問：若按照以上法律見解，那麼小至經營媒體監測業務的平台，如潤利艾克曼、大數軟體、Qsearch等，大至任何涉及搜索引擎的平台，如 Google、Yahoo、或OpenAI，顯然並未取得「著作權人書面授權」，所以統統屬於「無故」，都涉嫌觸犯刑法「無故取得他人電腦電磁紀錄罪」。

是台灣獨有或是國際趨勢？

在美國，針對爬蟲程式是否構成刑事犯罪的討論，主要圍繞在其是否違反《電腦詐欺與濫用防治法》(Computer Fraud and Abuse Act, CFAA)。就結論來說，美國聯邦法院並不認為爬蟲程式違反 CFAA、構成犯罪行為。

CFAA在爬蟲案件中的核心爭點，與我國刑法第359條一樣，在於如何定義「授權」（authorized）一詞。由於CFAA未提出明確定義，所以何謂「授權」或「無故」，需由各地巡迴法院逐步形成共識。

自2017年以來，美國法院對爬蟲程式是否違反CFAA的討論，傾向回到CFAA的立法目的，即該行為是否真正構成傳統意義上的「駭客行為」，以及資料是否受技術性保護。

在hiQ Labs, Inc. v. LinkedIn Corp.案中，法院裁定，LinkedIn無法阻止hiQ Labs爬取LinkedIn公開的個人資料，因為這些資料是公開且未受到密碼保護。在Sandvig v. Sessions案中，法院認為爬取公開網站的行為屬於美國第一修正案（言論自由）的範圍，且與人類瀏覽網頁在技術上並無實質區別，因此除非爬蟲規避了技術性代碼屏障，否則不應適用CFAA。

OECD的報告則指出，若從著作權角度加以分析，大多數國家的著作權體系（尤其是美、歐、日）在設計之初，並未針對大規模自動化爬蟲行為提供明確規範。OECD認為，爬蟲可以促進AI發展、降低資料偏誤（bias）、幫助本地語言與小眾資料集的取得，所以在法律規制上，應著重「產業可操作性」而非一味擴張法律禁令。

七法 Lawsnote 案對台灣 AI 產業的深遠影響
正如 OECD 所述，爬蟲技術是生成式 AI 的資料供應鏈起點。更重要的是，資料新鮮度對於生成式 AI 尤為關鍵，爬蟲技術允許企業持續更新語料庫，縮短模型「知識時滯（knowledge cutoff）」。

目前全球生成式AI生態逐漸分裂成兩個陣營：第一，是已擁有大規模語料、掌握自有搜索引擎或版權資料的一線巨頭；第二，則是仰賴公開資料進行訓練的新創與中小企業。在這樣的結構下，若爬蟲技術被限制，勢必加速資料壟斷，讓生成式AI高度集中在少數超級平台手中。

台灣在生成式AI的發展上，長期受限於本土資料規模不足、資料品質差、缺乏公開資料等問題，導致台灣在開發基礎模型上困難重重。現在，台灣的AI新創們在努力創新，加速追趕海外同業的同時，隨著七法Lawsnote案判決的誕生，又有一個新的枷鎖要關注：你的資料取得方式，是否可能構成犯罪？

七法Lawsnote案判決所帶來的法律不確定性，恐將導致台灣的AI發展停滯，難以突破僅能以他國的開源模型進行微調的現況。

如何在法律規範與AI產業發展上尋求平衡？

產業發展並非法官的責任，期待台灣的刑事庭法官在審判時考量判決對產業的影響，是不切實際的。而為台灣AI產業的長期發展創造良好環境，是立法者與政府的責任。

以爬蟲技術為例，立法者或許可以參考美國，考慮如何讓刑法第359條的規制行為更加明確，例如明確「突破技術性屏障」作為是否構成「無故」的要素之一、或是納入Robots Exclusion Standard（robots.txt）作為判斷的依據等。

OECD在報告中則建議，應優先透過多元利害關係人共同制定「自律型資料蒐集行為準則」（Data Scraping Code of Conduct），並鼓勵發展「標準化技術工具」（如資料存取控制、opt-out協議、資料來源透明標註），搭配「標準合約條款」（Standard Contract Terms）作為管理基礎，處理爬蟲與著作權保護之間的衝突，同時提升 AI 開發者對訓練資料來源的揭露義務，以促進產業合理運作。

除此以外，OECD同樣建議各國政府，應避免單純依賴訴訟與刑事手段解決爭議，確保在保障智慧財產權與支持生成式AI發展之間取得平衡。期望我國政府與法界能夠以此為戒，共同為台灣AI產業的發展創造良好的環境。