用AI打AI！OpenAI推辨識AI文字新工具，但目前成功率不到三成

OpenAI

我們正在閱讀的內容是人寫的或者AI寫的？OpenAI推出一款辨識AI產生內容的新工具AI Text Classifier，試圖區分人工撰寫或AI產生的內容。

AI Text Classifier的過濾範圍包括自家ChatGPT和其他GPT-3模型產生的內容，使用上至少需要1,000個字，或大約150個至250個詞，但成功率約為26%並非特別準確。OpenAI認為，可結合其他方法，有助於防止濫用有爭議的文字內容。

AI Text Classifier架構上很有趣，它和ChatGPT一樣是AI語言模型，OpenAI以5個不同組織的34個文字內容產生系統訓練而成。但與ChatGPT不同的是，它經過微調後，能夠判斷一段文字由ChatGPT或其他AI產生的可能性。

AI Text Classifier檢測後將文字內容標記為「very unlikely 非常不可能」（可能性小於 10%）、「very unlikely 不太可能」（可能性介於10%~45%之間）、unclear if it is不清楚是否由AI產生（可能性介於45%~90%之間）、「possibly 也許」（90%~98%的可能性）、「likely 很可能」（超過98%的機會）。

國外媒體TechCrunch測試AI Text Classifier發現，從自家和其他媒體的報導找出使用ChatGPT的痕跡，也判斷OpenAI支援文件不是AI產生的內容。不過，1,000字的字數限制無法過濾篇幅較短的內容，OpenAI也強調修改AI內容的部分詞句就能繞過這款工具，這些限制有待技術克服。

「這項工具目的在於幫助過濾人們撰寫的內容是否由AI產生，目前仍然有受侷限。」OpenAI發言人表示，它應該被用做確認文字內容來源方法的輔助工具，而非主要的決策工具。OpenAI提出新工具並願意獲取各方意見回饋，未來也將分享改善方法。

這項工具可以幫助人們確定正在閱讀的內容是人寫的或者AI寫的，隨著文字內容的AI持續進化，這項工具也將改善，兩者永無止境地交流，有點類似網路犯罪分子和安全研究人員之間攻防而不斷提升能力。OpenAI表示，雖然AI Text Classifier在某些情況下有所幫助，但永遠不會成為確認文字內容是否為AI產生的可靠證據。

資料來源：Techcrunch