能力雜誌

生成式AI 著作權爭議揮之不去　Books3又引發新議題

撰文者：
- 《能力雜誌》
2023/11/06 瀏覽數：883

【文／馮震宇圖片提供／達志影像】

伴隨全球關注
生成式AI引起訴訟不斷

　　ChatGPT這類的生成式AI之所以引起全球廣泛關注，就在於生成式AI有助於重塑大多數客戶體驗，並建立前所未見的全新應用程式，更可協助客戶實質提昇生產力。根據Goldman Sachs的資料，生成式AI可能推動全球GDP成長7%（約7 兆美元），並在10年內將全球生產力提昇1.5%。雖然生成式AI有此等優點，卻從爆紅之日起就訴訟不斷。

　　一開始，第一波訴訟主要針對自動撰寫程式的CoPilot和自動生成圖片idJourney、Stability AI等生成式AI業者所發起，由於原告不易證明其創作被用於AI訓練，並未引發太大衝擊。但最新一波訴訟，主要由作家與權利人團體提起，主張OpenAI、Meta與其他AI業者未經作者同意，即將作者的書籍用於訓練AI大型語言模型(LLM)。由於第二波訴訟指控明確，也獲得部分AI業者的承認，彰顯出可能的法律威脅。從此等訴訟趨勢觀察，生成式AI發展最大的威脅與最深的祕密，其實就在於其訓練資料的來源。這些一般人所不知悉的AI訓練資料來源，卻在相關侵權訴訟中，逐漸被揭開神祕面紗。

生成式AI發展的神祕面紗
遊走侵權的灰色地帶

　　除了OpenAI初期揭露其部分訓練資料來自線上Books1與Books2資料庫，Meta與彭博社揭露其訓練資料一部分來自Books3外，目前AI業者已經完全不揭露其訓練資料來源，並對客戶推出免於侵權訴訟的保護計畫，以規避可能的法律風險。面對權利人著作權侵權主張，已經從單純的侵權問題，發展到AI訓練資料壟斷與數據有價，甚至是否應給予權利人一個選擇加入(optin)或退出(opt-out) 機制，其結果也將影響未來AI產業的發展。

　　為解決這些問題，美國作家協會先禮後兵，先以公開信方式要求AI業者給予作者公平合理的補償，進而與作者一起對AI業者提起侵權集體訴訟。一些廣為AI 業者利用，作為獲取訓練資料來源的網站，如：X平台、全球最大社群網站之一Reddit和全球知名技術論壇Stack Overflow都在今年宣佈，將向AI開發者收取網站內容訪問的API接取費用，這也對中小型的AI業者構成另一種不利的競爭環境。

　　為降低客戶對侵權風險的擔憂，微軟、Adobe與Google相繼推出對客戶侵權的保護方案。至於歐盟正在進行立法協商的AI法案(AIAct)，基於資料透明性(Transparency) 理由，要求AI業者應合理揭露其訓練資料來源。由於牽涉複雜，在法院做出明確的判決之前，這些問題仍將持續影響生成式AI的推廣與應用。

為訓練大型語言模型
AI業者未經許可大量擷取多方資料

　　就生成式AI的運作基礎觀察，生成式AI與其他人工智慧一樣，都採用機器學習模型技術，這些模型會針對大量資料進行預先訓練，也稱為基礎模型(FM)。以ChatGPT為代表的類型，通常被稱為大型語言模型(LLM)，專門針對以語言為基礎的應用，例如：自動產生摘要、文章、進行分類、提供開放式問答和資訊擷取。

　　大型語言模型與其他AI模型不同之處，就在於LLM包含大量參數（通常在百億、千億以上，例如GPT-3 就包含1,750億個參數，GPT-4據推測更達到驚人的1.76兆個參數；Google在2023年5月推出的PaLM 2大型語言模型也包含5,400億個參數；Meta在2023年7月推出相當於ChatGPT的開源AI語言模型Llama 2也達百億級別，更將在2024年推出比擬GPT-4的（LLM），可透過訓練前接觸各種形式和大量模式的資料，將知識運用於廣泛的環境中。

　　建構LLM，除開發基礎模型，更需不斷改進算法與模型，故AI業者還需2個重要因素：強大的計算能力和大量可用的數據。目前AI 業者都必須向輝達(Nvidia) 購買其AI晶片以獲得足夠的算力。縱使如此，還必須獲得大量的訓練資料作為改進算法所需的數據。因此，維基百科(Wikipedia)、各種網路論壇，如Reddit、推特（現為X 平台）的聊天或張貼之內容、各種數位化書籍、學術文章，甚至其他網路上的大型資料庫如LAION等資源，都成為生成式AI改善模型的重要資料來源。

　　以廣為各方使用的圖像生成AI Stable Diffusion為例，最初模型由慕尼黑大學的CompVis研究團隊研發，再由Stability AI、CompVis與Runway 3家初創公司合作共同開發，並獲得德國非營利組織LAION提供包含50億個資料集的LAION-5B資料庫支持，其後還與大型圖庫DeviantArt 合作，才能後來居上超越OpenAI 的Dale-E模型。Stability AI之所以被Getty Images控告侵權，最主要的原因，就是Stability AI在未經同意的情況下，使用Getty Images網站上數百萬張圖片訓練Stable Diffusion，許多的圖片都還附有Getty Images的浮水印，使得證據確鑿。

具爭議的影子圖書館
Books3資料庫 AI業者不敢說的祕密

　　在自動生成圖形與程式碼外，為了產生類似人類的答案，ChatGPT等AI系統還要運用大量文字資料進行訓練，高品質的生成式AI更需比網路一般性資料更佳的資料，特別是大量書籍內容進行訓練。

　　一般而言，若要取得這些高品質資料，往往必須透過談判與授權方式取得。但此種方式不但價格高昂，且往往曠日廢時，因此許多AI 業者就直接利用網路上未經授權的資料集進行訓練。其中引發目前訴訟的，就是涉及所謂「影子圖書館」的Books2資料庫與一個包括196,640本純文字格式的書籍、整體文字資料高達37G的Books3資料庫，目前出現的訴訟也都集中於這兩個資料庫。

　　僅2023年下半年，就出現4 件集體訴訟案件。首先在6月底，作家Mona Awad和Paul Tremblay就向舊金山聯邦法院提起訴訟，指控ChatGPT非法利用他們的書籍作為大型語言模型的AI訓練資料。7月10日，美國知名喜劇演員Sarah Silverman與其他2位作者Richard Kadrey與Christopher Golden，也主張OpenAI 的ChatGPT和Meta的大型語言模型Llama，運用從影子圖書館非法獲取的數據集進行訓練，其中包含她的回憶錄作品《The Bedwetter》，並分別在舊金山聯邦地方法院對Meta 和OpenAI提起侵害著作權的訴訟。

　　9月時，集體訴訟更接連出現。首先在9月8日，知名的普利茲獎得主Michael Chabon、劇作家黃哲倫(David Henry Hwang) 與Matthew Klam等多位美國作家，共同在舊金山聯邦法院對OpenAI提告，指控OpenAI濫用他們的作品訓練AI 熱門的聊天機器人ChatGPT。緊接著在9月18日，美國作家協會與知名暢銷小說家John Grisham、George R.R. Martin和Jodi Picoult等17位會員，也共同向紐約南區地方法院對OpenAI提起侵權訴訟，要求法院判決OpenAI應對該協會會員「公然和有害的侵權行為」加以賠償。

　　除此之外，8位匿名原告也對Alphabet 及相關公司提起集體訴訟，指控他們開發的生成式AI機器人Bard未經授權從網站上抓取資料，涉及資料轉換與盜竊、侵犯隱私、不正當競爭、侵犯著作權，而刪除著作權管理資訊(DRM) 更違反美國數位千禧年法案(DMCA) 之規定。這些接二連三侵權案件的出現，只是冰山的一角，未來隨著生成式AI日趨普及，類似的案件將只會更多。

AI訓練背後的暗黑世界
盜版書籍資料庫

　　除網站資料外，AI訓練最主要的高品質訓練內容，其實來自於書籍。根據OpenAI在2020年發佈的一篇論文揭露，除網路資料，其有關於書籍的訓練資料部分，主要來自被稱為Books1與Books2的2個資料庫，至於Meta的Llama和彭博社的BloombergGPT也在論文中揭露利用Books3。

　　雖然這3個資料庫所包含的書籍內容不是非常明確，但根據學者的研究，Books1據推測是非營利古騰堡計畫(Project Gutenberg) 的完整內容，包含約70,000本書。雖然這些書籍的著作權已經消滅，但其中仍有部分書籍附有不得以商業或非商業目的重製或散佈的限制。

　　至於Books2的來源更不明確，許多人認為其主要來自網路上著作權的暗黑世界「影子圖書館(Shadow Library)」，也就是盜版書籍網站，如Library Genesis、Z-Library、Sci-Hub 和Bibliotik。雖然著作權團體多次努力將這些影子圖書館掃平，但仍無法如願。例如：2022年11月，美國政府就起訴2名負責Z-Library 營運的俄羅斯公民，並在阿根廷將其等逮捕，但如同知名的海盜灣(The Pirate Bay) 一樣，單純的訴訟或逮捕並無法根除這些網站。

　　Books3則是目前用於訓練AI最知名的盜版書籍資料庫，由知名開源AI支援者ShawnPresser透過OpenAI發佈的論文進行逆向工程後彙而得。Presser自稱之所以要發佈Books3最主要原因，就是考慮OpenAI GPT-3已經享有先發優勢與大筆資金的情況下，能否讓其他競爭者也能與OpenAI競爭並重新創造一個類似的LLM ？也就是他創建Books3資料集的目的，就是要為沒有龐大財力與資料的研究人員與獨立的AI開發者提供「OpenAI級訓練資料」，並為其等創造一個與大型AI公司公平競爭的機會。他擔心，若沒有Books3的訓練資料，未來的AI世界將會由OpenAI, Google, Meta等大型AI公司壟斷。

人工智慧所承諾的未來
用偷來的文字所撰寫

　　由於Books3資料最多，因此不僅僅是大型AI 公司、甚至學術研究機構也透過AcademicTorrents利用Books3的資料集進行AI 訓練。而開源的EleutherAI更基於Books3數據集，再加上其他各種來源的資料，如YouTube視頻字幕、歐洲議會的檔案和發言逐字稿、英文維基百科、甚至一些公司的電子郵件（例如知名能源公司Enron的員工在公司2001年破產前發送和接收的電子郵件）整理成另一個大型檔案集The Pile。

　　大西洋雜誌(The Atlantic) 在8月所推出的一系列調查報導也證明，這些大型語言模型確實在訓練AI 的過程，未經作者同意大量使用來自Books3 的盜版書籍作為AI訓練資料，這些AI程式也正改變人類閱讀、學習和交流的方式。因此該雜誌很明確表示，「人工智慧所承諾的未來，是用偷來的文字撰寫的」，因為Books1,Books2, Books3除了被Meta 與OpenAI用來訓練其LLM 外，也被其他生成式AI系統，如彭博社(Bloomberg) 的BloombergGPT、EleutherAI的GPT-J( 一種流行的開源模型）用於訓練其AI，甚至已經用於目前嵌入網站中的其他生成式AI程式。

　　事實上，彭博社證實該公司確實利用Books3用於訓練BloombergGPT的初始模型，但卻表示：「我們不會將Books3資料集包含在用於訓練未來版本 BloombergGPT的資料來源中」。

　　由於現階段有關著作權的問題滋生，為此美國作家協會(The Authors Guild) 特別在2023年7月向生成式AI企業發表了一封公開信，要求Alphabet、OpenAI、Meta和微軟等公司，就訓練AI使用受著作權保護的資料應獲得作者之同意，並應給予公平補償。這封公開信一經發表，就獲得超過1 萬名作家連署，而作家協會在人氣大漲的情況下，更進一步與Eleuther就The Pile授權議題進行探討，其目的在於確保未來AI業者只使用經授權的資料集進行訓練。

　　丹麥著作權團體Right Alliance除希望以訴訟方式讓Books3從網路上消失，還將訴訟目標瞄準使用Books3 的AI業者。一旦其策略成功，可能會改變生成式AI的產業以及誰控制生成式AI的問題。

　　這些動作與相關訴訟的出現，已經造成一個現象，就是AI業者對於其所使用的訓練資料更形保密，這也將使權利人更難得知其創作是否被作為訓練資料，也更難對這些AI業者提起訴訟並證明有侵權的情事發生。

　　至於AI業者是否會因使用未授權資料進行AI訓練，就當然構成著作權的侵權，仍處於未定的狀態。這是因為雖未經授權而利用是一個重要考慮因素，但仍要考慮業者是否有故意或重大過失，權利人團體若要證明仍有一定的難度，更何況業者都會主張合理使用為抗辯。雖然在美國最高法院於Andy Warhol Foundation v. Goldsmith一案，大幅收緊合理使用的適用範圍，將第一個判斷標準重新聚焦在使用目的及性質上，並將商業利用(Commercialism) 與否，重新納入權衡範圍，但AI 業者的利用是否就一定構成侵權，仍需就合理使用其他因素加以綜合判斷，目前尚未能確定。

　　在法律渾沌不明的當下，雖然生成式AI有其應用與經濟上的重要性，但若要讓生成式AI能真正發揮功能，首先就要消弭其所衍生的侵權訴訟問題，否則在大量訴訟的壓力下，任何創新的技術都無法廣泛推廣和應用，也無怪乎業界紛紛提出保護客戶免於訴訟的方案，以推廣其產品。例如，微軟就宣佈將對Copilot產品的企業客戶承擔法律責任，Adobe也宣佈在著作權、隱私權以及公開權方面保護使用Firefly產品的企業客戶。Google則更進一步在10月13日，在其部落格中宣佈，該公司將對其訓練資料和基礎模型的輸出負責，如果用戶因使用其基礎模型後獲得的結果而被起訴，Google將保護用戶。但根據Google之聲明，僅對使用Duet AI、Vertex AI的搜尋、對話與部分API的用戶承擔法律責任，雖然將保護對象擴大到企業用戶以外的一般用戶，但Google卻未將對最常被使用的Bard搜尋工具包括在內，且這種保護「僅適用於您沒有試圖故意創建或使用生成的輸出來侵犯他人權利的情況。」

Books3資料庫引發的影響漣漪
將重塑未來AI世界的發展

　　這場由Books3資料庫所引發的著作權爭議，其可能影響的範圍，已不限於傳統的著作權侵權問題，還產生其他的問題，例如：資料透明化(Data Transparency)、是否會限制中小型業者與學術研究人員進入AI賽道、權利人是否有權選擇將其創作移除等問題，其結果將可能重塑未來AI世界的發展。

　　再加上部分國家如以色列、日本、英國等已經透過法律放寬資料探勘(Text and DataMining, TDM) 作為著作權的例外，也因此知名著作權學者Pam Samuelson 教授擔心，這種國際間對AI訓練規範的不一致，將導致創新套利(Innovation Arbitrage) 的情況發生，也就是AI業者將會選擇到對AI訓練規範較寬鬆的國家去發展。雖然人類已經進入AI時代，但由於智慧財產權也進入數位化階段，並以位元的形式快速流動，因此Books3的爭議反而突顯在AI時代，控制內容遠比以往任何時候都更加重要；但若嚴加控制，可能出現不同的問題與結果。如何選擇仍將有賴於未來法規（例如：歐盟AI 法案）或法院判決，但Books3的爭議與訴訟則已經點出問題的所在，其結果也將永遠影響未來AI產業的發展與AI世界的應用。在生成式AI持續進步與發展離不開受著作權保護的內容，若要准許AI進一步發展，就一定要找到一個平衡權利人與AI利用的機制。（本文作者為政治大學法學院暨商學院合聘教授）

【更多精彩內容請見《能力雜誌》2023年11月號，非經同意不得轉載、刊登】

更多資訊請參考