從我國唯一AI侵權之中央通訊社案 – – 著作權法刑責之再檢討

圖、從我國唯一AI侵權之中央通訊社案 - - 著作權法刑責之再檢討

2026/06/04

圖文引用自:iknow.stpi.niar.org.tw

一、中央社案件始末
我國司法實務上,還沒有與生成式AI訓練有關之任何訴訟案,但2025年爆發了一件涉及AI的著作侵權 — 中央通訊社案。

據報導,被告是開源繁體中文語料集「fineweb-zhtw」的博士生志工,他看到開發者在Hugging Face開源社群平台(被稱為AI界的GitHub)釋出對話式語料集,供其他開發者使用。但有鑑於繁體中文資料佔比極低,該生便想予以填補該缺口。於是自行擷取包含網路公開文章、媒體新聞內容,經其整理成繁體中文資料集,將其公開提供予任何想用於AI訓練的人使用。

該生爰將中央通訊社(下稱中央社)的新聞內容放入該語料集中,擬以開放資料授權方式,無償公開分享繁體中文語料集。後來中央社發現其新聞內容,未經授權被納入該語料資料集,遂於2025年7月提起著作權侵害之刑事告訴,引發業界高度關注。這早已在全球引起無數爭議的法律問題,對國內AI訓練本來是個值得審視並檢討的機會,惟因刑事控訴的危險太大,雙方後來和解,以致於我國法院完全沒有機會表達對此議題的見解。

由於該案未公開,推估其或係指控:重製權侵害(將新聞資料轉入語料集)、公開傳輸問題(將資料集提供他人下載),而此案的核心法律爭點可能在於:
1.「網上抓資料」是否構成著作權法之重製侵害?
2. 語料集是否被儲存且又供公開傳輸?是否違反使用條款(Terms of Service)?
3. AI訓練是否屬於著作權法之「合理使用」?
基本上,被告可能主張:其係為研究之非商業性用途;但中央社則可能反駁:完整複製且系統性蒐集,已影響其市場授權機制而造成損害。以下先從AI運作之開源語料集談起。

二、AI運作之「開源語料集」
(一)、科學研究領域中開放資料是常態
首先,有價值的開源語料集怎麼會公開?這是因為在AI領域,價值往往不在資料內容本身,而在於模型訓練的能力、算力、微調技術(fine-tuning)。因此,公開語料常是業界一種科技文化上的慣例,而非技術上必然:

  1. 研究文化使然:在AI/機器學習領域,開放資料是常態:像Common Crawl[1]、LAION、FineWeb、ImageNet等,都是開源文化下的公共基礎設施,原因在於其需要「可再現性」(reproducibility)、促進模型的改進、學術發表要求資料透明。
  2. FineWeb類型資料的邏輯:這類資料集通常是從Common Crawl抽取、清理、標註、再釋出,而參與者的「心態」,通常認為其只是整理公開資料。
  3. 為何會放在GitHub / HuggingFace開源平台上?因為一般GitHub 是用來放程式碼與小規模的資料集,而HuggingFace則是用來存放各種語言模型與大規模的資料集。
  4. AI運作中包括爬蟲、清洗、去重、格式化等成本高:許多技術人員認為,既然做了不妨「天下為公」,乾脆讓大家來使用,因此公開語料在科技界的文化裡常被視為正常,能幫助研究、促進科技發展。

這些在AI領域中都是一種常態,都是標準方式。然而在法律體系裡,若語料包含未經授權的著作,整理資料本身就可能構成重製,可能有觸法之侵權疑慮。

(二)、語料集的性質:工具 v 產品
其實,語料集本身之資料蒐集,也是一個智力的成果,因此是否公開,仍取決於其定位與價值。這觸及一核心問題:語料集到底是「工具」還是「產品」?導致不同的公開策略,此大致可分為兩種類型:

  1. 基礎型語料特徵(通常會公開):來源主要是「網路公開資料」,建立者自認只是「整理者」而非內容「創作者」,例如上述之Common Crawl、FineWeb等。這些語料集不擁有內容本身,只是提供「資料集合」作為研究工具,因此常以開源或免費形式公開,以促進學術與科技發展。
  2. 高價值語料特徵(通常不公開):其經過資料清理與標註等繁瑣的工作程序後,即包含可對外授權、具有商業價值之內容,例如:Google內部語料、新聞媒體的授權資料、Bloomberg GPT語料等,這類語料集本身就是「產品」,具有商業競爭力並受法律授權之限制,因此通常不會對外公開,只在需付費授權環境中才能使用。
(三)、高值AI語料集通常「預設不公開」
由以上可以推得,產業界中的語料集通常預設也是「不公開」。公開只是學術或開源文化下的選擇,而非技術上的必然。從純技術角度來看,語料集本來就不需公開,也就是說:語料集可以是完全私有(private corpus),例如像Google、Meta、OpenAI等的部分資料,他們的訓練資料幾乎都不公開、也不提供下載,甚至不說明來源細節。其實有很多AI團隊已開始改變策略,例如:
  1. 只公開「處理流程」而不公開資料:例如爬蟲程式、清理方法,但不提供最終語料集。
  2. 只提供索引(index)而不是內容:例如:提供URL列表,不提供文章內容,這是法律風險較低的做法。
  3. 只釋出模型,但不公開訓練資料集:這是現在的主流趨勢,像是Llama-3、Gemma-3等開源模型,其模型公開但訓練資料集不公開。
三、本案中央社是如何發現本案
回到本案,據中央社的聲明,此案涉及的資料集為「fineweb-zhtw」,該資料集內含14萬筆來自中央社、時間橫跨2011年至2021年的新聞內容,且未經授權。而本案的關鍵點是:中央社之所以能發現自家新聞被納入AI語料集,係由於「語料集公開釋出」這個破口。因為像 FineWeb 類型的繁體中文語料,往往是開源或可下載的,這意味著權利人可以直接透過 HuggingFace、GitHub 等平台,檢視或下載資料集。一旦資料是公開的,權利人就能自行檢索,這使得侵權檢測變得相對容易。
提供相關智權新聞
若您有智權相關新聞,也歡迎透過email連繫。

探索更多來自 華鼎專利商標 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Exit mobile version
%%footer%%