從我國唯一AI侵權之中央通訊社案 – – 著作權法刑責之再檢討

4 6 月, 2026

2026/06/04

圖文引用自：iknow.stpi.niar.org.tw

一、中央社案件始末
我國司法實務上，還沒有與生成式AI訓練有關之任何訴訟案，但2025年爆發了一件涉及AI的著作侵權 — 中央通訊社案。

據報導，被告是開源繁體中文語料集「fineweb-zhtw」的博士生志工，他看到開發者在Hugging Face開源社群平台（被稱為AI界的GitHub）釋出對話式語料集，供其他開發者使用。但有鑑於繁體中文資料佔比極低，該生便想予以填補該缺口。於是自行擷取包含網路公開文章、媒體新聞內容，經其整理成繁體中文資料集，將其公開提供予任何想用於AI訓練的人使用。

該生爰將中央通訊社（下稱中央社）的新聞內容放入該語料集中，擬以開放資料授權方式，無償公開分享繁體中文語料集。後來中央社發現其新聞內容，未經授權被納入該語料資料集，遂於2025年7月提起著作權侵害之刑事告訴，引發業界高度關注。這早已在全球引起無數爭議的法律問題，對國內AI訓練本來是個值得審視並檢討的機會，惟因刑事控訴的危險太大，雙方後來和解，以致於我國法院完全沒有機會表達對此議題的見解。

由於該案未公開，推估其或係指控：重製權侵害（將新聞資料轉入語料集）、公開傳輸問題（將資料集提供他人下載），而此案的核心法律爭點可能在於：
1.「網上抓資料」是否構成著作權法之重製侵害？
2. 語料集是否被儲存且又供公開傳輸？是否違反使用條款（Terms of Service）？
3. AI訓練是否屬於著作權法之「合理使用」？
基本上，被告可能主張：其係為研究之非商業性用途；但中央社則可能反駁：完整複製且系統性蒐集，已影響其市場授權機制而造成損害。以下先從AI運作之開源語料集談起。

二、AI運作之「開源語料集」
（一）、科學研究領域中開放資料是常態
首先，有價值的開源語料集怎麼會公開？這是因為在AI領域，價值往往不在資料內容本身，而在於模型訓練的能力、算力、微調技術（fine-tuning）。因此，公開語料常是業界一種科技文化上的慣例，而非技術上必然：

研究文化使然：在AI/機器學習領域，開放資料是常態：像Common Crawl[1]、LAION、FineWeb、ImageNet等，都是開源文化下的公共基礎設施，原因在於其需要「可再現性」（reproducibility）、促進模型的改進、學術發表要求資料透明。
FineWeb類型資料的邏輯：這類資料集通常是從Common Crawl抽取、清理、標註、再釋出，而參與者的「心態」，通常認為其只是整理公開資料。
為何會放在GitHub / HuggingFace開源平台上？因為一般GitHub 是用來放程式碼與小規模的資料集，而HuggingFace則是用來存放各種語言模型與大規模的資料集。
AI運作中包括爬蟲、清洗、去重、格式化等成本高：許多技術人員認為，既然做了不妨「天下為公」，乾脆讓大家來使用，因此公開語料在科技界的文化裡常被視為正常，能幫助研究、促進科技發展。

這些在AI領域中都是一種常態，都是標準方式。然而在法律體系裡，若語料包含未經授權的著作，整理資料本身就可能構成重製，可能有觸法之侵權疑慮。

（二）、語料集的性質：工具 v 產品
其實，語料集本身之資料蒐集，也是一個智力的成果，因此是否公開，仍取決於其定位與價值。這觸及一核心問題：語料集到底是「工具」還是「產品」？導致不同的公開策略，此大致可分為兩種類型：

基礎型語料特徵（通常會公開）：來源主要是「網路公開資料」，建立者自認只是「整理者」而非內容「創作者」，例如上述之Common Crawl、FineWeb等。這些語料集不擁有內容本身，只是提供「資料集合」作為研究工具，因此常以開源或免費形式公開，以促進學術與科技發展。
高價值語料特徵（通常不公開）：其經過資料清理與標註等繁瑣的工作程序後，即包含可對外授權、具有商業價值之內容，例如：Google內部語料、新聞媒體的授權資料、Bloomberg GPT語料等，這類語料集本身就是「產品」，具有商業競爭力並受法律授權之限制，因此通常不會對外公開，只在需付費授權環境中才能使用。

（三）、高值AI語料集通常「預設不公開」
由以上可以推得，產業界中的語料集通常預設也是「不公開」。公開只是學術或開源文化下的選擇，而非技術上的必然。從純技術角度來看，語料集本來就不需公開，也就是說：語料集可以是完全私有（private corpus），例如像Google、Meta、OpenAI等的部分資料，他們的訓練資料幾乎都不公開、也不提供下載，甚至不說明來源細節。其實有很多AI團隊已開始改變策略，例如：

只公開「處理流程」而不公開資料：例如爬蟲程式、清理方法，但不提供最終語料集。
只提供索引（index）而不是內容：例如：提供URL列表，不提供文章內容，這是法律風險較低的做法。
只釋出模型，但不公開訓練資料集：這是現在的主流趨勢，像是Llama-3、Gemma-3等開源模型，其模型公開但訓練資料集不公開。

三、本案中央社是如何發現本案
回到本案，據中央社的聲明，此案涉及的資料集為「fineweb-zhtw」，該資料集內含14萬筆來自中央社、時間橫跨2011年至2021年的新聞內容，且未經授權。而本案的關鍵點是：中央社之所以能發現自家新聞被納入AI語料集，係由於「語料集公開釋出」這個破口。因為像 FineWeb 類型的繁體中文語料，往往是開源或可下載的，這意味著權利人可以直接透過 HuggingFace、GitHub 等平台，檢視或下載資料集。一旦資料是公開的，權利人就能自行檢索，這使得侵權檢測變得相對容易。…