Meta这次,可能真的惹到全球出版行业了,近期AI圈最危险的一场战争来了。
5月6日,四家主要出版商和一名作者在曼哈顿联邦法院起诉Meta,指控这家科技巨头滥用他们的书籍和期刊文章来训练其人工智能模型。
此次发起诉讼的机构与个人包括:圣智学习(Cengage Learning)、阿歇特出版(Hachette)、麦克米伦(Macmillan)、麦格劳(McGraw)以及作家Scott Turow 。他们在拟议的集体诉讼中声称,Meta从盗版网站获取数百万本图书与期刊文章,并将这些版权内容用于训练其AI大模型Llama。Meta还刻意抹除作品中的版权管理信息,隐瞒训练数据来源,为未经授权的商用提供便利。
与以往针对Meta的AI版权诉讼不同,此案最引人注目的地方在于,诉状将矛头直接指向了扎克伯格本人。诉讼将Meta首席执行官马克·扎克伯格列为被告,指控其亲自批准并主动纵容此次版权侵权行为。出版商在诉状中表示:“被告的行为,构成史上规模最大的版权作品侵权行为之一。”
对于这一指控,Meta方面否认有任何不当行为,称将积极抗辩此次诉讼。Meta发言人表示:“AI正在为个人和公司驱动变革性的创新、生产力和创造力,且法院已正确裁定,利用受版权保护的材料训练AI可以构成合理使用,我们将积极应对这起诉讼。”
截至目前,法院尚未对该案作出实质性裁决,案件仍在初步审理阶段,但其走向无疑将对整个AI行业产生深远影响。
此案的核心争论焦点是AI训练数据的合法性,以及Meta“合理使用”抗辩能否成立。
美国《版权法》规定了满足“合理使用”的四个条件,尤其会重点审查其中的两个要素:一是对原作品使用的性质或目的,二是使用对享有版权作品的潜在市场或价值所产生的影响。
从过往案例看,AI公司如果使用图书等训练AI具有“高度转换性”,即数据并非被用于阅读,而是为了训练AI完成任务,其功能与原作用途截然不同;从影响上看,AI没有直接替代图书市场。那么法院就会支持AI训练属于合理使用。
最终,若法院判定Meta侵权,将直接抬高AI公司训练数据的合规成本,倒逼科技巨头放弃盗版数据,转向合法授权模式。若Meta胜诉,则会进一步扩大数据合理使用的范围,冲击内容创作生态。
过去三年,全球范围内AI训练数据版权诉讼密集爆发。
2025年6月,美国加州北区联邦法院曾驳回13位作家对Meta的版权诉讼,认定其Llama模型训练构成“合理使用”。但法官明确指出该判决仅适用于该案特定情形,不构成行业通用准则。同年,Anthropic公司因类似指控,与作家群体达成15亿美元和解,为每部盗版作品支付约3000美元,成为行业首个大规模和解案例。
2025年11月,德国慕尼黑第一地区法院判决OpenAI侵犯德国音乐版权协会(GEMA)权益,成为“欧洲生成式AI版权第一案”,明确AI模型长期存储版权内容超出“文本与数据挖掘例外”范围。此外,《纽约时报》起诉OpenAI、Getty Images起诉Stability AI等案件,均围绕AI训练数据版权展开。
我国2023年发布的《生成式人工智能服务管理暂行办法》明确规定,生成式AI服务提供者“应当使用具有合法来源的数据”,不得侵害他人知识产权。中央网信办部署开展“清朗·整治AI应用乱象”专项行动,明确将“训练数据来源合规性存在的问题”作为整治重点。
当前,AI行业正处于关键的制度塑造窗口期。AI到底能不能直接学习有版权保护的内容?如果内容可以被AI大规模学习,那么AI时代的规则,到底如何制定?