合理界定数据训练中使用作品的行为 -

当前位置：首页 > 学院 > 实务知识 > 实务知识

合理界定数据训练中使用作品的行为

发布时间：2025-02-20

责任编辑：刘喆

来源：中国知识产权报

著作权数据训练

摘要：本文作者认为，生成式人工智能数据训练中使用作品的行为属于“表达性使用”，我国现行合理使用制度难以涵盖基于生成式人工智能数据训练的目的而使用作品的行为，数据训练中使用作品的行为可能侵犯原作品作者的复制权。

　　编者按

　　在生成式人工智能数据训练过程中，未经著作权人许可的作品使用行为面临着侵权风险。本文作者认为，生成式人工智能数据训练中使用作品的行为属于“表达性使用”，我国现行合理使用制度难以涵盖基于生成式人工智能数据训练的目的而使用作品的行为，数据训练中使用作品的行为可能侵犯原作品作者的复制权。

　　伴随着科学技术的进步，人工智能技术的发展势头方兴未艾。人工智能在给大众带来巨大经济红利与生活便利的同时，也产生了一系列法律问题，其中生成式人工智能数据训练阶段使用作品的著作权法定性问题备受争议，也就是说，使用他人享有著作权的作品进行生成式人工智能数据训练究竟属于著作权侵权行为，还是合理使用行为，甚至是与著作权法无关的行为？学界有部分观点认为，此类行为不属于著作权侵权，著作权人无权限制他人将其作品用于数据训练。笔者将分析数据训练中使用作品涉及的著作权权利范围，探寻我国现行合理使用制度的内涵与边界，进而对其进行著作权法定性。

　　明确权利范围

　　分析数据训练中使用作品的行为是否侵犯著作权，首先需要判断该种使用行为是否落入著作权的权利范围。有观点认为，数据训练中使用作品的行为属于“非表达性使用”，从权利范围阶段排除了该种行为侵犯著作权的可能性。所谓“非表达性使用”，是指使用原作品的目的并非为了利用其具有独创性的表达，而是将其作为一种事实性信息进行功能性利用，在使用结果上也未再现原作品的艺术价值。然而，笔者却认为，生成式人工智能数据训练中使用作品的行为属于“表达性使用”。

　　生成式人工智能数据训练中使用作品的目的是为了后续的“创作”，由此意味着人工智能对于数据的使用并非针对原作品的事实性信息，而是其中的独创性表达。不同于将作品的名称、作者、部分内容片段等信息提取以作功能性使用，如出于方便检索或提出某一理念、想法的目的使用作品部分信息，人工智能在数据训练过程中是将作品的全部内容用以学习来为后期的机器“创作”奠定基础，故数据训练自然不可避免地需要使用作品中的独创性表达。显然，这一使用的结果并非实现了所谓目的性或者功能性转换，而是形成了与原作品有关联的“新作品”，正是在这一意义上，人工智能创作对于数据作品的使用属于“表达性使用”。

　　明晰制度边界

　　某一对作品的使用行为即使落入了著作权的权利范围之内，也依旧可能因构成合理使用而获得著作权侵权豁免。有观点认为，生成式人工智能数据训练中使用作品的行为构成合理使用。笔者认为，我国现行合理使用制度难以涵盖基于生成式人工智能数据训练的目的而使用作品的行为。

　　首先，数据训练中使用作品的行为与具体合理使用类型不符。我国合理使用制度采取封闭式的立法设计，即认定合理使用只能在我国著作权法列举的具体类型清单中“对号入座”。数据训练中使用作品的行为与“个人学习、研究”“科学研究”和“适当引用”三类合理使用类型最可能相符，但从法教义学的角度看，三种合理使用类型难以在数据训练情形下得以适用：第一，由于“个人学习、研究”类合理使用要求主体限定在自然人，目的限定在“学习、研究”等非商业目的，而生成式人工智能数据训练的主体通常是具备一定技术条件和物质条件的组织机构，且最终目的是完善人工智能以便未来投入市场收回成本和获取收益，故不符合此合理使用类型的主体与目的要求。第二，“科学研究”类合理使用要求主体限定为国家设立的教育、科研公共事业单位，行为限定为对作品的少量复制，而生成式人工智能数据训练涉及对海量作品的使用，故此合理使用类型也无法适用。第三，“适当引用”类合理使用要求使用作品的目的是为介绍评论某一作品或为说明某一问题，且使用行为应当具有适当性，即所引用的部分不能构成被引作品的主要部分或实质部分，生成式人工智能数据训练中对作品的使用显然不符合这两个要求。

　　其次，数据训练中使用作品的行为难以适用合理使用制度的一般条款。有观点认为，可以通过著作权法“第一条规范目的条款+第二十四条兜底条款”模式将模型训练纳入合理使用。笔者认为，此种观点存在两个问题：第一，著作权法的规范目的纵使有促进技术进步之意，也并不能以此为由对人工智能模型训练行为有所关照。从法律解释的角度看，文义解释、体系解释的顺位要优于目的解释。任何一项立法的规范目的都是通过具体的法律规范、法律规则来予以实现，目的解释不能超越对具体规则文本的涵盖范围，否则有肆意解释之嫌。第二，我国著作权法第二十四条兜底条款规定“法律、行政法规规定的其他情形”，即当现行法律或行政法规对合理使用的情形有专门规定的，可以予以适用。一方面，我国目前并无法律、行政法规明确规定针对生成式人工智能数据训练的合理使用情形，故从文义、体系解释的角度无法推导出模型训练可以纳入合理使用。另一方面，若结合我国著作权法第一条规范目的条款来对第二十四条兜底条款做扩张解释，则在面对其他使用作品的行为时也可遵循此路径扩大公有领域的范围，会有向一般条款逃逸的风险。

　　确定侵权类型

　　生成式人工智能数据训练中使用作品的行为属于对作品的“表达性使用”，现行合理使用制度与模型训练行为存在冲突，此种作品使用的行为属于著作权侵权。基于本文单就数据训练阶段使用作品的行为做著作权法定性的分析，故人工智能最终生成结果所可能侵犯的著作权权利类型不在此分析范围。笔者认为，数据训练中使用作品的行为可能侵犯原作品作者的复制权。

　　在进行生成式人工智能数据训练过程中，通常需要前期的数据收集和后期的机器学习。在前期数据收集阶段，大量作品会以图片、视频、文字、音频等多种形式作为模型训练的内容。收集这些作品的行为，实际就是对已有作品在不改变内容情形下所进行的全文复制和原样再现，并且会存储在机器中形成永久复制件，属于著作权法意义上的“复制行为”。在后期机器学习阶段，将前期数据收集的内容投喂给人工智能并进行深度学习的过程中，人工智能需要将作为创作素材的作品进行数字化处理并转换为适合“机器阅读”的标准数据格式。在将作品数字化处理以便于人工智能可读的过程中，相关作品实际已经被全部复制并永久存储在机器中，也属于著作权法意义上的“复制行为”。（焦和平李泽僖作者单位：西安交通大学法学院）

上一篇：不同途径提交外观设计申请有何异同？下一篇：【商标课堂】商品包装、装潢的保护路径

近期活跃事件

大家都在搜

大家都在用

科专笑飞专利文献机器翻译系统

i智库——知识产权咨询与培训服务平台

I译+知识产权语言服务平台