生成式人工智能训练数据复制权侵权认定的困境与出路


  □ 李建忠 (湖北民族大学法学院讲师)

  随着生成式人工智能技术的快速发展,训练数据使用引发的复制权侵权认定困境日益凸显。当前,实践中仍采用传统著作权法的“接触+实质性相似”标准,忽视了AI技术通过向量化处理实现数据碎片化存储的本质特征。笔者旨在分析现行法律制度与生成式AI技术特征的结构性矛盾,从立法创新、监管协同与责任分层三个维度,构建适应技术发展的法治调适路径,为平衡著作权保护与AI产业创新提供理论支撑。
  生成式AI数据训练中复制权侵权认定困境分析
  一、技术特征与法律定性的争议
  生成式AI在数据训练时引发的复制权侵权认定困境,本质上是其技术特点与现有法律体系之间出现的结构性错位。从技术角度看,AI训练通过算法把文本向量进行数学上的表征处理,最终形成碎片化、不连续的分布式存储方式。这种方式与著作权法上完整表达形式固定的复制概念存在差异,著作权法对复制权的定义是以机械化复制的时代为基础,难以适应深度学习的技术现状,导致实践中“功能等同论”和“技术例外论”存在分歧。处理训练数据的目的是对模型的参数进行优化,是技术实现的必要环节,与以传播为目的的内容复制存在根本区别。但是,法律的滞后性让司法认定直接套用“接触+实质性相似”标准,未考虑AI系统是通过海量数据学习抽象的特征,而不是复制具体表达内容这个运行逻辑。
  二、现行法律制度适应困境
  生成式AI在数据训练时引发的复制权侵权认定困境,暴露出现行法律制度和技术发展之间存在深层的脱节,我国著作权法对复制权的界定以传统复制行为作为基准,无法覆盖AI训练中数据碎片化存储、向量化处理等新型技术特点。实践中机械适用“接触+实质性相似”标准,未考虑AI系统是通过海量数据学习抽象特征而不是复制具体表达内容的运行逻辑,导致裁判尺度不一、证据规则体系也面临挑战。AI训练的“黑箱”特点让权利人很难获得完整的证据链,而且举证责任分配机制未适配技术特性,导致维权成本较高。
法治调适的系统性建构路径
  一、立法层面的创新突破
  立法层面的创新突破是破解生成式AI数据训练复制权侵权认定困境的关键。需构建“技术性复制”与“传播性复制”的二元立法框架:前者明确训练数据必要处理行为的合法性边界,后者规范内容传播环节的侵权责任。应借鉴《生成式人工智能服务管理暂行办法》的监管思路,在著作权法中增设“算法透明度”条款,要求AI企业披露训练数据来源及处理方式。同时,建立著作权补偿金制度,按训练数据规模由AI企业缴纳专项基金,通过集体管理组织分配收益;需明确“合理使用”的适用标准,对非营利性研究、文化遗产保护等场景给予特别豁免。这些创新突破需与司法实践、行业自律形成合力,最终实现技术创新与权利保护的动态平衡。
  二、监管机制的协同配套
  生成式AI数据训练的法治调适需构建监管协同机制。当前《生成式人工智能服务管理暂行办法》确立的备案制与算法备案制度,为监管协同提供了制度基础。需建立“技术—法律—行业”三维监管框架:技术层面推行区块链存证系统,实现训练数据全流程可追溯;法律层面完善“通知—删除”规则,要求平台建立侵权内容过滤机制;行业层面推动成立AI数据合规联盟,制定数据使用白名单。针对监管主体碎片化问题,可构建多部门参与的联合监管模式,建立跨部门数据共享平台。在责任分配上,应区分基础模型提供商与垂直应用开发商的责任边界,对开源模型实施差异化监管。通过监管沙盒机制,在保障安全的前提下促进技术创新,实现从被动应对到主动治理的转变。
  三、责任认定的分层机制
  现行侵权责任认定机制在应对生成式AI数据训练时面临主体模糊困境,亟须构建分层责任体系。根据《生成式人工智能服务管理暂行办法》,应以“控制力+获益程度”标准划分责任。AI模型开发者作为核心控制方,承担数据来源合法性审查义务,对训练数据侵权负首要责任;数据提供者若明知侵权仍参与的,应承担连带责任;平台运营者需履行“通知—删除”义务,可基于技术中立性获得责任豁免。
  在责任认定程序上,应建立“技术溯源+过错推定”机制。通过区块链存证固定训练数据调用路径,对无法自证清白的开发者推定过错。同时,引入“避风港规则”的升级版,要求开发者建立数据过滤系统,对明显侵权内容自动拦截。这种分层机制既符合民法典侵权责任编的立法精神,又能适应AI产业快速迭代的特性,为司法实践提供可操作的判断标准。
  在人工智能技术飞速发展的时代背景下,通过构建科学合理的法治调适体系,能够在保护著作权人合法权益与促进AI产业创新发展之间找到平衡点,为生成式人工智能的健康可持续发展保驾护航。

本网站所有内容属《法治日报》所有,未经许可不得转载。