张涛谈生成式人工智能训练数据集的规制路径——

应当从命令控制型规制转向包容审慎规制

　　

　　中国政法大学张涛在《比较法研究》2024年第4期上发表题为《生成式人工智能训练数据集的法律风险与包容审慎规制》的文章中指出：
　　生成式人工智能是一种可以生成内容（如文本、图像、音频、视频等）的人工智能技术，若要开发能够执行此种操作的应用程序，就必须使用大量数据训练底层模型，使之能够识别数据集中的模式和结构。训练数据集是直接作为模型训练输入的数据，包括预训练、优化训练过程中的输入数据；训练数据集的类型、规模和使用方式直接决定生成式人工智能模型的成败。
　　从理论与实践来看，生成式人工智能的训练数据集具有双重法律地位：一是从功能定位的角度看，在人工智能时代，训练数据集已经成为数字基础设施的重要组成部分；二是从法律属性的角度看，训练数据集是一种聚合型权益客体，涉及多个主体的多种权益。
　　为了检视训练数据集可能存在的法律风险，有必要采取一种多维或多部门法融合交叉的视角，根据不同的法律规则进行风险识别与评估。从理论与实践来看，生成式人工智能训练数据集的突出法律风险主要包括著作权法风险（即未经许可使用作品）和个人信息保护法风险（即违法处理个人信息）。然而，现有规制框架却呈现风险防范形式化的现象，许可使用、合理使用等著作权法律规则难以因应规模化的训练数据集，而个人同意、目的限制与数据最小化等个人信息保护机制及原则亦存在效能不彰的问题。为此，有必要重构生成式人工智能训练数据集的规制框架，首先需要明确训练数据集的规制目标，应当从以权利保护为中心进阶为以公平使用为目的，即从单纯地保护相关主体的权利和利益，进阶为促进训练数据集的公平、合理、有效使用，以实现生成式人工智能的社会价值和公共利益的最大化。其次需要明确训练数据集的规制路径，应当从命令控制型规制转向包容审慎规制，即从单纯地依靠法律和行政的强制性规制，到兼顾法律、伦理、技术标准等多元规范以及政府、企业、社会组织等多元主体的协同性规制，以适应生成式人工智能的技术特性和规制需求。
　　为了实现生成式人工智能训练数据集的包容审慎规制，一是要构建包容审慎的著作权法规制，包括重构合理使用的标准与范围、构建著作权临时许可裁定制度、发布著作权合规最佳实践指南；二是要迈向包容审慎的个人信息保护法规制，包括拓展个人信息处理的合法性基础、改造告知同意机制、实施个人信息保护影响评估。
　　（赵珊珊整理）