基础模型训练的著作权问题：理论澄清与规则适用

　　□ 陶乾

　　2023年以来，国内外许多著作权人先后发起了对基础模型开发者的侵权诉讼。原告方认为模型训练过程中的作品使用行为构成侵权，但被告方辩称其行为属于一种合理使用，目前在世界范围，尚无法院对此问题给出定论。
　　我国著作权法第二十四条合理使用条款穷尽式地列举了13种情形，从文义来看，无法将模型训练使用作品解释为任何一种情形。很多学者从立法论出发，建议我国引入“文本与数据挖掘”侵权例外制度，但在法律修改之前，司法机关仍需在现行著作权法下进行规则适用。有鉴于此，笔者从解释论的角度，将人工智能基础模型训练过程中，数据准备、数据投喂和机器学习三个阶段的作品使用置于著作权法基本法理与现有规则中进行剖析，为司法实践处理此类纠纷提供创新性思路。
　　数据准备阶段：数据集创建者的著作权合规
　　数据准备阶段是模型开发的重要前置阶段。基础模型所使用的数据集包括开源数据集、付费数据集和自建数据集。在前两种情况下，模型开发者与数据集创建者是两个不同的主体。
　　数据集创建涉及的著作权问题有二：第一，数据集创建者在选取数据源时，是否需要过滤掉那些本身具有侵权属性的内容；第二，在内容本身不侵权的情况下，数据集创建者将作品复制于其数据集之中，是否需要获得著作权人的另行授权。
　　第一个问题涉及的是数据集创建者对著作权侵权内容的注意义务。数据集里的数据样本来源分为三种：在经营过程中积累的自有数据、抓取的网络公开数据以及购买的第三方数据。在这三种来源之下，数据集创建者的注意义务有所不同。
　　在数据集创建者使用自有数据的情形下，将数据中的侵权内容复制在数据集里，其应承担直接侵权责任。在采集网络公开数据的情形下，数据集创建者扮演着数据使用者的角色。侵犯内容是由直接侵权人进行网络公开传播的，数据集创建者不对该侵权内容承担赔偿责任，除非其明知该内容的侵权性质仍将其收录于数据集。在数据集创建者购买第三方数据的情形下，有必要要求其对数据中的作品来源合法性问题有事前的合理预见，合法来源抗辩的成立以履行适当的注意义务为前提。
　　第二个问题涉及的是数据集对作品的复制行为是否落入到著作权人的专有权利范围内。数据集是创建者依照特定的标准收集和整合各种信息而成，根据数据集的创建目的和数据内容，可区分为通用数据集和专门数据集。这两种数据集在复制作品的行为效果上存在差异性。
　　通用数据集的价值基于其数据体量和数据维度。数据样本内容具有多样性和综合性的特点，其中既有各种类型的作品，也有不构成作品的信息。数据中所包含的单一作品，在价值上，对于整个数据集来说微乎其微；在体量上，占据整个数据集的极微小部分。对已发表的单一作品的复制，尽管落入到著作权人的权利范围，但从比例原则下社会公共福祉与著作权人利益的取舍来看，考虑到侵权情节极其轻微，可将其作为一种停止侵权的例外情形，基于这种“低密度性”使用作品的方式对权利人造成的损害微乎其微，且给使用人带来的所得亦极其微弱，所以，通常而言，使用者亦无需承担损害赔偿责任。
　　专门数据集的价值基于其数据内容和数据质量。数据样本内容具有特定性和专门性的特点，比如，特定作者的作品、特定历史时期的作品、特定风格的作品或者特定行业领域的数据。数据集的价值与作品集合的价值产生了重合，是数据集商业化的基础。此时，数据集创建者理应获得这些作品的著作权人的授权，否则侵犯了著作权人的复制权或汇编权。数据集的开源传播还会侵犯作品信息网络传播权。对于专门数据集所涉及的著作权问题，未来的制度完善可引入“选择退出”机制和事后许可机制，降低数据集创建者与作品著作权人之间的沟通成本。
　　数据投喂阶段：基础模型开发者的有限义务
　　模型开发者获取了数据集之后，将数据集以指定的批量大小、顺序等方式加载到模型的开发程序中，模型通过算力来实现特征提取和对数据集的“吸收”。
　　数据投喂阶段的著作权问题有二：第一，基础模型开发者是否需要对数据集的著作权合规尽到注意义务；第二，基础模型开发者是否就此阶段的数据输入行为承担复制权侵权责任。
　　第一个问题涉及数据与作品之间错综复杂的关联关系。作品是一种信息，数据是信息的载体。数据集是其创建者与模型开发者之间进行交易的一种商品。只要数据集的来源合法合规，就不需要再考察组成数据集的每一个样本是否经过授权。但需要指出的是，基础模型开发者付费获得专门数据集时，看重的正是数据集的样本内容和质量，模型开发者应当对于专门数据集的内容合规具有一定程度的注意义务，尽最大努力去避免其使用的数据集侵犯他人著作权。
　　第二个问题涉及的是基础模型开发者将数据集加载至模型过程中对数据中若干个作品的整体复制。著作权法行为定性采取的是结果主义，鉴于此时的复制是纯粹的内部复制，属于为了实现其他结果而进行的过程性复制，是一个被后续行为所涵盖的行为，故不需要对其进行单独的法律评价。
　　机器学习阶段：基础模型开发者的非侵权性
　　开发者进行数据“投喂”的目的在于对数据进行机器学习。机器学习阶段的著作权问题是这种使用作品的行为是否落入到著作权人的专有权利范围内。
　　著作权法保护表达，而不是思想。著作权人的权利所控制的行为是对作品的“表达性使用”，包括对作品中的独创性表达的直接再现的呈现式使用和间接再现的演绎式使用。将著作权法意义上的作品使用限定在“表达性使用”，是划定知识产权保护范围与公众信息自由与表达自由之间界限的关键。无论是我国著作权法第十条规定的著作财产权，还是第五十二条、第五十三条所列举的侵权行为，均在语义内涵上指向对作品的“表达性使用”。
　　在传统著作权法下，有形载体之上的物权与载体之上的知识产权能够有效区分，有形之物与无形财产之间的泾渭分明使得人们很容易界定一个行为所使用的是作品中的表达还是作品的载体。数字时代，数据也成为作品的载体，作品的无形性与载体的无形性产生重叠，对作品的使用与对数据的使用混合为一体。此时，区分“表达性使用”与“非表达性使用”就变得重要。
　　当人工智能进行模型训练时，第一，其抓取和识别的是数据，旨在让机器掌握文字与文字、美术元素与元素之间分布的规律，这种规律本身不受著作权法所保护；第二，机器学习的本质是从数据中计算出概率，形成表达范式，无论是模型本身还是模型背后的开发者，都未产生对作品中的表达的理解和欣赏。因此，模型训练并非将数字化的内容作为作品进行使用，而是将其作为数据来使用，该行为并不应当落入到著作权的控制范畴。
结语
　　基础模型的开发是发挥数据要素使用价值的直接方式，是发挥新质生产力效能与创新商业模式的实现路径。各国对于人工智能基础模型训练的著作权问题的处理态度，关乎着作品数据的国际化流动与价值开发以及各国在人工智能领域的国际竞争。我国目前人工智能产业发展仍面临着数据集供应不足、质量不高、多样性匮乏等情况，有必要探索合适的方式来减少我国生成式人工智能产业在数据获取上的著作权授权阻碍和合规束缚。我国《生成式人工智能服务安全基本要求》在“语料安全”中规定应重点识别训练语料中的著作权侵权问题，这种一概而论的规定是否恰当仍需要从著作权法的法理上进行更审慎的思考。在个案中，司法机关应当在著作权法的现有框架下，根据模型开发过程中各个环节的作品使用目的和方式，运用基础法理来确定侵权与否，划定数据集创建者与模型开发者版权注意义务的边界，从而为技术开发与产业发展提供指引。
（原文刊载于《政法论坛》2024年第5期）