大模型备案的语料要求是确保生成式人工智能服务合规性的核心环节,其核心在于安全性和合规性,确保由此训练的大模型符合管控要求。其主要涉及语料来源合法性、安全评估、标注规范等多个维度。以下是关键要求的综合解析:
一、语料来源合法性
1.分类管理
需明确语料来源分为开源、自采、商业三类,并提供相应的合法证明:
开源语料:需提供开源许可协议或授权文件,重点核查是否违反Robots协议及个人信息授权限制。
自采语料:需保留采集记录,禁止采集他人明确禁止的内容(如通过Robots协议限制的网页数据)。
商业语料:需具备法律效力的交易合同,并要求合作方提供来源、质量及安全的证明材料。
2.可追溯性
所有语料需具备可追溯的合法依据,例如授权文件、合同或采集日志,确保来源透明。
二、安全评估与核验
1.违法不良信息控制
采集前评估中,若违法不良信息占比超过5%,则该来源不得使用;采集后核验中若超过5%,需废弃该批次语料。
2.双重抽检机制
人工抽检:不少于4000条,合格率≥96%;
技术抽检(如关键词、分类模型):抽检量≥10%,合格率≥98%。
3.不良语料类型规避
需严格规避《生成式人工智能服务安全基本要求》附录A定义的5类31种不良信息,包括政治敏感、色情暴力、虚假信息等。特殊场景(如医疗、金融)需额外防范非专业建议或误导性内容。
三、标注规范与质量控制
1.标注人员管理
需明确标注人员数量、类型(内部/外包)、培训时长及内容,并建立考核机制,定期重新培训。
职能划分:至少分为标注与审核两类,同一人员不得兼任多项职能。
2.标注规则与抽检
标注细则需覆盖功能性和安全性要求,例如真实性、准确性、风险标注等。
功能性标注需人工抽检,错误内容需重新标注;安全性标注每条需至少一名审核人员审核通过。