
点击蓝字 关注我们


一个迟早会来的问题

我是一名稽查员,AI工具帮我筛出了一个异常信号,我基于这个信号写了稽查发现,最终这个发现影响了公司的监管决策。之后出了问题,谁负责?
AI开发商?他们造的工具出了问题,该他们负责吗?
稽查员?报告是我签字的,该我负责吗?
稽查管理方?是你选的AI工具、你批的稽查发现,该你负责吧。
法规的答案比你想的更清晰,也更沉重。
2026年4月,FDA发布了一封cGMP警告信,收件方是Purolea Cosmetics Lab。这不是一封普通的警告信——FDA首次在药品GMP警告信中明确指出"Inappropriate Use of Artificial Intelligence in Pharmaceutical Manufacturing",即"药品生产中人工智能的不当使用"。
事情是这样的:这家企业使用AI创建药品质量标准、程序文件以及主生产记录,但质量部门未充分审查这些AI生成内容是否准确、是否符合cGMP要求。FDA将问题直接归入质量部门职责失效(21 CFR 211.22(c))。
更具警示意义的是,当检查员指出企业未开展工艺验证时,企业的解释是:AI智能体"没有告诉他们"需要这样做。
"AI没告诉我"——这句话听起来荒诞,但仔细想想,它可能正是你未来会面临的处境。
FDA的回应很明确:如企业未来恢复药品生产并使用AI支持cGMP活动,所有AI输出或建议均须由质量部门授权人员审查和批准。信号很清楚:AI可以辅助,但不能替代质量责任。出了问题,FDA不会去追究AI,而是追究人。
这是cGMP领域的事。但临床研究领域,同样的问题迟早会来——只是场景换了一下。

法规结论:人类责任及职责归属始终明确且不发生转移——人工智能作为支持工具,不替代各责任主体在GxP要求下的决策职责及其责任履行。

先说结论,不绕弯子。
第 14 条Human oversight 人工监督明确:所有高风险 AI 系统必须配套自然人有效监督机制;部署者(Deployer,临床场景即申办方、CRO 等 AI 使用主体) 负有体系层面全责,保障监督机制落地执行。
在临床稽查、AE/PD 审核等高风险场景中,部署者需指定具备资质的专业人员完成终局研判,完整履行人工监督义务,责任链条逐级归属至岗位履职自然人。
AI 用于药品全生命周期监管决策,必须满足可稽查、可解释、全程可追溯三要素;高影响临床场景需提前与监管沟通,模型架构、开发验证日志、人机交互记录均需完整留存以供核查。EMA 核心原则:AI 辅助研判,人类掌握终局决策权,申办方 / 企业质量体系对 AI 应用合规性承担首要责任。
采用基于使用场景(Context of Use) 的风险分级逻辑:场景风险等级决定 AI 验证与管控强度,但无论风险高低,岗位履职人对所有基于 AI 输出形成的临床、质量结论负主体责任。配套 AI/ML 医疗器械指南、21CFR Part11 数据完整性要求均强调:AI 仅为决策支持工具,人类专业人员必须独立复核、自主判定,不可转嫁质量与安全责任至算法。
全文统一采用 “辅助 XX” 表述(辅助稽查、辅助审评),以 “辅助而非替代” 划定 AI 权责边界。官方配套实施意见确立人机协同准则:数智赋能、人工复核、全程留痕。
官方对 “辅助” 的法定释义:AI 完成信息抓取、异常标记、参考建议输出;最终专业判断由在岗责任人作出,该履职人为直接责任主体。算法、AI 系统无独立法律追责资格,无法承担 GxP 合规义务与药监行政问责。
四个监管机构,措辞不同,结论一致:
人工智能作为支持工具,不替代各责任主体在GxP要求下的决策职责及其责任履行。
Purolea的警告信已经证明了——"人负责"不是理论推演,而是监管的实际行动。当企业说"AI没告诉我们",FDA的回答是:那是你们质量部门该做的事。
这个答案清晰吗?清晰。
够用吗?不够。

实操困境:你真的能负责吗?

"人负责"——这句话听起来简单,但仔细想想,它藏着一个很重的假设:你理解你在签什么。
如果AI帮你筛出了一个异常信号,你在稽查报告里写进了这个发现,然后签了字——你真的理解AI为什么标了这个异常吗?它的判断依据是什么?训练数据覆盖了什么场景?在什么条件下它可能出错?
如果你回答不了这些问题,你的签字就缺乏依据。
这不是危言耸听。法规要求你对AI的输出负责,但"负责"的前提是理解。FDA在2025年发布的指南草案中,提出了一套7步可信度评估框架,把"人负责"这个原则拆解成了你必须回答的三个问题——
FDA框架的前两步,定义问题和使用场景(COU)。听起来简单,但这一步恰恰是最多人跳过的。你说"我用AI做稽查"——这不够。AI在稽查中的角色是什么?辅助筛选异常信号?独立判断合规性?输出直接影响稽查结论还是仅作参考?COU定义得越模糊,你的责任边界就越模糊,出事的时候你就越说不清"我到底让AI做了什么"。
而COU定义不清,后果不只是说不清"我让AI做了什么"——更致命的是,你连AI错了后果多重都评估不了。
第三步,风险评估。FDA的逻辑很清楚:模型风险取决于两个因素——模型影响(AI的输出在决策中占多大权重)和决策后果(判断错了最坏会怎样)。AI的输出在稽查结论中占多大权重?如果AI判断错了,最坏的后果是什么——是一个数据异常被漏掉,还是一个系统性合规问题被误判?后果越重,你需要证明AI可信的证据就越硬。
后果越重,你需要证明AI可信的证据就越硬。
第四步到第七步,可信度评估。你用什么证明AI可信?假设AI标了一个中心的入组数据异常——你能不能说出它是基于什么特征标出来的?训练数据里有没有类似中心?测试集和训练集独立吗?偏倚控制了吗?模型验证了吗?FDA要的不是"AI好用",而是"你有证据证明它在这个COU下可信"。
FDA要的不是"AI好用",而是"你有证据证明它在这个COU下可信"。
注意这三个问题的排列顺序——它不是在评估AI好不好,而是在评估你有没有资格信任这个AI。
如果你说不清COU、评不了风险、拿不出可信度证据,你就没有资格在稽查报告上签字。不是AI不够好,是你还没准备好。

从"人负责"到"人负得起责"

那么,怎么才算"准备好了"?
上一章是监管在逼你回答的问题——你有没有资格信任AI。这一章是你自己要补的能力——怎么才能负得起责。视角不同,但问题域有交叉。
你不需要成为算法工程师,不需要会写代码,不需要懂反向传播和梯度下降。但你需要能回答三个关键问题——
这是可解释性的问题。AI标了一个异常,你得知道它是基于什么特征标出来的。是数据缺失?是趋势偏移?是和同类中心相比偏离过大?如果AI只能告诉你"有问题"却说不出为什么,你就不应该把这个发现写进稽查报告——因为你无法在检查时解释它。
这是边界与局限的问题。每个AI模型都有适用范围,训练数据覆盖的场景和你的稽查场景未必一致。一个用全球多中心数据训练的风险预测模型,用在单一地区的小规模试验上,可靠性可能大打折扣。你需要知道AI的"舒适区"在哪里,出了舒适区它的输出就要打折扣。
这是数据适用性的问题。GAIP原则6(数据治理与文档记录)要求:数据的来源、处理步骤、分析决策,每一步都要能追溯、能验证。如果训练数据里某种类型的中心占比过高,模型对这类中心的判断可能偏乐观,对其他类型可能偏保守——这种偏倚你不识别,它就会悄悄影响你的稽查结论。
这三个问题,对应的就是FDA 7步流程中可信度评估的核心要求。回答不了这三个问题,"人负责"就只是一句空话——你负的是名义上的责任,不是实质上的责任。
上一篇AI来了,我们的职业会被取代吗? | CQAF AI for Auditing Vol. 1 我们说,临床稽查员正在从"查问题的人"变成"判断AI查得对不对的人"。这句话因缺乏具体场景容易产生歧义,在使用AI辅助稽查的场景中,稽查员真正需要判断的是AI输出的结果是否可信、可用和可追溯。
所以这一篇我们要补全的是:稽查员在稽查中进行判断的底层逻辑并没有变。
"人负责"三个字听起来简单,但背后是一整套能力要求。
法规给了责任框架——AI 仅辅助线索挖掘,最终判定由岗位责任人负责。以使用场景(COU)划分风险等级,风险匹配对应的验证证据要求。法规仅划定合规框架,能否完整落地充足、可追溯的可信性佐证,取决于企业质量体系与风险管控能力。
下一个问题是:法规给了责任框架,但边界在哪?临床研究用AI,法规到底允许你走多远?
这个问题,我们下一篇聊。
关于我们——CQAF AI for Auditing 兴趣小组
参考法规与文献
EU AI Act — Regulation (EU) 2024/1689, Article 14: Human Oversight. Official Journal of the European Union, 2024年7月.
FDA指南草案 — Considerations for the Use of Artificial Intelligence to Support Regulatory Decision-Making for Drug and Biological Products (Draft Guidance). FDA CDER/CBER, 2025年1月6日.
GAIP — Guiding Principles of Good AI Practice in Drug Development. FDA (CDER/CBER) & EMA, 2026年1月14日联合发布.
EMA反思文件 — Reflection Paper on the Use of Artificial Intelligence (AI) in the Medicinal Product Lifecycle (EMA/CHMP/CVMP/83833/2023). EMA, 2024年9月.
GMLP — Good Machine Learning Practice for Medical Device Development: Guiding Principles. FDA/Health Canada/MHRA, 2021年10月.
NMPA应用场景清单 — 国家药品监督管理局关于发布药品监管人工智能典型应用场景清单的通知(药监综函〔2024〕313号). 2024年6月13日.
FDA警告信 — FDA Warning Letter to Purolea Cosmetics Lab (cGMP), 2026年4月. 涉及21 CFR 211.22(c)及AI不当使用.
供稿 | Lydia Li
审核 | Cathy Liu, Bing Wen, Ariel Wu
编辑 | 乐园,李茜然


沪公网安备 31011202013414号