关于拉曼模型的深度探讨
时间:2024-01-30 阅读:185
一、前言:
过去20年来,拉曼光谱法在制药应用中取得了长足的发展。晶型分析是拉曼在分析实验室的药物分析中提供的一项功能,以及用于颗粒、基质和表面分析的拉曼光谱共聚焦显微镜功能。
从2010年代末开始,手持式拉曼系统在制药领域的应用激增。这些仪器配置了专用操作系统,用于GMP环境中的辅料和API定性分析、固体剂型确认和防伪分析,现在已成为事实上的高效GMP原材料来料检测标准。
生物过程监测是光谱平台非常适用的领域。早在20世纪90年代末,近红外和中红外光谱系统就已被研究用于生物过程代谢物监测应用,但水对红外光谱的吸收严重限制了可用于吸收测量的光程,从而导致检测背景噪音过大。拉曼光谱受益于相对较弱的水散射截面,因此从本世纪初开始研究拉曼光谱的这种应用也就不足为奇了。拉曼技术在光学采样表面也提供了相当大的灵活性,无论使用塑料、玻璃和其他矿物质作为采样接触表面的干扰都非常小。
早期拉曼生物过程工作的重点领域是各种生物系统中的细胞代谢物,并且随着人们的兴趣迅速扩大,这种应用仍在继续。许多研究者还发表了关于评估关键产品质量属性的可能性文献,如蛋白质翻译后修饰和聚合等的相关研究。
根据Google Scholar的 数据,过去10年,与“Raman+ BioProcess”相关的引用呈指数级增长(图1),到2023年,引用次数将超过4000次。
二、传统经验模型的挑战:
复杂生物系统中拉曼数据的分析需要计算辅助。正如Ryder所评论的那样,在这项工作中可以采用多种化学计量学和多变量工具。关于关键工艺参数和关键质量属性(CPP 和 CQA)的建模,绝大多数文献中采用偏最小二乘 (PLS) 回归。PLS 是一大类潜变量/正则化经验线性校准方法之一。它在化学应用中占据明显主导地位的原因很大程度上是历史和商业原因,但它相比于其他方法并没有更好的表现。不过所有经验方法确实都有一个优点,即几乎不需要详细了解底层细胞培养环境、分析仪器的物理化学原理。
但是,使用这些经验校准方法对生物过程数据进行建模存在一些重大挑战,如下所示:
1, 非平稳性(Nonstationarity)和方差齐性(Homoscedastivity):在数学和统计学中,“平稳性”是一个术语,意味着每个数据(在本研究中为光谱数据)都是从具有固定分布特性的随机分布中得出的。大多数商业软件中的 P LS 等经验方法仅在理论上是准确的,并且是使用“平稳”数据进行优化的。这意味着每个生物反应过程必须以相同的方式运行,并且化学物质之间具有一致的相关性。它还意味着仪器中的测量方差在时间和通道上始终相同(方差齐性)。对于拉曼光谱(或近红外或中红外光谱吸收)来说,情况并非如此,特别是在生物过程中,当大量生物量(Biomass)可能导致生物反应过程运行中或不同批次之间的荧光差异非常大时,从而导致数据噪音波动显现数量级的差异。
2, 协变量:根据定义,在生物反应过程中许多物质之间存在时间相关性。广泛使用的经验方法旨在利用这些经验时间相关性;但这些关联方法非常容易产生非特异性关联,从而降低预测准确性和通用性。
3, 可交换性和交叉验证:与上述两点相关,交叉验证通常作为数据建模工作中经验模型的准验证评估来完成。为了使交叉验证结果有效且具有代表性,数据必须是“可交换的”;但由于协变量的原因,生物过程数据通常严重违反了这一原则。
4, 试错法:这些经验方法中的大多数都包括变量选择、预处理、归一化和校正方法的一系列选项。推荐的方法是“尝试一下,看看什么似乎有效”,因为通常没有什么理论依据来指导选择这种方法而不是另一种方法。
5, 质量因数:与上述内容相关,大多数商业软件中报告的主要指标是“RMSEC/RMSECV/RMSEP”:[校准/交叉验证/预测]的均方根误差]。药典分析标准通常期望对选择性、线性、精密度、检测限和灵敏度进行估计;但不幸的是,经验建模方法不能直接估计这些质量因数。用户可以进行实验工作来评估这些值,但这是相当具有挑战性的,通常需要定制化的编程/分析。
6, 光谱仪变化:当开发经验模型时,单个光谱仪的个体特性和非理想效应也会成为开发者的协变量。当更换光谱仪或更换激光器/探测器时,经常需要校正多变量模型以确保与新光谱仪的个体相关性。经常需要使用多种数学方法来执行这种“校准迁移”。
7, 监管挑战:经验建模方法的⿊箱性质需要广泛的经验验证工作来证明其灵敏度、选择性、线性和稳定性。监管指导文件(如ICH Q 14 10.3)中提供了一些通用指南,但它们并不是特别明确,也不是以这些方法的数学基础为理论依据。
考虑到这些挑战,毫无疑问,稳健的拉曼方法开发和部署一直是生物反应过程应用中特别棘手的挑战。人们已经做出了许多努力来克服其中的一些障碍。设计故意扰动实验可用于试图“打破”本质上存在的协变量并扩大可用于建模的经验数据的范围。
不同文献报告了使用 PLS 和 各种预处理方法成功构建“通用”模型,并报告在特定平台方法的合理成功;但这些工作通常涉及 25‑30 次以上的生物反应实验,需要花费大量的时间和人力物力;并且还不包括随后的实验部署和维护成本。这些文献结果与行业研讨会报告的内容思路基本一致。
三、Maverick的全新模型:
我们的目标是改善将拉曼光谱方法引入生物反应过程监测的技术挑战。我们从哺乳动物 C HO 和 HEK293 细胞系开始,这些细胞系广泛用于蛋白质(单抗)和病毒载体的生产,并且可用于放大生产。
仅凭借纯粹的经验建模/校准很难规避上述挑战。混合模型在生物学和生物反应过程领域越来越受到关注。迄今为止,这些方法在很大程度上结合了基本生物机制的知识、化学工程知识、计算流体动力学和其他知识领域,以及使用一些经验测量或观察的数据,以提高对生物反应过程的理解。模型中更多的固定元素限制了经验优化,以降低过度拟合/局部最小值的风险,并引导整体模型达到可解释且产生持续稳定的近似值。使用第一性原理或构建砌块信息来预测复杂的结果有时被称为全新的方法,例如全新的蛋白质结构建模,这是我们用来描述Maverick算法原理的术语。
MAVERICK的全新模型源自1970年代开始研究的关于多变量校准 ( MVC) 的概率框架,例如Morgan等人的早期研究。它与图2中常见的经验多变量校准模型形成对比。
在存在一些参考误差(e)的情况下,经验MVC方法根据观测到的光谱数据 X (X~)和配对参考数据(y) 的近似值来估计预测变量b;b本身的计算是基本的。上述挑战1-7主要表现在每个领域中‘X’的近似值上,应该做什么实验、在什么硬件上、设置哪些参数、在计算b之前应该如何修正/处理原始数据,以及最终的模型在真正预期的条件下如何执行。
X的近似值对于控制经验方法过度拟合的风险至关重要,并且在实践中有许多、许多、许多不同的X (X~)的可能“近似值”。 PLS(偏最小二乘法)是许多模型方法之一,在许多商用软件中广泛使用。在创建X(X~)的过程中,也通常会消除波长范围或应用其他线性或非线性变换。过多可用于建模的‘近似’步骤选项是过度拟合的重要次级来源,因此有时会需要评估数百或数千个选项,浪费了大量的广义自由度。
相比之下,MAVERICK 的全新模型不使用任何凭经验观察到的X或y数据。相反,它使用图2中术语(一些静态和一些动态)在时间t为主动测量下的系统创建“最佳线性预测器” 。虽然这个模型的核心是概率性的,但它的几个关键参数可以直接从基于光学、电子学和多元统计学的第一性原理中推导出来。由于这些效应在拉曼系统中是动态的,所以观察生物反应过程,几个模型选项也是动态的(这不足为奇)。
公式中参数K,Ψ代表可观察拉曼光谱可能的化学/生物化学贡献者的“主要参数”以及相关的预测概率密度函数,从中产生浓度估计值。人们可能想知道,如何才能涵盖公式中的所有可能性。虽然生物反应过程中化学/生化物质的数量很可能有数千种。但拉曼光谱的灵敏度意味着人们实际上只需要考虑0.01 g/L 以 上的主要成分。在哺乳动物培养基中,超过0.01g/L的,我们发现数百种常用物质以及添加剂(例如表面活性剂、消泡剂)的数据。用那么多参数数据对观测到的拉曼光谱进行去卷积通常是一个不合适的问题;但使用全新模型,是一个充分自我调节的解决方案,以产生低方差的浓度估值。
其余条件既取决于设备,也取决于时间。F是从每个MAVERICK系统的多维出厂特征导出的滤波器函数,并且实时适应于变化的样本和系统条件。拉曼系统中许多重大误差来自于光学系统设计和电子原件。MAVERICK的内部系统模型使其能够实时估计∑t 的测量误差协方差。相应的,系统模型还允许Et自适应,例如变化的室内照明、温度和浊度条件。最后,由于在生物反应过程中,时间t的系统状态与时间t-1的状态有关,因此惰性模型中包括环境和自回归分量(Λ)。
质量因数
这个估计模型的几个重要性质先前已经讨论过,例如预测均方误差(MSEP)的解析解。
如上所述,经验模型开发中的一个一致性挑战是模型属性的不透明性。很少有证明生物过程拉曼应用文献引用所得模型的标准分析优值,例如灵敏度、选择性、LOD,因为多变量模型的文献定义很复杂。符合IUPAC定义的灵敏度和选择性因子可以根据文献中所述的过程全新模型直接估计。最后,还可以推断出其他模型诊断,如平面内和平面外一致性,类似于Hoteling或杠杆统计和F参数:
四、 模型快速校准:
MAVERICK系统的MAVERICK方法减轻了用户的巨大建模负担,但并不能使其摆脱所有形式的“校准”。由于MAVERICK系统被设计为在测量模块、光路模块和探头之间即插即用,因此在开始生物反应过程分析之前,需要进行一个准备步骤来确认定量系统的适用性。这是一个3步过程,由MAVERICK的软件在HUB屏幕上引导:
1. 将拉曼探头浸入“LOW”标准液中,按下 ‘GO’并等待大约4分钟;
2. 将拉曼探头浸入“HIGH”标准液中,按下 ‘GO’并等待大约4分钟;
3. 将拉曼探头插入反应器中与反应器一起灭菌;
步骤1+2检查MAVERICK+探头的一些参数是否符合全新模型,并对MAVERICK测量模型、光路模块和探头的特定组合的全新模型输出进行快速的标品定标。该参数还允许对使用带序列号和芯片的探头进行自动的审计追踪。MAVERICK还支持单点“实时”校准,这有助于消除离线分析仪器和MAVERICK之间的数据偏差。
五、 实测案例:
图3显示了与一些常见的离线生化分析仪(酶膜法)相比,使用MAVERICK在CHO和HEK293工艺上的分析数据。
图4展示了全新模型提供的一些后台诊断信息。这些信息是从CHO培养过程中提取的,该过程在一个有大窗户的实验室中运行。在上图中,在估计的RMSE(g/L)中可观察到的小波动与预期一致——全新模型正在跟踪整个昼夜周期的基本背景噪音变化,影响∑t。同样的影响正在传播到下图中对葡萄糖的选择性,该图绘制了葡萄糖对前20种其他细胞培养基成分的选择性:随着环境光照的增加,尽管环境光照发生了变化,但全新模型仍进行了调整和自适应,以保持选择性。谷胱甘肽以绿色曲线显示,虽然它恰好是该生物过程中葡萄糖选择性“较低”的物种,但正如y轴所示,葡萄糖选择性仍然很好(>0.99)。
在生物过程的后期阶段,细胞/蛋白质浓度的增加可以诱导中重度的自发荧光,这会给经验校准模型带来很大的困难。全新模型的优值反映了这种影响,可以观察到RMSE的缓慢上升趋势,但由于全新模型持续跟踪和补偿背景噪音的增加,从测量误差模型中的荧光来看,这种影响处理得相当良好。
六、 Maverick全新模型的限制与机会
全新模型的关键优势—即透明度和避免经验推导模型的陷阱—也可以被认为是其关键局限性。如上所述,如果生物过程的光学活性成分没有提前确认,则全新模型报告的结果容易有偏差。数据偏差的程度在很大程度上取决于‘未知’物质的光学活性:低微克/升水平的痕量金属元素不会产生影响,因为a)它们是光学无活性的,b)浓度太低,无法在溶液中用拉曼观察到。通常,只有0.01g/L及以上范围内的共价键合有机物质才被认为是相关的。
全新模型也无法支持所谓的“间接传感器”—即没有直接的光谱效应(如pH),也可以从经验观测数据中推断出虚拟参数。如果没有公式包含的光谱效应,就无法使用全新模型。对于那些对间接传感器建模或扩展预测模型感兴趣的人,可以选择将MAVERICK的全光谱导出,该导出可以通过OPCUA实时访问,也可以在测量会话结束时作为合并数据文件访问。
还有更多的机会利用Ψ和K的混合建模方法。目前,单个Ψ似乎足以用于哺乳动物的生物过程,但我们正在探索更多样的自适应Ψ培养基系统(例如非CHO或HEK293哺乳动物细胞、鸟类细胞、昆虫细胞等)。或者,如果从数据中发现明显不存在的特定配方组分,则对K的动态进行约束。例如,通过L1型正则化方法。我们注意到,动态系统模型(如所谓的数字孪生)也可能直接与全新模型连接,进行连续的时间数据更新。
七、 后语:
随着我们在其他分析物和其他细胞/培养基过程中验证性能,我们有机会继续扩展MAVERICK的参数。此外,随着流程从早期工艺开发过渡到中试和生产规模,全新模型的灵活性可以帮助提高跨规模/几何结构的工艺稳定性。