细胞系中的“隔壁老王”—被污染的细胞系-技术文章-厦门逸漠生物科技有限公司手机版

细胞系中的“隔壁老王”—被污染的细胞系

时间：2023-09-27 阅读：278

你养的细胞株还是你原来的细胞株吗？你敢确定吗？让我们来看看这些“无赖细胞”是如何对我们的细胞进行偷梁换柱。

研究课题

海拉细胞的回溯: 细胞系的错误鉴定如何误导了科学文献

本周推荐

今天推荐的是由荷兰内梅亨大学社会科学研究所，在2017年04月21日发表的一篇文章，通讯作者是Willem Halffman教授，研究主要阐述了细胞系的错误鉴定如何污染了科学研究。

研究背景

细胞系的错误识别问题是生物医学科学领域中一个长期存在且棘手的问题，它引发了人们对于实验数据的准确性和可重复性的担忧。错误的细胞识别可能会对研究结果产生轻微或严重的影响，有时甚至会使结果变得毫无意义。

细胞系错误识别的问题已经知道了几十年，始于20世纪60年代围绕HeLa细胞的争议。尽管几次警报和纠正错误识别问题的呼吁和倡议继续困扰着生物医学研究，但新公布的大规模交叉污染和广泛使用最近出现的错误鉴定细胞系。虽然没有确切的数字，但细胞系识别错误的程度估计在所有细胞系中约占五分之一到三分之一。此外，尽管目前只有488个或0.6%的已知细胞系被错误认定，但大多数细胞系很少被使用。被错误识别的细胞系在被发现后往往还会长时间以其虚假身份被使用，而其他研究人员也可能在其结果的基础上进行研究。考虑到对这些细胞系进行的研究的生物医学性质，错误发现的后果可能是严重和昂贵的，可能会影响拨款、申请甚至药物试验等方面。国际细胞系鉴定委员会(ICLAC)进行的几个案例研究强调了使用错误鉴定细胞系的一些潜在后果。特别是在过去的十年里，这个问题的严重性已经得到了广泛的承认，一些期刊文章、拨款申请的要求，甚至一封致美国卫生部长的公开信都呼吁立即采取行动。

目前，关于采取行动和补救活动的呼吁几乎集中在避免未来细胞系污染方面，例如通过建立更容易核实细胞系身份的系统。人们提出了多种解决方案，包括使用短串联重复序列(STR)进行基因型鉴定。此外，作者在进行实验之前应该检查细胞系的身份，但很少有人注意到已发表的基于错误识别的细胞的研究文章已经造成了损害。虽然存在一些系统，如文章的撤回和更正，可用于提醒其他研究人员潜在问题，但这些系统很少用于标记细胞系的问题。即使未来可以避免细胞系错误识别问题，但这些已经被污染的文章将继续影响研究。

摘要部分

虽然细胞系错误识别问题几十年前就已为人所知，但仍有数量不详的已发表论文在没有警告或纠正的情况下报告了错误的细胞。在这里，研究者团队试图对这些“被污染”的文献做出保守的估计。研究者团队发现了32,755篇报道错误识别细胞研究的文章，这些文章被大约500,000篇其他论文引用。文献的污染并没有随着时间的推移而减少，也不仅仅局限于全球科学的边缘国家。几十年来，人们一直试图阻止细胞系的错误识别，但事实证明，这种尝试是不够的。文献的污染需要一个公平合理的通知系统，警告用户和读者以适当的小心来解释这些论文。

方法概述：分配细胞系的过程

为了研究文献污染的规模，研究者团队需要了解细胞系的建立、传播和发表过程。这一过程如下图1所示。简单来说，建立一个新的细胞系的过程始于从一个有机体、人类或其他组织样本中获得细胞。如果这些细胞成功培养并生长，新细胞系的建立有时会在研究者团队所称的“建立论文”中被报道。随后，科学家可以通过他们的个人网络或细胞库分享或获取该细胞系。这些科学家可能会对这个细胞系进行研究，并在科学期刊上发表他们的发现，从而建立了研究者团队所说的基于细胞系的原始文献。

在某些情况下，可能会发现细胞系被错误识别。这一观察结果可能会发表在一份“通知文件”中，从而在国际细胞系认证委员会（ICLAC）的交叉污染或错误鉴定细胞系数据库中进行记录。根据可用的数据，这些细胞系可以添加到两种不同的表中：第一种用于没有已知真实库存的细胞系的表格；第二种用于已知存在真实库存的细胞系的表格。这些表格的目的是帮助科学家识别并避免使用已知存在问题的细胞系。

在本文中，研究者团队关注的是第一类细胞系，即没有任何原始库存报道的细胞系。在这种情况下，必须谨慎对待所有的原始文献，因为它们可能基于错误的细胞系，具有不确定性。此外，研究者团队也试图估计次要文献的规模，这些文献引用了主要文献，因此可能建立在有问题的材料上，进一步扩散了错误。

▲图1：细胞系的创造、分布和文献使用: 细胞的培养样本(蓝色细胞)可能产生永生的细胞系(红色细胞)，在“论文”(白色)中宣布使用。

材料方法

1. 数据收集

ICLAC（国际细胞系认证委员会）在2016年12月发布了误认细胞系清单的8.0版本。研究者团队从该清单中选择了表1，其中列出了没有报告原始假定细胞系的真实库存的细胞系，总计451个。研究者团队可以识别引用了错误鉴定细胞系的建立文章，或者在标题、摘要或关键词中提到了这些细胞系的文章。研究者团队在Web of Science数据库中进行了详细的引文分析，采用了以下两种搜索方法，以获得基于错误鉴定细胞系的研究文章数量的保守估计：

方法1。对于ICLAC名单上的每个细胞系，研究者团队试图找到报告该细胞系建立的原创文章。研究者团队首先在Cellosaurus数据库中搜索这些所谓的“建立文章”，然后参考了德国微生物和细胞系收集（DSMZ）数据库、美国类型培养收集（ATCC）数据库和欧洲认证细胞培养收集（ECACC）数据库。研究者团队查阅了以上数据库，以确认是否有关于某个细胞系的已建立文章的引用。研究者团队找到了255个细胞系的建立文章。接下来，研究者团队在Web of Science数据库中搜索这些以建立文章找到的原始论文，并收集了这些文章的所有引用文献。

方法2。研究者团队在Web of Science (WoS) 数据库中进行了一项搜索，旨在检索所有包含451个细胞系名称之一的文章，同时还包含单词“cell(s)”或“cell line(s)”在标题、摘要或关键词中的文章。为了提供更准确的搜索结果，研究者团队选择了WoS数据库中最常见的25个研究领域(按WoS定义)，仅对这些领域的文章进行了分类。这一策略有助于排除那些在细胞系研究较不常见的领域中使用错误鉴定细胞系的文章。值得注意的是，尽管WoS定义的研究领域可能存在重叠，但研究者团队对多个研究领域的文章进行分类不会导致研究者团队的分析中的重复计算。换句话说，对于包含在这25个确定的研究领域之一中的所有文章，研究者团队只计算一次，以确保数据的准确性和一致性。

2. 数据验证

研究者团队采用了几种策略来验证数据的准确性，并减少“假阳性”的数量，即那些文章最终出现在研究者团队的样本中，但没有报告使用错误鉴定细胞系的研究。对于搜索方法1，研究者团队进行了详细的验证，涵盖了数据库中产生至少100个主要文章命中的建立文章（总共41篇）。在核实过程中，研究者团队发现其中一篇文章实际上是一篇通知论文，而不是一篇建立文章，因此将其从研究者团队的搜索结果中删除。此外，研究者团队还发现了四篇文章，报告了几种细胞系的建立，其中一些未列入拉加经委会数据库。在其中两种情况下，建立文章报告了污染细胞系的建立以及污染细胞系的建立（EJ138和HPB-MLT）。

搜索方法2：由于一些细胞系的名称容易与其他含义混淆（例如，“WISH”，“CaVe”或“EU-1”），这种搜索产生了噪音。因此，研究者团队采用一个迭代过程来删除这些噪音。随后，随机选择100篇文章的过程迭代4次，由两位作者独立执行。从随机样本的结果来看，研究者团队的搜索方法提供了可靠的结果。然而，结果不可避免地包含剩余的假阳性，根据研究者团队对该集合的随机样本的验证，估计其程度最大可达受污染的主要文献的10%，其中发现6.5%的文章由假阳性组成。文章使用ICLAC注册的细胞，但报告了其正确的来源(如Vaughan等人对KB细胞的报道)。

3. 案例研究

为了验证收集到的数据，并更深入地了解基于错误识别细胞系的知识是如何通过文献传播的，研究者团队进行了三个案例研究，跟踪了有关单个细胞系或细胞系家族的出版物。这三个案例研究都涉及到错误鉴定的细胞系，没有报告原始库存，是从拉加经委会数据库中随机选择的。这三个案例研究的细胞系包括胸腺细胞系家族（F2-4E5、F2-5B6、P1-1A3和P1-4D6）、ALVA-31和JCA-1。案例研究的结果表明，研究者团队的搜索方法确实提供了准确的数据，只有很少的“假阳性”，并且相当保守地估计了基于错误识别细胞系的研究文章数量。

4. 污染文献来源分析

根据WoS数据，研究者团队对污染文献的来源进行了分析，包括污染文献的时间、地理来源以及在研究领域中的分布。研究者团队将污染原始文献的来源与涉及细胞系研究的所有文献进行了比较。这些文献包括在标题、关键词或摘要中提到以“细胞”开头的任何单词的文章，因此不仅包括错误识别的细胞文献。这个文献总数来自WoS定义的25个最常见的研究领域之一，并用来估计相关总文献中有多少部分可能被污染了。

结果：科学文献的污染

研究者团队的研究利用ICLAC的交叉污染或错误鉴定细胞系数据库以及Web of Science (WoS)，通过一系列互补的搜索策略来识别基于错误鉴定细胞系的研究文章。截止到2017年8月4日，研究者团队能够识别出32,755篇这样的文章。需要指出的是，这个数字是对污染规模的保守估计，因为研究者团队只搜索已知被错误鉴定的细胞系。此外，为了避免误报，研究者团队排除了一些细胞系，如具有非标识符的细胞系或已经验证库存仍在流通的细胞系。在这里，非标识符是指细胞系的名称，可能不仅指代该细胞系本身，还可能指代其他不同现象。例如，"of"细胞系或"WISH"细胞系的情况。使用“非标识符”，研究者团队不指代具有多个名称或具有多个拼写的细胞系(例如肠407细胞系，也称为“testine407”，“Int-407”和“Int407”)。在细胞系名称有多种拼写的情况下，研究者团队坚持使用ICLAC数据库中指示的拼写。因此，研究者团队可能在搜索方法2中遗漏了许多使用这些细胞系的文章，再次导致保守估计。

此外，基于错误鉴定细胞系的研究对科学文献产生了广泛的影响，因为这些研究论文的引用率相对较高。虽然WoS不允许精确统计引用次数，但研究者团队可以通过文献的“二次污染”迹象来衡量其影响。对主要的污染文章引用进行分析，研究者团队发现有46篇论文被引用超过1000次，而有2600多篇污染文章被引用超过100次。此外，超过92%的被污染论文至少被引用了一次，这个比例高于生物医学文献的平均水平。总的来说，研究者团队保守估计原始污染文献的总引用次数超过50万次，这还不包括自我引用，这意味着它们在相当大一部分生物医学文献中留下了痕迹。需要注意的是，文章被引用的原因各不相同，其中一些引用可能是出于负面评价，甚至是一种仪式性的引用。因此，并不是所有被引用的文章都一定包含（严重的）错误。然而，基于错误鉴定细胞系的研究数量仍然是一个令人担忧的问题，需要引起关注。

关于细胞的研究文章的总数估计在450万到500万之间(见方法)。因此，受污染的一级文献占细胞相关文献总数的0.8%以下，而(潜在)受污染的二级文献估计占该领域总研究产出的10%左右。然而，研究者团队应该强调，研究者团队的目标是衡量问题的严重程度。样本无疑含有假阳性，因此不适合识别个别污染。

更仔细地检查原始文献

对研究者团队的发现的反对意见可能是，研究者团队的一般搜索方法没有提供一个适当的概述，具体的被错误识别的细胞系实际上如何影响研究。为了更深入地了解基于错误识别细胞系的知识是如何通过文献传播的，研究者团队提出了三个案例研究，其中研究者团队跟踪了有关单个细胞系或细胞系家族的出版物。所有这三种细胞系都是错误鉴定的细胞系，没有原始库存的报告，是从拉加经委会数据库中随机选择的。

ALVA-31：该细胞系最初于1993年作为人类前列腺癌建立，但在2001年发现与另一种人类前列腺癌PC-3细胞系相同。研究者团队发现56篇文章引用了ALVA-31，而ALVA-31被2615篇文章引用。在这56篇论文中，有22篇是在发现ALVA-31细胞系错误鉴定后发表的。仔细检查这22篇文章，就会发现其中20篇文章实际上使用了ALVA-31细胞系，而只有两篇文章提到了细胞系的错误识别。值得注意的是，描述基于ALVA-31细胞的研究的最新文章发表于2016年，也就是错误识别报告的15年后。

在这种情况下，有人可能会争辩说，使用ALVA-31细胞，而实际上使用PC-3细胞，可能没有什么害处，因为两者都是人类前列腺癌，并且有许多共同的特征。然而，在某些情况下，甚至研究人员自己也认为ALVA-31的精确身份至关重要:“为了排除细胞类型特异性效应，研究者团队将ALVA-31的研究扩展到其他人类PCa细胞类型”。随后，作者解释了他们如何在其他研究中使用PC-3细胞来“排除细胞类型特异性效应”;实际上是比较两个相同的细胞系。

胸腺细胞系：1994年的一篇报道宣布建立了一组新的胸腺细胞系(F2-4E5、F2-5B6、P1-1A3和P1-4D6)。在MacLeod等人的一篇报道中，发现细胞系被错误识别，实际上来源于肝肝癌。总共有69篇文章提到了这些细胞系，反过来又有2092篇文章被引用。在主要的文章中，有43篇是在MacLeod等人的报告之后发表的，最近的一篇是在2016年底才发表的。在最近的15篇提到1994年报告的文章中，有13篇实际上提到了它，因为它们使用了细胞系，所有13篇报道了胸腺细胞的研究，没有提到任何对这些细胞系的错误识别的知识。另外两篇是指该建立文章所采用的建立新细胞系的方法。

JCA-1：JCA-1细胞系最早建立于1990年，2001年van Bokhoven等人发现JCA-1细胞系实际上来源于膀胱癌，而不是前列腺癌。研究者团队发现有64篇文章引用了该论文，或在标题、关键词或摘要中明确提到了JCA-1。反过来，这些文章被3352篇文章引用。在主要文章中，有18篇出现在van Bokhoven等人的报告之后。与之前讨论的细胞系相比，JCA-1在科学研究中似乎没有当代的应用:最近一篇描述使用该细胞系研究的文章可以追溯到2009年。然而，同样在这种情况下，在人们知道JCA-1实际上起源于膀胱癌之后，发表了几篇文章报道使用“前列腺癌细胞系”。事实上，正如研究者团队在全文中验证的那样，在van Bokhoven等人的报告之后发表的18篇文章中，只有3篇表示意识到这条线被错误识别了。相比之下，14人只是简单地声明使用了JCA-1细胞系，绝大多数人明确地将它们称为前列腺癌细胞。

研究结论：明显被错误识别的细胞系继续对研究产生影响，要么直接是因为科学家们一直在使用它们，要么间接是因为科学家们在以前使用错误识别的细胞系的基础上进行研究。

一个暂时的问题?

有人可能会想，研究文献的污染是否主要是过去的问题，因为半个世纪前就表达了对错误鉴定细胞系的第一次关注，并且自那以后有许多举措试图缓解这一问题。

基于32,755篇原始污染文献记录，研究者团队分析了这些文章的发表日期。大多数文章(57%)是2000年以后写的，使用错误鉴定的细胞系的文章数量仍在增长(见图2)。显然，这个问题绝对不是过去的问题，而是与当代科学非常相关，甚至在2017年2月出现了58篇基于污染文献的新文章。

图2显示了历史细胞系污染变得明显的三个时刻。首先，通过Stanley Gartler的工作，检测种内细胞污染成为可能，之后在1968年Nature上报道了几种涉及HeLa细胞的污染。其次，Walter Nelson-Rees等人在20世纪70年代的工作将细胞培养污染提上了全球研究议程，并于1981年在《科学》杂志上列出了受污染的细胞培养物，证明了HeLa细胞对细胞培养物的大规模污染。从这一点开始，可以预期，在那些经常使用细胞培养的研究领域工作的大多数科学家都意识到他们的研究材料的潜在问题。然而，绝大多数基于错误鉴定细胞系的研究论文都是在这个时间点之后发表的。即使在2001年引入STR后，每年的数量也没有减少。

▲图2. 多年来被污染的原始文献的分布

研究结论：通过引用使用错误鉴定的细胞系的文章来污染文献仍然是一个非常局部的问题。

外围问题

对研究者团队研究结果的另一个反对意见可能是，交叉污染尤其发生在有新的或新兴的研究社区的地区，在这些地区，培训水平或使用测试设施的机会可能有限。例如，最近的一些出版物表明，中国的细胞系污染水平在25%和46%之间，并证明在中国开发的所有“新”细胞系中，85%实际上是海拉细胞。

然而，大多数使用错误鉴定细胞系的文章来自具有良好研究传统的国家(如美国、日本、德国)。相对于他们在总研究产出中所占的份额，这些国家的作者经常对错误识别的细胞系进行研究。事实上，主要由于他们在细胞系文献中所占的巨大份额，超过36%的受污染的原代文献来自美国。图3显示了每个国家细胞中被污染的原代颗粒占总颗粒数的百分比(参见补充资料S2文件)。它包括25个受污染原始文献最多的国家。在这份榜单中，研究者团队看到拥有优秀研究声誉的国家排名很高。因此，这一问题不仅发生在研究质量和勤奋标准较低的地区，而且也发生在拥有研究声誉的国家。然而，对过去五年的文献分析显示，中国在污染文献中的份额急剧上升，证实了文献中最近表达的担忧。

最后，研究者团队分析了哪些研究学科受误认细胞系使用的影响最大。图4显示了污染物品在WoS定义的各个研究区域的分布情况。在受污染的初级文献中，肿瘤学、生物化学/分子生物学、药理学和细胞生物学受到的影响最大，证实了对医学应用的担忧。

然而，对原始文献的引文分析表明，二次文献的研究范围更为广泛。二级文献中的文章也来自很少使用细胞系进行研究的领域，如精神病学、工程学和农业科学，见图4。因此，错误鉴定的细胞培养的影响可能会蔓延到非生物医学领域，并影响那些没有受过训练来判断错误鉴定的细胞系研究的有效性的科学家。

▲图3：受污染的原代物品占每个国家细胞上物品总数的百分比。

▲图4：被污染的原始文献在Web of Science定义的研究领域的分布

研究结论：错误鉴定的细胞培养的影响可能会蔓延到非生物医学领域，并影响那些没有受过训练来判断错误鉴定的细胞系研究的有效性的科学家。

改进措施

在过去的几十年里，人们对细胞系鉴定检测的改进给予了极大的关注。1967年Gartler引入遗传标记后，细胞系的鉴定，从而证明交叉污染的能力成为可能。随后，引入了许多细胞系鉴定技术，首先是带状标记染色体的检查，然后是染色体模式和结构的可视化，随后是人类白细胞抗原(HLA)分型、酶多态性和DNA多态性的方法。最近，引入了“DNA指纹”技术和位点特异性探针的使用。最后，这导致了现在的短串联重复谱分析的标准方法。正如最近所指出的那样，正确的细胞系鉴定技术现在已经广泛可用。然而，由于时间和资金限制、缺乏培训和缺乏(国际)标准等多种原因，这些技术的实施仍然不足。

尽管采取了鉴定新细胞系和现有细胞系的措施，但基于错误细胞的研究仍然存在于文献中，事实上还在继续发表。对污染物品进行某种形式的预防性标签似乎是不可避免的。然而，这种补救行动应该是相称的，不能造成不必要的损害。对于一些科学家个人、研究部门或科学期刊来说，轻率的措施可能会带来痛苦。事实上，一些研究人员在研究者团队被污染的原始文献中撰写了一百多篇文章。尽管这些文章的问题几乎属于“无心之过”的范畴，但在无意欺骗的情况下，通知所有这些文章有潜在的错误，或者更糟的是:撤回它们，将对一些科学家的职业生涯产生不成比例的影响。这将破坏而不是支持有效的清理行动。然而，除了从源头捕获细胞系污染外，迫切需要在已发表的文献中标记污染“下游”的举措。研究者团队可以提出几点建议。

首先，应该在先前发表的使用错误识别细胞系的文章旁边发布通知。这可以以“关注的表达”的形式来完成，它被描述为“既不是撤回也不是更正，它们提醒读者一篇论文可能存在问题，而整个故事还不清楚。”这样的通知也将有助于尽可能多地保存有价值的数据。其次，为了方便将来识别使用错误细胞系的文章，研究者团队建议作者在文章中易于搜索的部分(如关键词或摘要)中提及所使用的细胞系。

此外，可以更好地利用纸质记录来确定细胞系的来源。对细胞系的起源以及各种验证测试、它所参与的实验和这些实验产生的结果进行清楚和完整的概述，将对检查细胞系的状况和质量大有裨益。此外，当发现细胞系被错误识别时，这将允许容易地识别潜在的错误研究。

除了用于识别错误研究之外，书面记录还可以用于其他目的，例如绘制某一细胞系的现有知识图谱(允许简单地识别知识空白)，并为发表细胞系实验的负面结果提供一个平台。长期以来，这类结果的发表一直被认为是促进研究诚信的一种方式。

在第一次对错误鉴定细胞系的关注近半个世纪之后，改进鉴定的举措需要得到对已经被污染的文献的关注的补充，是艰巨而紧迫的。