徕卡显微系统(上海)贸易有限公司

化工仪器网顶级7

收藏

显微课堂 | 深度解析:K-means VS. PhenoGraph-Leiden 聚类算法

时间:2024-08-30      阅读:142



揭开聚类的神秘面纱


你是否曾好奇,如何将成千上万的细胞数据进行分类,从而揭示细胞之间的潜在关系?这一过程被称为“聚类”。通过聚类,我们可以将结构相似的细胞分到一组,进一步探究它们的共同特征,如共同表达的基因和基因分布。


聚类不仅是生物医学研究的重要工具,也是机器学习中的一个关键概念。机器学习分为监督学习和无监督学习,而聚类正是无监督学习的一种。它不需要预先标记数据,而是通过分析数据本身的相似性进行分组,追求类内差异zui小化、类间差异zui大化的目标。




K-means算法:一种无监督机器学习算法,用于将相似的数据点聚类成组


K-means算法是一种常用的无监督学习算法,专用于将相似的数据点聚类成组。其基本步骤如下:



1

初始化质心:随机选择K个点作为初始质心。


2

分配数据点:将每个数据点分配到最近的质心。


3

更新质心:重新计算每个簇的质心。


4

迭代:重复分配和更新过程,直到质心不再变化。



优缺点:

优点:



高效处理大规模数据。


原理简单,容易实现。

缺点:


需要预先定义簇的数量K。


对初始质心敏感,可能导致局部zuiyou解。


对离群值较为敏感。


K-means流程示例图1


图片

K-means流程示例图2

图片




一种用于高维数据的无监督自动聚类方法


PhenoGraph-Leiden算法结合了PhenoGraph和Leiden算法的优势,特别适用于gaowei数据的聚类。PhenoGraph通过构建k-最近邻图(k-NN图),使用Louvain算法进行模块度优化,识别社区结构。而Leiden算法在Louvain算法基础上进行改进,确保社区分裂和连通性问题得到解决,生成的社区更加一致和连通。


以下是每种方法的简要介绍:

PhenoGraph

原理:


PhenoGraph 是一种基于图论的聚类算法,特别适用于单细胞数据分析。它通过构建 k-最近邻图(k-nearest neighbor graph, k-NN graph)来表示数据,然后使用 Louvain 算法来优化模块度,最终识别出数据中的社区或群体。

步骤:

1.构建 k-最近邻图:对于每个数据点,找到其 k 个最近邻居,并建立连接。

2.权重分配:为图中的每条边分配权重,通常基于欧几里得距离或其他距离度量。

3.Louvain 算法:使用 Louvain 算法进行模块度优化,识别出社区结构。



Leiden

原理:


Leiden 算法是在 Louvain 算法的基础上提出的一种改进,解决了 Louvain 算法的某些局限性,如社区分裂和连通性问题。Leiden 算法通过多阶段优化过程,确保生成的社区更具一致性和连通性。

步骤:

1.初始阶段:与 Louvain 算法类似,首先进行模块度优化。

2.精细化阶段:对初始阶段的社区进行细化,确保每个社区内部的节点是强连通的。

3.聚合阶段:将细化后的社区视为新的节点,构建新的图,重复上述过程,直到社区结构稳定。



PhenoGraph-Leiden 的步骤

PhenoGraph-Leiden 结合了 PhenoGraph 的 k-NN 图构建和 Leiden 算法的社区检测步骤,具体过程如下:



1

数据预处理:对原始数据进行标准化和降维(如 PCA)处理,减少噪声和维度。


2

构建 k-NN 图:使用 PhenoGraph 方法构建 k-最近邻图,表示数据点之间的相似性。


3

Leiden 算法优化:使用 Leiden 算法对 k-NN 图进行社区检测,优化模块度并确保社区连通性和一致性。


4

结果输出:输出识别出的社区或细胞群体,并进行后续分析和可视化。


图片

优缺点:

优点:



适用于高维、复杂数据集。


无需预先确定簇的数量。


对噪声和离群值不敏感,分辨率灵活。

缺点:


计算量大,需要较高的计算资源。


对参数敏感,需要仔细调试。





如何选择合适的聚类算法?


图片



Aivia软件:多种聚类方法助你一臂之力


Aivia软件内置了四种聚类方法:



K-means


PhenoGraph-Leiden


Object Classifier


Phenotyper


图片

每种方法都有其du特的优势,根据数据特性和分析目标选择zuishihe的方法,将大大提升你的研究效率。


Media Gallery


c893c75fd9cf150ee09591eb1cfe6547.png

279b5a3c5cf81c53c341c4b8b6dddb29.jpg

80aa3fbae353c58d5e06bd499b0916e7.jpg

9e94a61ea106124c90c4956da7032c65.jpg

e65a1091e3bc63a8f3a2340934faadc4.jpg

5c78adefa43d32575e239372f46ea42f.jpg

28ee93e2705f45e445f96bae27f663e0.jpg

3677d61795ef227dc12a5d0cf37c600f.jpg

参考文献:

1. MacQueen J. Some methods for classification and analysis of multi va riate observations. In Proceedings of the fifth Berkeley symposium on mathematical statistics and probability. 1967 Jun 21 (Vol. 1, No. 14, pp. 281-297).

2. Traag VA, Waltman L, Van Eck NJ. From Louvain to Leiden: guaranteeing well-connected communities. Scientific Reports. 2019 Mar 26;9(1):5233.

3. Rousseeuw, P. J. (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of computational and applied mathematics, 20, 53-65.

4. Lenssen, L., & Schubert, E. (2022, September). Clustering by direct optimization of the medoid silhouette. In International Conference on Similarity Search and Applications (pp. 190-204). Cham: Springer International Publishing.


这篇文章不仅让你了解了K-means和PhenoGraph-Leiden算法的基本原理和优缺点,更帮助你在实际应用中选择最he适的聚类方法。希望这篇深度解析能为你的研究带来新的启发!欢迎留言分享你的看法和使用经验!




快来申请Aivia14试用吧!

图片

更有免费软件Aivia community等你来探索!

图片


上一篇: 显微课堂 | EM TIC 3X进行离子束刻蚀简介 下一篇: 徕卡175周年:2014年诺贝尔化学奖得主与超高分辨率显微技术
提示

请选择您要拨打的电话: