数据分析软件的实验形成以及算法
一、实验设计
数据分析软件的实验的设计,即对实验的⼀种安排,需要考虑实验所要解决的问题类型、对结论赋予何种程度的普遍性、希望以多⼤功效作检验、试验单元的⻬性、每次试验的耗资耗时等⽅⾯,选取适当的因⼦和相应的⽔平,从⽽给出实验实施的具体程序和数据分析的框架。试验设计⽅法有:正交设计、*随机设计、随机区组设计、均匀设计、响应⾯设计。
二、降维算法
机器学习领域中所谓的降维就是指采⽤某种映射⽅法,将原⾼维空间中的数据点映射到低维度的空间中。降维的本质是学习⼀个映射函数f(x)->y,其中x是原始数据点的表达,⽬前最多使⽤向量表达形式。y是数据点映射后的低维向量表达,通常y的维度⼩于x的维度(当然提⾼维度也是可以的)。f可能是显式的或隐式的、线性的或⾮线性的。
降维算法有:PCA、LDA、LLE、LE、TSNE、ISOMAP。
三、分类算法
数据研究的基础是给数据“贴标签”进⾏分类。类别分得越精准,我们得到的结果就越有价值。分类是⼀个有监督的学习过程,⽬标数据库中有哪些类别是已知的,分类过程需要做的就是把每⼀条记录归到对应的类别之中。由于必须事先知道各个类别的信息,并且所有待分类的数据条⽬都默认有对应的类别,因此分类算法也有其局限性,当上述条件⽆法满⾜时,我们就需要尝试聚类分析。
分类算法有: LDA、 PLS-DA、BP( PCA-BP、 LDA-BP)、 SVM( PCA-BP、 LDA-BP)、KNN( PCA-KNN、 LDA-KNN)
四、回归算法
回归算法是监督型算法的⼀种,通过利⽤测试集数据来建⽴模型,再利⽤这个模型训练集中的数据进⾏处理的算法。线性回归旨在寻找到⼀根线,这个线到到达所有样本点的距离的和是最⼩的。常⽤在预测和分类领域。
回归算法有:PLSR、BP、SVM
五、 聚类算法
聚类分析是⼀种将数据所研究的对象进⾏分类的统计⽅法,事先不知道类别的个数和结构,据以进⾏分析的数据是对象之间的相似性和相异性的数据。将这些相似(相异)的数据可以看成是对象与对象之间的“距离”远近的⼀种度量,将距离近的对象看做⼀类,不同类之间的对象距离较远,这个可以看作为聚类分析⽅法的⼀个共同的思路。聚类和分类是两种不同的分析。分类的⽬的是为了确定⼀个点的类别,具体有哪些类别是已知的。聚类的⽬的是将⼀系列点分成若⼲类,事先是没有类别的。
聚类算法有:欧式距离聚类、闵式距离聚类、⻢⽒距离聚类、K-Means聚类。
六、 绘图