+ k4 A& v, L: d& D ) H o& a) X8 \; U6 O2 u3 z
从2012年到今日,恰是大数据这一概念最火的几年,各种各样的技能、商品都出现出来。咱们在查询中发现,各个公司的数据量增加状况显着,TB等级数据量的公司现已占到了49.7%。由此可见,TB级数据库的年代现已到来。今日为我们总结数据的7种经典算法。 01class1. The k-means algorithm即K-Means算法 k-means algorithm算法是一个聚类算法,把n的方针依据他们的特点分为k个切割,k<n。它与处理混合正态散布的最大希望算法很类似,由于他们都企图找到数据中天然聚类的基地。它假设方针特点来自于空间向量,并且方针是使各个群组内部的均方差错总和最小。02class</n。它与处理混合正态散布的最大希望算法很类似,由于他们都企图找到数据中天然聚类的基地。它假设方针特点来自于空间向量,并且方针是使各个群组内部的均方差错总和最小。 2. Support vector machines 支撑向量机,英文为Support Vector Machine,简称SV机(论文中通常简称SVM)。它是一种监督式学习的办法,它广泛的应用于核算分类以及回归剖析中。支撑向量机将向量映射到一个更高维的空间里,在这个空间里树立有一个最大间隔超平面。在分隔数据的超平面的两头建有两个相互平行的超平面。分隔超平面使两个平行超平面的间隔最大化。假定平行超平面间的间隔或距离越大,分类器的总差错越小。一个极好的攻略是C.J.C Burges的《模式识别支撑向量机攻略》。van der Walt 和 Barnard 将支撑向量机和别的分类器进行了对比。 03class3. The Apriori algorithm Apriori算法是一种最有影响的发掘布尔相关规矩频频项集的算法。其中心是依据两期间频集思维的递推算法。该相关规矩在分类上归于单维、单层、布尔相关规矩。在这里,一切支撑度大于最小支撑度的项集称为频频项集,简称频集。 04class4.最大希望(EM)算法 在核算核算中,最大希望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻觅参数最大似然估量的算法,其中概率模型依赖于无法观测的躲藏变量(Latent Variabl)。最大希望常常用在机器学习和核算机视觉的数据集聚(Data Clustering)范畴。 05class5. AdaBoost Adaboost是一种迭代算法,其中心思维是对于同一个练习集练习不一样的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。其算法自身是通过改动数据散布来完成的,它依据每次练习集当中每个样本的分类是不是准确,以及上次的总体分类的准确率,来断定每个样本的权值。将修改正权值的新数据集送给基层分类器进行练习,最终将每次练习得到的分类器最终融合起来,作为最终的决议计区分类器。 06class6. kNN: k-nearest neighbor classification K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上对比成熟的办法,也是最简略的机器学习算法之一。该办法的思路是:假如一个样本在特征空间中的k个最类似(即特征空间中最附近)的样本中的大多数归于某一个种类,则该样本也归于这个种类。 07class7. CART:分类与回归树 CART, Classification and Regression Trees。在分类树下面有两个要害的思维。第一个是对于递归地区分自变量空间的主意;第二个主意是用验证数据进行剪枝。
( S+ J4 }# Z: P/ E$ V% T( M+ `; t0 r+ {& {) u
3 b, l% X# L: J7 k
|