无监督学习四种实现模型（聚类学习、自动编码器、生成模型、PredNet）之间的区别是什么？无监督聚类

2020-10-18知识23

无监督聚类问题中，如何决定簇的最优数量 <；pre t=\"code\" l=\"python\">；#-*-coding：utf-8-*-from sklearn.cluster import KMeansfrom sklearn.externals import joblibimport numpyfinal=open('c：/test/final.dat'，'r')data=[line.strip().split('\\t')for line in final]feature=[[float(x)for x in row[3：]]for row in data]调用kmeans类clf=KMeans(n_clusters=9)s=clf.fit(feature)print s9个中心print clf.cluster_centers_每个样本所属的簇print clf.labels_用来评估簇的个数是否合适，距离越小说明簇分的越好，选取临界点的簇个数print clf.inertia_进行预测print clf.predict(feature)保存模型joblib.dump(clf，'c：/km.pkl')载入保存的模型clf=joblib.load('c：/km.pkl')'''用来评估簇的个数是否合适，距离越小说明簇分的越好，选取临界点的簇个数for i in range(5，30，1)：clf=KMeans(n_clusters=i)s=clf.fit(feature)print i，clf.inertia_'''

无监督学习比如简单的聚类分析真的是“学习”吗聚类通过把目标数据放入少数相对同源的组或“类”（cluster）里。分析表达数据，（1）通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差。（2）通过把用最紧密关联的谱来放基因进行样本聚类，例如用简单的层级聚类（hierarchicalclustering）方法。这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类。（3）多维等级分析（multidimensionalscalinganalysis，MDS）是一种在二维Euclidean“距离”中显示实验样本相关的大约程度。（4）K-means方法聚类，通过重复再分配类成员来使“类”内分散度最小化的方法。聚类方法有两个显著的局限：首先，要聚类结果要明确就需分离度很好（well-separated）的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是，如果类是扩散且互相渗透，那么每种算法的的结果将有点不同。结果，每种算法界定的边界不清，每种聚类算法得到各自的最适结果，每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果，必须注意判断不同的方式。对遗传学家来说，正确解释来自任一算法的聚类内容的实际结果是困难的（特别是边界）。最终，将需要经验可信度通过序列。

无监督学习四种实现模型（聚类学习、自动编码器、生成模型、PredNet）之间的区别是什么？无监督聚类