博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
R之聚类分析法
阅读量:7089 次
发布时间:2019-06-28

本文共 966 字,大约阅读时间需要 3 分钟。

什么是聚类分析?

聚类分析(cluster analysis)是把研究对象(样本或变量)分组成为由类似的对象组成多个类的一种统计方法。聚类分析根据对象不同氛围两类:

  • Q型聚类分析:对样本进行聚类
  • R型聚类分析:对变量进行聚类

一般情况下,使用Q型聚类分析法。

如何量化相似性?

相似性度量一般分为两种:

  • 距离:常用来度量样本
  • 相似系数:常用来度量变量

样本变量分类:

  • 间隔尺度变量:连续型变量
  • 名义尺度变量:类别变量
  • 有序尺度变量:优劣变量

距离

  • Minkowski距离,即明氏距离
  • 兰氏距离,canberra
  • 马氏距离
  • 斜交空间距离

以上几种距离一般要求变量是间隔适度的,如果是名义或有序尺度变量的情况,则要用其它距离定义。

相似系数

  • 夹角余弦
  • 相关系数

系统聚类法

系统聚类法是聚类分析方法中最常用的一种,其基本思想是:开始将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类之间的距离;重复,直至所有的样品合并为一类。

八种聚类分析法:

  • 最短距离法,single linkage method
  • 最长距离法,complete linkage method
  • 中间距离法,median method
  • 类平均法,average linkage method
  • 重心法,centroid hierarchical method
  • 离差平方和法,ward method

操作

rdist(x,method = "euclidean", diag=FALSE, upper=FALSE, p=2)  #距离阵
x为数据矩阵,数据框.method为计算方法,包括"euclidean","maximum","manhattan","canberra","binary","minkowski".diag为是否包含对角线元素.upper为是否需要上三角.p为Minkowski距离的幂次.
rhclust(d, method="complete",...) #系统聚类函数
d为距离阵. d <- dist(x)method为系统聚类方法,包括"ward","single","complete","average","mcquitty","median",or"centroid".

转载地址:http://nwbql.baihongyu.com/

你可能感兴趣的文章
日媒称黑客组织瞄上中企:目标企业被迫停牌3年
查看>>
Fortinet实验室提醒用户注意Office高危漏洞
查看>>
10年后全球智慧城市市场规模将达到3.5万亿美元
查看>>
雅虎高管解读财报 将在今年完成阿里资产剥离
查看>>
大数据时代安全难题:个人信息保护立法紧迫
查看>>
国家发改委:资金支持大数据重大建设项目
查看>>
青海省公安厅部署科达至臻高清视频会议系统
查看>>
最新的swoole视频上线
查看>>
说一下你的思考过程 Tell me what you think(编程测试)
查看>>
勒索病毒后的反思:开放的NFV/SDN安全吗?
查看>>
Appium滑动问题研究
查看>>
美国国家情报总监个人邮箱被黑
查看>>
[Maven + Gem]为大型企业打造自动化测试工具
查看>>
为什么说联想不可能放弃摩托罗拉品牌?
查看>>
雅虎股东致信董事会:别再浪费资本了
查看>>
浅说秋色园域名被国家互联网应急中心封与解的过程
查看>>
意念控制头环:用脑电波来操控智能家居
查看>>
农业部部署推进农业农村大数据发展和应用工作
查看>>
电信公司Lebara计划全面部署AWS云
查看>>
Google Drive强化企业功能 带来一系列改善
查看>>