Tag Archives: DataMining

【数据挖掘】综合篇——聚类分析

聚类分析

  1. 聚类理论
  2. 案例分析(讲了三个模型:系统聚类K均值聚类高斯混合模型的聚类
  3. 案例效果评价(也给出了FCM模糊C均值聚类,以及自组织特征映射网络的聚类)评价这里主要是通过绘制图像的方法给出评价的,最后的聚类数与聚类效果(类相似度)的图像很赞!
  4. 总结

Continue reading

【数据挖掘】综合篇——分类与决策树

什么是分类?

分类是确定对象属于哪个预定的目标类。通过分类器将样本得到其所属类,预定义是已经明确知道分哪几个类,各个类有什么特征,同时对其它样本的分类(即判定对象属于哪个预定的目标类)。

常见应用:

  • 垃圾邮件检测
  • 肿瘤良性恶性判断
  • 个人信用等级判断
  • 金融债券评级系统(根据财务报表提供的信息来进行评级)
  • ……

Continue reading

【数据挖掘】综合篇——数据

引语

干渴的水手,看到海水也能满足他们对水的渴望。——Rime ofAncient Mariner《老水手之歌》

得到了数据,我们就对信息充满了渴望,这种渴望永远难以抑制。

  1. 数据的激增是现代社会的一大特性
  2. 数据来源于多系统,具有许多形式和类型
  3. 最尖端的数据挖掘,技术也不可能在没有充分数据准备的情况下发现有趣的规律

数据

1 数据结构与类型

行,列,数据集,特殊的”列“

2 数据质量

误差,离群点,缺失数据

3 数据挖掘预处理

聚集,抽样,维规约,特征子集选择,特征创建,离散化,变量变换,衍生变量

4 根据数据联系分析数据(以后介绍)

相似度,相异度

Continue reading