博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Data Mining --- Preprocessing
阅读量:4324 次
发布时间:2019-06-06

本文共 964 字,大约阅读时间需要 3 分钟。

1.数据描述:

均值mean(x)=1/n*Σxi,加权均值wieghted-mean(x)=Σwixi/Σwi;中值median;众数mode。经验公式:mean-mode=3*(mean-median)。1/4和3/4分位数;总体方差σ和样本方差s。

 

2.数据清理:

对缺失数据忽略/填充,对噪声数据进行平滑(装箱Binning,回归Regression,聚类Clustering)

a.等宽装箱(distance),等深装箱(frequency)

b.回归

c.聚类

 

3、数据转换(去量纲)

a.最小值-最大值标准化:

b.Z-score标准化:

c.小数点标准化:

 

 

4.数据集成(相关分析、卡方检验)

a.相关性系数:值越大,相关性越大

b.卡方检验:值越大,相关可能性越大

 

5.数据归约

a.数据放聚集

b.维归约(特征选择):向前逐步选择(每次选最好的属性),向后逐步删除(每次删最差的属性),决策树归纳(由决策树选择属性)。

c.数据压缩(离散小波变换DWT,由平滑和平滑-差数据集重构数据)

*wavelet小波变换:适合高维数据

其中fai(t)是一个小波,等价描述(局部化):

一个单个小波函数fai(t)的平移与伸缩构成一个小波簇:

a为伸缩参数,b为平移参数,称fai(t)为母小波。定义小波变换为:

若满足其L2距离平方和有界,则称fai为基小波。

应用离散小波变换一般使用分层金字塔算法:

a.输入数据响亮的长度L为2的整数幂

b.变换涉及两个函数,第一个函数使数据平滑,第二个进行加权查分产生数据的细节特征

c.两个函数作用输入数据对,产生两个长度为L/2的数据集,分别代表输入数据低频(平滑)和高频内容。

d.两个函数递归地作用于前面循环得到的数据集,指导结果数据集的长度为2

e.由以上迭代得到的数据集中选择值,指定其为数据变换的小波系数

*主成分分析PCA:适合稀疏数据

进行特征值分解,并降序排列,保留特征值较大的特征向量作为主要成分来近似。

 

5.数值归约

a.回归和对数线性模型近似

b.直方图

c.聚类

d.选样:简单选样(有放回bootstrap/无放回)、聚类选样、分层选样。

转载于:https://www.cnblogs.com/jizhiyuan/p/3465918.html

你可能感兴趣的文章
阶段1 语言基础+高级_1-3-Java语言高级_09-基础加强_第1节 基础加强_4_Junit_@Before&@After...
查看>>
阶段1 语言基础+高级_1-3-Java语言高级_09-基础加强_第2节 反射_9_反射_Class对象功能_获取Constructor...
查看>>
阶段1 语言基础+高级_1-3-Java语言高级_09-基础加强_第2节 反射_6_反射_获取字节码Class对象的三种方式...
查看>>
阶段1 语言基础+高级_1-3-Java语言高级_09-基础加强_第2节 反射_11_反射_案例
查看>>
阶段1 语言基础+高级_1-3-Java语言高级_09-基础加强_第2节 反射_8_反射_Class对象功能_获取Field...
查看>>
阶段1 语言基础+高级_1-3-Java语言高级_09-基础加强_第2节 反射_10_反射_Class对象功能_获取Method成员方法...
查看>>
阶段1 语言基础+高级_1-3-Java语言高级_09-基础加强_第3节 注解_13_注解_JDK内置注解...
查看>>
阶段1 语言基础+高级_1-3-Java语言高级_09-基础加强_第3节 注解_12_注解_概念
查看>>
阶段1 语言基础+高级_1-3-Java语言高级_09-基础加强_第3节 注解_15_注解_自定义注解_属性定义...
查看>>
阶段1 语言基础+高级_1-3-Java语言高级_09-基础加强_第3节 注解_14_注解_自定义注解_格式&本质...
查看>>
阶段1 语言基础+高级_1-3-Java语言高级_09-基础加强_第3节 注解_17_注解_解析注解...
查看>>
阶段1 语言基础+高级_1-3-Java语言高级_09-基础加强_第3节 注解_16_注解_自定义注解_元注解...
查看>>
阶段1 语言基础+高级_1-3-Java语言高级_09-基础加强_第3节 注解_18_注解_案例_简单的测试框架...
查看>>
阶段3 1.Mybatis_01.Mybatis课程介绍及环境搭建_01.mybatis课程介绍
查看>>
阶段3 1.Mybatis_01.Mybatis课程介绍及环境搭建_02.三层架构和ssm框架的对应关系
查看>>
阶段3 1.Mybatis_01.Mybatis课程介绍及环境搭建_03.jdbc操作数据库的问题分析
查看>>
阶段3 1.Mybatis_01.Mybatis课程介绍及环境搭建_04.mybatis概述
查看>>
阶段3 1.Mybatis_01.Mybatis课程介绍及环境搭建_05.mybatis环境搭建-前期准备
查看>>
阶段3 1.Mybatis_01.Mybatis课程介绍及环境搭建_06.mybatis的环境搭建
查看>>
阶段3 1.Mybatis_01.Mybatis课程介绍及环境搭建_07.环境搭建的注意事项
查看>>