> 首页 > 科技 > 互联网 > 数据预处理包括哪些内容

数据预处理包括哪些内容

来源:网络 作者:网友上传 时间:04-08 手机版

数据预处理(datapreprocessing)是指在主要的处理以前对数据进行的一些处理,包括的内容是:

 

1、数据清理,数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。

2、数据集成,数据集成例程将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。

3、数据变换。通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。

4、数据归约。数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。

数据预处理

在数据挖掘中,海量的原始数据中存在大量不完整(有缺失值)、不一致、有异常的数据,会严重影响到数据挖掘建模的执行效果,甚至会导致挖掘结果的偏差,进而数据清洗就变得尤为重要。在数据清洗完成后接着甚至同时进行数据集成、变换、规约等一系列的处理,而整个过程称之为 数据预处理 。在整个数据挖掘过程中,数据预处理工作大致占据整个过程的 60% 。

一般来说,数据预处理的主要包括如下内容: 数据清洗、数据集成、数据变换、数据规约。

接下来的内容,我们也是从这几方面阐述。

常见的缺失值处理方法: 删除法、替换法、插补法等

(1)、删除法: 最简单的缺失值处理方法。从不同角度进行数据处理划分:

<code>

缺失值的处理

inputfile$date=as.numeric(inputfile$date)#将日期转换成数值型变量

sub=which(is.na(inputfile$sales))#识别缺失值所在行数

inputfile1=inputfile[-sub,]#将数据集分成完整数据和缺失数据两部分

inputfile2=inputfile[sub,]

行删除法处理缺失,结果转存

result1=inputfile1

</code>

(2)、替换法

一般根据属性将变量分:数值型和非数值型

在数据挖掘过程中,可能会存在数据分布在不同的数据源中,而这个时候需要将多个数据源合并存放在一个一致的数据存储(如数据仓库),整个过程称之为 数据集成 。

数据仓库:

关于数据仓库构思

漫谈数据仓库之维度建模

漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)

在R中,通过将存储在两个数据框中的数据以关键字为依据,以行为单位做列向合并,直接通过merge()函数完成。

merge(数据框1,数据框2,by="关键字"),而合并后的新数据自动按照关键字取值大小升序排列。不过在数据集成过程中存在表达形式不一样,导致不能直接完成匹配,就需要我们进行加以转换、提炼、集成等操作。具体从如下几方面:

(1)、实体识别

从不同数据源识别出现实世界的实体,来完成统一不同源的数据矛盾之处。

实体识别承担着检测和解决这些冲突的任务

(2)、冗余属性识别

数据变换主要对数据进行规范化处理、连续变量的离散化以及属性属性的构造,将数据转换成“适当的”形式,来满足挖掘任务及算法的需要。

(1)、简单函数变换

对原始数据进行某些数学函数变换,常见平方、开方、取对数、差分运算等等

主要来完成不具有正态分布变换服从正态分布;非平稳序列变为平稳序列等等

(2)、数据规范化

为了清除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定区域,便于进行综合分析。

常见方法如下:

<code>

读取数据

data=read.csv('./data/normalization_data.csv',he=F)

最小-最大规范化

b1=(data[,1]-min(data[,1]))/(max(data[,1])-min(data[,1]))

b2=(data[,2]-min(data[,2]))/(max(data[,2])-min(data[,2]))

b3=(data[,3]-min(data[,3]))/(max(data[,3])-min(data[,3]))

b4=(data[,4]-min(data[,4]))/(max(data[,4])-min(data[,4]))

data_scatter=cbind(b1,b2,b3,b4)

零-均值规范化

data_zscore=scale(data)

小数定标规范化

i1=ceiling(log(max(abs(data[,1])),10))#小数定标的指数

c1=data[,1]/10^i1

i2=ceiling(log(max(abs(data[,2])),10))

c2=data[,2]/10^i2

i3=ceiling(log(max(abs(data[,3])),10))

c3=data[,3]/10^i3

i4=ceiling(log(max(abs(data[,4])),10))

c4=data[,4]/10^i4

data_dot=cbind(c1,c2,c3,c4)

</code>

(3)、连续属性离散化

在数据的取值范围内设定若干个离散的划分点,将取值范围划分为不同的离散化的区间,最后使用不同的符号或数值代表落在不同区间的数据值。

常见离散方法:

(4)、属性构造

利用已有的属性构造出新的属性

(5)、小波变换(本次不进行阐述)

数据规约在大数据集上产生更小的且保持原数据完整性的新数据集,提升在数据集合上进行分析和挖掘的效率。

意义如下:

数据预处理包括哪些内容

数据预处理没有统一的标准,只能说是根据不同类型的分析数据和业务需求,在对数据特性做了充分的理解之后,再选择相关的数据预处理技术。

通常来说,数据预处理涉及到——

1)数据清理

填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性

2)数据集成

集成多个数据库、数据立方体或文件

3)数据变换

规范化和聚集

4)数据归约

得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果

5)数据离散化

数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要。

大数据预处理包含哪些?

一、数据清理

并不一定的数据全是有使用价值的,一些数据并不是大家所关注的内容,一些乃至是彻底不正确的影响项。因而要对数据过滤、去噪,进而获取出合理的数据。

数据清理关键包括忽略值解决(缺乏很感兴趣的属性)、噪声数据解决(数据中存有着不正确、或偏移期待值的数据)、不一致数据解决。

忽略数据能用全局性变量定义、属性平均值、将会值填充或是立即忽视该数据等方式;噪声数据能用分箱 (对初始数据开展排序,随后对每一组内的数据开展平滑处理)、聚类算法、电子计算机人工服务定期检查重归等方式 除去噪声。

二、数据集成与转换

数据集成就是指把好几个数据源中的数据融合并储存到一个一致的数据库文件。这一全过程中必须主要处理三个难题:模式匹配、数据冗余、数据值冲突检测与解决。

因为来源于好几个数据结合的数据在取名上存有差别,因而等额的的实体线常具备不一样的名字。数据集成中最后一个关键难题就是数据值矛盾难题,具体表现为来源于不一样的统一实体线具备不一样的数据值。

三、数据规约

数据规约关键包含:数据方集聚、维规约、数据缩小、标值规约和定义层次等。

倘若依据业务流程要求,从数据库房中获得了剖析所必须的数据,这一数据集将会十分巨大,而在大量数据上开展数据剖析和数据发掘的成本费又非常高。应用数据规约技术性则能够 完成数据集的规约表明,促使数据集缩小的另外依然趋于维持原数据的一致性。在规约后的数据集在开展发掘,仍然可以获得与应用原数据集几近同样的剖析结果。

关于大数据预处理包含哪些,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

相关推荐:

数据预处理的基本方法

数据预处理包括哪些内容

TB店上传宝贝图片步骤

如何给页码插全角空格

小米9pro是ufs3.0吗

小米6x手机放大镜在哪里

如何开启获取手机信息权限

如何把电影下载到手机

标签: 互联网

声明:《数据预处理包括哪些内容》一文由排行榜大全(网友上传 )网友供稿,版权归原作者本人所有,转载请注明出处。如果您对文章有异议,可在反馈入口提交处理!

最近更新

  • 数据预处理的基本方法

    数据预处理的基本方法:1、墓于粗糙集( Rough Set)理论的约简方法,粗糙集理论是一种研究不精确、不确定性知识的数学工具。现在受到了KDD的广...

    互联网 日期:2023-04-08

  • 马桶怎么防止大便溅水

    1、垫纸巾:在马桶水面上铺一张纸,报纸更佳。报纸当船,承载着各种各样的便便,长条的、半长条的、圆形的。2、控制便速:更准确的说,是要加强局部括约...

    百科 日期:2023-04-08

  • 林书豪NBA总得分是多少

    到2015至2016赛季2016年2月12日,林书豪NBA总得分4012分;林书豪,1988年8月23日出生于美国美国加利福尼亚州帕罗奥图,毕业于哈佛大学,美国职业篮球...

    百科 日期:2023-04-08

  • iqoo10pro是曲面屏吗

    作为一个极具个性的手机品牌,iQOO在手机本身的设计上也一直独具特色。那iQOO 10 Pro是曲面屏吗?iqoo10pro是曲面屏吗?iQOO 10 Pro是曲面屏。该...

    数码 日期:2023-04-08

  • 积分兑换的火车票可以改签吗

    1、积分兑换的车票可以在车站会员服务窗口办理改签,但不办理退票、变更到站。2、改签范围仍为允许积分兑换的车票,并有相应的积分。3、改签新...

    百科 日期:2023-04-08

  • iqoo10pro支持iP68防水吗

    一般生活中的水溅到手机上面,或者少量水通过接口或者耳机口进入里面,其实手机问题不大,但手机浸泡在水里面了,可能就得面临换手机了。那iQOO 10 ...

    数码 日期:2023-04-08

  • 林书豪的父母简介

    林书豪的父亲是林继明,出生于台湾彰化县北斗镇,祖籍福建省漳州市漳浦县,是一名半导体工程师。林书豪的母亲是吴信信,祖籍浙江省嘉兴市平湖,是一名...

    百科 日期:2023-04-08

  • 归路是根据哪部小说改编的

    《归路》是改编自知名网文作家墨宝非宝的同名小说,故事讲述的是归晓与路炎晨这对年轻恋人,因为意外不得不分离多年,再相遇后依然钟情彼此,并且...

    电影 日期:2023-04-08

邮箱不能为空
留下您的宝贵意见