> 首页 > 科技 > 互联网 > 数据预处理的基本方法

数据预处理的基本方法

来源:网络 作者:网友上传 时间:04-08 手机版

数据预处理的基本方法:

1、墓于粗糙集( Rough Set)理论的约简方法,粗糙集理论是一种研究不精确、不确定性知识的数学工具。现在受到了KDD的广泛重视,利用粗糙集理论对数据进行处理是一种十分有效的精简数据维数的方法。

2、基于概念树的数据浓缩方法,在数据库中,许多属性都是可以进行数据归类,各属性值和概念依据抽象程度不同可以构成一个层次结构,概念的这种层次结构通常称为概念树。概念树一般由领域专家提供,它将各个层次的概念按一般到特殊的顺序排列。

3、信息论思想和普化知识发现,特征知识和分类知识是普化知识的两种主要形式,其算法基本上可以分为两类:数据立方方法和面向属性归纳方法。

4、基于统计分析的属性选取方法,可以采用统计分析中的一些算法来进行特征属性的选取,比如主成分分析、逐步回归分析、公共因素模型分析等。这些方法的共同特征是,用少量的特征元组去描述高维的原始知识基。

预处理常用的方法有哪些?

一、混凝-絮凝

混凝是指向水中投加一定剂量的化学药剂,这些化学药剂在水中发生水解,和水中的胶体粒子互相碰撞,发生电性中和,产生吸附、架桥和网捕作用,从而形成大的絮体颗粒,并从水中沉降,起到了降低颗粒悬浮物和胶体的作用。

二、介质过滤

介质过滤是指以石英砂或无烟煤等为介质,使水在重力或压力下通过由这些介质构成的床层,而水中的的颗粒污染物质则被介质阻截,从而达到与水分离的过程。粒状介质过滤基于“过滤-澄清”的工作过程去除水中的颗粒、悬浮物和胶体。

工业水处理

在工业用水处理中,预处理工序的任务是将工业用水的水源——地表水、地下水或城市自来水处理到符合后续水处理装置所允许的进水水质指标,从而保证水处理系统长期安全、稳定地运行,为工业生产提供优质用水。

预处理的对象主要是水中的悬浮物、胶体、微生物、有机物、游离性余氯和重金属等。这些杂质对于电渗析、离子交换、反渗透、钠滤等水处理装置会产生不利的影响。

大数据预处理的方法有哪些?

1、数据清理

数据清理例程就是通过填写缺失值、光滑噪声数据、识别或者删除离群点,并且解决不一致性来进行“清理数据”。

2、数据集成

数据集成过程将来自多个数据源的数据集成到一起。

3、数据规约

数据规约是为了得到数据集的简化表示。数据规约包括维规约和数值规约。

4、数据变换

通过变换使用规范化、数据离散化和概念分层等方法,使得数据的挖掘可以在多个抽象层面上进行。数据变换操作是提升数据挖掘效果的附加预处理过程。

大数据处理之道(预处理方法)

大数据处理之道(预处理方法)

一:为什么要预处理数据?

(1)现实世界的数据是肮脏的(不完整,含噪声,不一致)

(2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成)

(3)原始数据中存在的问题:

不一致 —— 数据内含出现不一致情况

重复

不完整 —— 感兴趣的属性没有

含噪声 —— 数据中存在着错误、或异常(偏离期望值)的数据

高维度

二:数据预处理的方法

(1)数据清洗 —— 去噪声和无关数据

(2)数据集成 —— 将多个数据源中的数据结合起来存放在一个一致的数据存储中

(3)数据变换 —— 把原始数据转换成为适合数据挖掘的形式

(4)数据规约 —— 主要方法包括:数据立方体聚集,维度归约,数据压缩,数值归约,离散化和概念分层等。

(5)图说事实

三:数据选取参考原则

(1)尽可能富余属性名和属性值明确的含义

(2)统一多数据源的属性编码

(3)去除唯一属性

(4)去除重复属性

(5)去除可忽略字段

(6)合理选择关联字段

(7)进一步处理:

通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致数据,去掉数据中的噪音、填充空值、丢失值和处理不一致数据

四:用图说话,(我还是习惯用统计图说话)

结尾:计算机领域存在一条鄙视链的 ---- 学java的鄙视学C++的,有vim的鄙视用IDE的等等。

数据清洗的路子:刚拿到的数据 ---->和数据提供者讨论咨询 ----->数据分析(借助可视化工具)发现脏数据 ---->清洗脏数据(借助MATLAB或者Java/C++语言) ----->再次统计分析(Excel的data analysis不错的,最大小值,中位数,众数,平均值,方差等等,以及散点图) ----->再次发现脏数据或者与实验无关的数据(去除) ----->最后实验分析 ---->社会实例验证 ---->结束。

相关推荐:

TB店关闭了怎么售后

数据预处理的基本方法

数据预处理包括哪些内容

TB店上传宝贝图片步骤

如何给页码插全角空格

小米9pro是ufs3.0吗

小米6x手机放大镜在哪里

如何开启获取手机信息权限

标签: 互联网

声明:《数据预处理的基本方法》一文由排行榜大全(网友上传 )网友供稿,版权归原作者本人所有,转载请注明出处。如果您对文章有异议,可在反馈入口提交处理!

最近更新

  • 春闺梦里人播出平台

    《春闺梦里人》讲述少女季曼意外失忆,意外代替孪生姐姐聂桑榆进入侯府,凭借过人的商业头脑多次化解危机,与宁钰轩经历风雨,收获成长和幸福的故...

    电影 日期:2023-04-08

  • TB店关闭了怎么售后

    淘宝店铺关闭后申请售后操作步骤有:1、进入“已买到宝贝”页面,找到对应的订单,点击“申请售后”。2、选择要申请的服务类型:仅退款、退货退款...

    互联网 日期:2023-04-08

  • 上海古镇有哪些

    1、朱家角古镇。朱家角古镇是上海最为著名的古镇之一,位于青浦区,许多外地游客以及国外的游客来上海必来朱家角。其中必去的景点有课植园,放生...

    百科 日期:2023-04-08

  • 重紫逆轮人物解析

    《重紫》正在热播中,剧中的慕玉是魔教的军师,多年潜伏在仙盟就是为了完成前任魔尊逆轮的嘱托,那么前任魔尊逆轮到底是一个怎么样的人?他和重紫...

    电影 日期:2023-04-08

  • 林氏家族起源

    林氏家族起源有以下三种说法:1、林氏家族起源于比干之子林坚。史载殷商太师比干被商王朝纣王所害,正夫人陈氏甫孕三月,逃出朝歌,于长林石室之中...

    百科 日期:2023-04-08

  • 九寨沟有什么特色小吃

    1、素烧如意。如意菜即蕨菜,因其状若一柄绿莹莹的古代如意而得名。国外把它列为健康食品,称为山菜之王。2、雅茶。雅茶是用茶树的粗枝大叶制成...

    百科 日期:2023-04-08

  • 风雨送春归:迎廉政之清风

    近年来,互联网上个别干部的失德、失职言行影响着大众对于党员干部的形象认知。干部来自群众,但在实际工作中却存在脱离群众生活的问题,如何加...

    电影 日期:2023-04-08

  • 林氏有哪个人当过皇帝

    林氏有林士弘当过皇帝,以下是其相关信息:中文名称:林士弘;出生地:饶州鄱阳,即江西鄱阳;逝世日期:公元622年;民族:汉族;主要成就:领导农民起义,建立太平楚...

    百科 日期:2023-04-08

邮箱不能为空
留下您的宝贵意见