数据挖掘数据预处理
摘要:XI`ANTECHNOLOGICALUNIVERSITY实验报告实验课程名称数据集成、变换、归约和离散化专业:数学与应用数学班级:姓名:学号:实验学时:指导教师:刘建伟成绩:2016年5月5日西安工业大学实验报告专业数学与应用数学班级131003姓名学号[MISSINGIMAGE]实验课程数据挖掘指导教师刘建伟实验项目实验设备及器材数据集成、变换、归约和离散化计算机一台实验日期2016-55同实验者一实验目的掌握数据集成、变换、归约和离散化二实验分析从初始数据源出发,总结了目前数据预处理的常规流程方法,提出应把源数据的获取作为数据预处理的一个步骤,并且创新性地把数据融合的方法引入到数据预处理的过程中,提出了数据的循环预处理模式,为提高数据质量提供了更好的分析方法,保证了预测结果的质量,为进一步研究挖掘提供了较好的参考模式。三实验步骤1数据分析任务多半涉及数据集成。数据集成是指将多个数据源中的数据合并并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。在数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。2数据变换是指将数据转换或统一成适合于挖掘的形式。(1)数据泛化:使用概念分层,用高层概念替换低层或“原始”数据。例如,分类的属性,如街道,可以泛化为较高层的概念,如城市或国家。类似地,数值属性如年龄,可以映射到较高层概念如青年、中年和老年。(2)规范化:将属性数据按比例缩放,使之落入一个小的特定区间。大致可分三种:最小最大规范化、z-score规范化和按小数定标规范化。(3)属性构造:可以构造新的
温馨提示:当前文档最多只能预览
5 页,若文档总页数超出了
5 页,请下载原文档以浏览全部内容。
本文档由 匿名用户 于 2022-08-29 23:35:41上传分享