docx文档 数据挖掘数据预处理

专业资料 > IT&计算机 > 计算机软件及应用 > 文档预览
4 页 582 浏览 10 收藏 4.8分

摘要:XI`ANTECHNOLOGICALUNIVERSITY实验报告实验课程名称数据集成、变换、归约和离散化专业:数学与应用数学班级:姓名:学号:实验学时:指导教师:刘建伟成绩:2016年5月5日西安工业大学实验报告专业数学与应用数学班级131003姓名学号[MISSINGIMAGE]实验课程数据挖掘指导教师刘建伟实验项目实验设备及器材数据集成、变换、归约和离散化计算机一台实验日期2016-55同实验者一实验目的掌握数据集成、变换、归约和离散化二实验分析从初始数据源出发,总结了目前数据预处理的常规流程方法,提出应把源数据的获取作为数据预处理的一个步骤,并且创新性地把数据融合的方法引入到数据预处理的过程中,提出了数据的循环预处理模式,为提高数据质量提供了更好的分析方法,保证了预测结果的质量,为进一步研究挖掘提供了较好的参考模式。三实验步骤 1数据分析任务多半涉及数据集成。数据集成是指将多个数据源中的数据合并并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。在数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。2数据变换是指将数据转换或统一成适合于挖掘的形式。(1)数据泛化:使用概念分层,用高层概念替换低层或“原始”数据。例如,分类的属性,如街道,可以泛化为较高层的概念,如城市或国家。类似地,数值属性如年龄,可以映射到较高层概念如青年、中年和老年。(2)规范化:将属性数据按比例缩放,使之落入一个小的特定区间。大致可分三种:最小最大规范化、z-score规范化和按小数定标规范化。(3)属性构造:可以构造新的

温馨提示:当前文档最多只能预览 5 页,若文档总页数超出了 5 页,请下载原文档以浏览全部内容。
本文档由 匿名用户2022-08-29 23:35:41上传分享
你可能在找
  • 一、填空题(2×10=20分)1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3、数据处理通常分成两大类:联机事务处理和联机分析处理。4、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
    4.7 分 10 页 | 104.14 KB
  • 数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3、数据处理通常分成两大类:联机事务处理和联机分析处理。
    4.7 分 27 页 | 2.00 MB
  • 除有特殊规定外,一般可疑数为最后一位,有±1个单位的误差②?复杂运算时,其中间过程可多保留一位,最后结果须取应有的位数③? 加减法计算的结果,其小数点以后保留的位数,应与参加运算各数中小数点后位数最小的相同。④?乘除法计算的结果,其有效数字保留的位数,应与参加运算各数中有效数字位数最少者相同。 tiXi-X(1)ti/确定法R极差算术平均值可疑值据平行测定总次数N、显著性水平α值查表,求出ti表,若ti>ti表则舍去可疑值,若ti≤ti表则应保留可疑值。ti表见34页表2―44、?
    4.8 分 5 页 | 20.00 KB
  • 4.9 分 9 页 | 1.56 MB
  • 公路工程造价数据挖掘相关技术第1题下列不属于描述统计的是()A.频次分析B.平均数C.回归分析D.相关系数答案:C第2题下列不属于数据预处理过程的是A.特征选择B.维归约C.规范化D.模式过滤答案:D第 3题统计显著性应大于(A.3%B.4%C.5%D.6%答案:C第4题高维度数据可视化图表不包括(A.矩阵B.百分位数图C.平行坐标系D.星状坐标答案:B第5题下列描述哪个是中位数的特点:A.体现了样本数据的最大集中点 ,但它显然对其他数据信息的忽视使得无法客观地反映总体特征。
    4.8 分 4 页 | 14.77 KB
  • 中国数据挖掘与商业智能研讨会(第二届中国数据挖掘与商业智能研讨会(第二届,2006,2006))高校高校CATICATI实验室的建立与应用实验室的建立与应用主讲人:蒋妍中国人民大学统计学院 主要内容高校
    3.0 分 38 页 | 289.50 KB
  • Chap3分析化学中的误差与数据处理(要求预习)一、分析化学中的误差二、有效数字与运算规则三、分析化学中的数据处理四、显著性检验五、可疑值取舍六、回归分析法七、提高分析结果准确度的方法 一、定量分析的误差 1.有关基本概念(1)真实值(Truevalue)xT某一物理量客观存在的真实数值。 理论真值化合物的理论组成计量学约定真值国际计量大会确定的长度、质量、物质的量等量相对真值精确确定标准试样中组分的含 (2)总体:考察对象的全体。
    3.0 分 86 页 | 4.47 MB
  • 数据管理与数据治理的异同点分析当我们谈数据资产管理时,我们究竟在谈什么?就目前而言,我们谈论得最多的非数据管理和数据治理这两个概念莫属。 数据管理包含数据治理“治理是整体数据管理的一部分”这个概念目前已经得到了业界的广泛认同。数据管理包含多个不同的领域,其中一个最显著的领域就是数据治理。 CMMi协会颁布的数据管理成熟度模型(DMM)使这个概念具体化。DMM模型中包括六个有效数据管理分类,而其中一个就是数据治理。
    5.0 分 3 页 | 25.05 KB
  • 3.0 分 61 页 | 55.88 KB
  • 数据的无量纲处理方法及示例在对实际问题建模过程中,特别是在建立指标评价体系时,常常会面临不同类型的数据处理及融合。而各个指标之间由于计量单位和数量级的不尽相同,从而使得各指标间不具有可比性。 在数据分析之前,通常需要先将数据标准化,利用标准化后的数据进行分析数据标准化处理主要包括同趋化处理和无量纲化处理两个方面。 数据的同趋化处理主要解决不同性质的数据问题,对不同性质指标直接累加不能正确反应不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对评价体系的作用力同趋化。
    4.9 分 5 页 | 147.50 KB
本站APP下载(扫一扫)
活动:每周日APP免费下载全站文档
本站APP下载
热门文档