数据挖掘知识点概况及试题

1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类:联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

第二章

1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。

4、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。

5、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。

6、维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键。

7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。

8、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级。

第三章

1、SQLServerSSAS提供了所有业务数据的同意整合试图,可以作为传统报表、在线分析处理、关键性能指示器记分卡和数据挖掘的基础。

2、数据仓库的概念模型通常采用信息包图法来进行设计,要求将其5个组成部分(包括名称、维度、类别、层次和度量)全面地描述出来。

3、数据仓库的逻辑模型通常采用星型图法来进行设计,要求将星型的各类逻辑实体完整地描述出来。

4、按照事实表中度量的可加性情况,可以把事实表对应的事实分为4种类型:事务事实、快照事实、线性项目事实和事件事实。

5、确定了数据仓库的粒度模型以后,为提高数据仓库的使用性能,还需要根据拥护需求设计聚合模型。

7、当维表中的主键在事实表中没有与外键关联时,这样的维称为退化维。它于事实表并无关系,但有时在查询限制条件(如订单号码、出货单编号等)中需要用到。

8、维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。

9、数据仓库的数据量通常较大,且数据一般很少更新,可以通过设计和优化索引结构来提高数据存取性能。

10、数据仓库数据库常见的存储优化方法包括表的归并与簇文件、反向规范化引入冗余、表的物理分割(分区)。

第四章

1、关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。

2、如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则

连接产生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}

再经过修剪,C3={{a,b,c},{a,b,d}}

3、设定supmin=50%,交易集如

则L1={A},{B},{C}L2={A,C}

T1ABC

T2AC

T3AD

T4BEF

第五章

1、分类的过程包括获取数据、预处理、分类器设计和分类决策。

2、分类器设计阶段包含三个过程:划分数据集、分类器构造和分类器测试。

3、分类问题中常用的评价准则有精确度、查全率和查准率和集合均值。

4、支持向量机中常用的核函数有多项式核函数、径向基核函数和S型核函数。

第六章

1、聚类分析包括连续型、二值离散型、多值离散型和混合类型4种类型描述属性的相似度计算方法。

2、连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。

3、划分聚类方法对数据集进行聚类时包含三个要点:选种某种距离作为数据样本减的相似性度量、选择评价聚类性能的准则函数和选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值。

4、层次聚类方法包括凝聚型和分解型两中层次聚类方法。

填空题20分,简答题25分,计算题2个(25分),综合题30分

1、数据仓库的组成?P2

数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统

2、数据挖掘技术对聚类分析的要求有哪几个方面?P131

可伸缩性;处理不同类型属性的能力;发现任意形状聚类的能力;减小对先验知识和用户自定义参数的依赖性;处理噪声数据的能力;可解释性和实用性

THE END
1.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和数据挖掘是从大量数据中提取有用信息的方法,主要分为四种分析方式:关联分析、序列模式分析、分类分析和聚类分析。在本指南中,我们将详细介绍这四种方法的实现过程,并提供相应的代码示例。 数据挖掘流程 首先,我们需要明确数据挖掘的基本流程,如下表所示: 流程图 https://blog.51cto.com/u_16213297/12863680
2.数据挖掘由哪些步骤组成的帆软数字化转型知识库数据挖掘由数据准备、数据清洗、数据集成、数据转换、数据挖掘、模式评估和知识表示等步骤组成。其中,数据准备是数据挖掘过程中的一个关键步骤,因为数据的质量和格式直接影响挖掘结果的准确性和有效性。数据准备包括收集和选择相关数据、处理缺失值、去除噪声、解决数据不一致等任务。数据准备的良好进行可以大大提高后续挖掘https://www.fanruan.com/blog/article/576475/
3.通俗易懂,数据挖掘的过程是什么?数据挖掘的流程导读:数据挖掘过程包含数据清洗、特征提取、算法设计等多个阶段,本文将讨论这些阶段。 01 数据挖掘过程 典型数据挖掘应用的过程包含以下几个阶段。 1. 数据采集 数据采集工作可能是使用像传感器网络这样的专门硬件、手工录入的用户调查,或者如Web爬虫那样的软件工具来收集文档。虽然这个阶段与具体应用息息相关,但常常落在https://blog.csdn.net/maiya_yayaya/article/details/131590669
4.业务流程挖掘算法研究(精选十篇)流程挖掘的输入是执行日志,表1 是一个会议流程的执行日志。每一行表示一个事件,记录了与事件有关的各种信息,如: 该事件对应的活动,事件发生的时间等,用事件ID标识。实例是流程的一次执行过程,用实例ID标识,每个事件属于某一实例。如果只关注流程的控制流视图,一个实例可用其所有事件所对应的活动序列来表示。因此,https://www.360wenmi.com/f/cnkeyal85ayy.html
5.数据分析与挖掘11篇(全文)近年来,数据挖掘技术经过不断发展,已经成为一个涉及多个学科的交叉型综合学科。通常而言,经典的数据挖掘算法都可以直接用到Web数据挖掘上来,但为了提高挖掘质量,要在扩展算法上进行了研究,包括复合关联规则算法、改进的序列发现算法等。 2. Web数据挖掘的概念 https://www.99xueshu.com/w/ikeyp687ycyz.html
6.大数据金融第二章大数据相关技术数据挖掘的任务:关联分析、聚类分析、分类、回归、预测、序列和偏差分析。 五 数据解释 数据解释是一个面向用户的过程,它是指将大数据挖掘及分析结果在显示终端以友好、形象、易于理解的形式呈现给用户。 (一) 数据可视化 数据可视化技术主要是通过图形化方法进行清晰、有效的数据传递。 https://www.jianshu.com/p/d68251554c66
7.机器学习中的数据清洗与特征处理综述随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序、用户建模http://api.cda.cn/view/8897.html
8.数据挖掘论文(优选10篇)(2)档案工作要利用数据分析和档案用户特征分析进行分类描述。 (3)确定档案 的基础性分类主题,一般而言,要将文书档案归档状况、卷数 等基础性信息作为分类依据。 2.2数据库设计单元 在设计过程中,要 针对不同维度建立相应的参数体系和组成结构,并且有效 http://www.360doc.com/content/23/1127/11/82785916_1105448548.shtml
9.理论资讯部分地区探索对学生行为序列进行建模分析,以跟踪学生对学习知识与能力的达成状态从而完善质量监测,并在此基础上生成自适应教学系统。比如,天津电子信息职业技术学院搭建“全场景学习平台”,采集学生学习和实践数据,建立长周期、多维度数据,应用数据对课程学习和企业实践效果进行过程性和结果性评价,对数字素养和专业能力进行https://www.nmpaied.org.cn/article/264580
10.人工智能面试题86问,新手找工作必备!腾讯云开发者社区2.机器学习与数据挖掘的区别 3.什么是机器学习的过度拟合现象 4.过度拟合产生的原因 5.如何避免过度拟合 6.什么是感应式的机器学习? 7.什么是机器学习的五个流行的算法? 8.机器学习有哪些不同的算法技术? 9.在机器学习中,建立假设或者模型的三个阶段指的是什么? https://www.cloud.tencent.com/developer/article/1141941
11.深度学习高手笔记卷1:基础算法卷1由三篇组成,第一篇介绍深度学习在计算机视觉方向的一些卷积神经网络,从基础骨干网络(第1章)、轻量级CNN(第2章)、模型架构搜索(第3章)3个方向展开,介绍计算机视觉方向的30余个里程碑算法。第二篇主要介绍深度学习在自然语言处理方向的重要突破,主要介绍几个基础序列模型,如LSTM、注意力机制、Transformer等(第4章https://www.epubit.com/bookDetails?id=UB7d8623610d375
12.《数据挖掘》实验项目通过本课程的学习,可了解数据挖掘的基本概念和主要思想,掌握典型的机器学习算法以及利用python实现数据挖掘与机器学习的过程。 四、实验内容 五、实验条件 硬件:微型计算机、常用网络设备 软件:Windows 7操作系统、python、anaconda等 六、成绩评定办法 1.实验成绩的评定 http://jsjfz.nut.edu.cn/index.php/cms/item-view-id-1331.shtml
13.医疗大数据与人工智能报告发布,首次绘制产业技术成熟度曲线界面除了从国家层面推动人工智能的产业发展需要政策支持,人工智能在应用过程中所涉及到的法律法规问题也需要尽早规划和监管。特别是在监管严格的医疗行业中,人工智能的商业化应用,还有很多问题需要政策进行规范。 第一,人工智能的应用规范。医疗问题涉及到人的健康和生命,是一个复杂而谨慎的领域,任何问题都和患者的生命安全息https://www.jiemian.com/article/1630721_qq.html