数据挖掘全景:从基础理论到经典算法的深度探索

D.数据收集能力远远超过人们的分析和理解能力

A.结构化

B.半结构化

C.非结构化

D.不清楚

A.是

B.不是

5.(单选题)建立数据仓库的主要目的是

A.规范管理数据

B.日常事务处理

C.更新数据方便

D.联机分析与决策支持

A.根据历史中奖号码预测福利彩票下期中奖号码

B.计算公司的年销售额和盈利;

C.监测病人的异常心率变化情况;

D.预测掷色子的点数;

A.探索性数据分析

B.建模描述

C.预测建模

D.寻找模式和规则

8.(单选题)建立数据仓库的主要目的是()。

A.规范管理数

A.对

B.错

A.分类与预测

B.关联挖掘

C.聚类

D.回归分析

B.聚类

C.关联分析

A.分析与预测

C.关联挖掘

C.回归分析

D.聚类

A.分类与挖掘

C.聚类分析

A.正确

B.错误

A.需要

B.不需要

3.(判断题)统计的幸存者偏见是指采集的数据刚好和要分析的目标背道而驰。

A.会

B.不会

A.侵犯

B.不侵犯

A.不侵犯

B.侵犯

A.教师个人隐私

B.学生个人隐私

C.俩者都有

D.不侵犯个人隐私

A.名义型变量

B.有序型变量

C.区间标称型变量

D.比率型变量

2.(单选题)下面哪个不属于数据的属性类型

A.标称

B.序数

C.区间

D.相异

A.计数属性

B.离散属性

C.非对称的二元属性

D.对称属性

A.连续性数值型

B.离散性数值型

C.序数型

D.标称型

A.9

B.10

C.19

D.1024

7.(单选题)关于基本数据的元数据是指

C.基本元数据包括日志文件和简历执行处理的时序调度信息

D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息

8.(单选题)下面不属于数据集的一般特性的有:_______

A.连续性

B.维度

C.稀疏性

D.分辨率

A.不一致

B.重复

C.不完整

D.含噪声

E.纬度高

10.(多选题)下面属于数据集的一般特性的有

E.相异性

1.(单选题)一所大学内的各年级人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:

A.一年级

B.二年级

C.三年级

D.四年级

2.(单选题)关于正态分布,下列说法错误的是:

A.正态分布具有集中性和对称性

B.正态分布的均值和方差能够决定正态分布的位置和形态

C.正态分布的偏度为0,峰度为1

D.标准正态分布的均值为0,方差为1

3.(单选题)考虑值集{1,2,3,4,5,90},其40%截尾均值是_______

A.2

B.3

C.3.5

D.5

C.4

A.10

B.9

C.8

D.11

A.最大或最小的截尾平均方法

B.均值方法

C.alpha截尾均值法

1.(单选题)数据可视化工作在数据分析与挖掘中的作用:

A.只对数据分析和挖掘的结果进行展示,起到了锦上添花的作用

B.很简单的工作

C.很容易学会

D.贯穿这个数据分析和挖掘的过程

A.等高线图

B.饼图

C.曲面图

D.矢量场图

4.(单选题)如果对某列数据进行帕累托贡献度分析,那么

A.要对数据做升序排序

B.要对数据做降序排序

C.不需要排序

D.必须要进行数据采样

5.(多选题)下面哪些属于可视化高维数据技术

A.矩阵

B.平行坐标系

C.星形坐标

D.散布图

E.Chernoff脸

A.可以

B.不可以

C.不知道

2.(单选题)如果数据有很多列,需要找出重复的列,最优方案是____

B.任两列做散点图观察

C.通过循环比较每个值

D.任两列做差,每个差均为0

A.n×n维

B.n×p维

C.p×p维

D.p×n维

D.无法判断

A.101-81

C.(101-1)/(551-1)-(81-1)/(301-1)

6.(判断题)使用平均绝对偏差比使用标准差更稳健。

A.异常数据

B.真实数据

C.污染数据

D.都对

A.准确性

B.唯一性

C.可靠性

D.完整性

3.(单选题)在数据清洗中,对“脏”数据源需要进行操作处理,不包括以下哪个方面

A.完全清除某些输入字段

B.自动替换掉某些错误数据值

C.对分配和调整的规则进行完备的文档记录

D.补入一些丢失的数据

4.(单选题)在数据清洗中,增量抽取机制不适用于()特点的数据表

A.源表变化数据相对数据总量较小

B.标表需要记录过期信息或者冗余信息

C.业务系统能直接提供增量数据

D.源表变化数据不规律

A.固定值插补

B.中位数插补

C.均值插补

D.随机数插补

A.3

B.4

C.5

D.6

A.元素

B.阈值

C.关键值

D.数组

B.[-1,1]

C.[min,max],min和max为指定值

A.0.8

B.0.445

C.0.778

D.0.7

A.0.917

B.0.0917

C.9.17

D.0.00917

1.(单选题)数据压缩是指在()前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。

A.不丢失有用的信息

B.不丢失所有信息的

C.不丢失真实信息的

D.以上三个都是

B.OLAP是数据立方体的一种常见的简单分析方法.

C.数据立方体的上卷操作等价于维度规约.

D.数据立方体的聚集只是数据规约的一种方式。

D.数据规约技术需要同时考虑降低数据数量和数据维度两个方面。

A.分类

D.隐马尔可夫链

A.第一个

B.第二个

C.第三个

D.第四个

D.等频分箱技术需要知道数据的值域范围和分箱数目。

D.性别也需要进一步概念分层。

1.(单选题)分类通常会把模型数据集拆分成两个部分,其中一个部分用来评估模型好与不好,这个部分叫做()。

A.训练集

B.测试集

C.已知数据

D.未知数据

2.(单选题)在做前期样本规划时,训练集()、验证集()和检验集()样本量分配方案哪个比较适合()

A.训练50%,验证0%,检验50%;

B.训练100%,验证0%,检验0%

C.训练0%,验证100%,检验0%;

D.训练60%,验证30%,检验10%

3.(单选题)点击率的预测是一个数据比例不平衡问题(比如训练集中样本呈阴性的比例为99%,阳性的比例是1%),如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是:()

A.模型的准确率非常高,我们不需要进一步探索;

B.模型不好,我们应建一个更好的模型;

C.无法评价模型;

D.以上都不正确

4.(单选题)银行根据客户以往贷款记录情况,将客户分为低风险客户和高风险客户。对一个新来的申请者,银行计算风险,决定接受或拒绝该申请。这属于()算法的应用

A.聚类

B.分类

C.关联

D.回归

D.样本量是否超过50.

1.(单选题)以下哪些算法是分类算法_______

A.DBSCAN

B.C4.5

C.K-Mean

D.EM

2.(单选题)在ID3算法中信息增益是指()。

A.信息的溢出程度

B.信息的增加效益

C.熵增加的程度最大

D.熵减少的程度最大

3.(单选题)在进行决策树算法的时候,下面的结论不正确的是()

A.决策树算法针对属性进行计算,所以一定会终止,所以不用考虑决策树的终止性问题;

B.一个数据集的决策树可能不唯一;

C.决策树进行属性分裂的时候有可能某个分支不需要用上所有类别属性进行规则式的建立

D.CART算法也是决策树算法。

C.属性值可以是序数型变量

D.属性值可以是离散取值的整数。

D.样本的类别标签。

C.关联规则挖掘

A.BernoulliNB

B.GaussianNB

C.MultinomialNB

3.(多选题)

1.(单选题)以下哪些算法是基于规则的分类器

A.C4.5

B.KNN

C.NaiveBayes

D.ANN

2.(单选题)下面关于ID3算法中说法错误的是

A.ID3算法要求特征必须离散化

D.ID3算法是一个二叉树模型

A.信息增益

B.信息增益率

C.Gini指标

D.A和B

6.(判断题)关于决策树节点划分根据之一是信息增益越大越好

1.(单选题)

(b)描述有多少比例的小偷给警察抓了的标准。

2.(单选题)

a.多重变量用于同一个模型b.模型的可解释性c.特征的信息d.交叉验证

5.(多选题)哪些选项对K折交叉验证的描述是正确的

5.(简答题)

importpandasaspd

importxgboostasxgb

print(Y_pred)

[29.4957733.61253]

1.(单选题)以下属于关联分析的是

3.(单选题)置信度()是衡量兴趣度度量()的指标

5.(单选题)()表示在先决条件X发生的情况下,由关联规则“X→Y”推出Y的概率。

6.(单选题)小王养了一头猪和一只鸡,一天,猪问鸡:“主人去哪里了”,猪含泪答道:“去买粉条了”。鸡很同情的说:“老弟,来世再见。”以上对话体现了数据分析方法中的()。

7.(判断题)支持度是衡量关联规则重要性的一个指标

8.(判断题)可信度是对关联规则的准确度的衡量。

9.(判断题)给定关联规则A→B,意味着:若A发生,B也会发生。

10.(判断题)关联规则可以用枚举的方法产生。

11.(判断题)不满足给定评价度量的关联规则是无趣的。

1.(单选题)非频繁模式()

2.(单选题)对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之]

3.(单选题)若{A,B}是极大频繁项集,则下列一定不属于频繁项集的是

4.(单选题)若{A,B}是极大频繁项集,则下列一定属于频繁项集的是

5.(单选题)若{A,B}是极大频繁项集,则下列可能属于频繁项集的是

6.(单选题)考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}。假定数据集中只有5个项,采用合并策略,由候选产生过程得到频繁4-项集不包含________

从频繁项集的性质可知。

8.(单选题)满足最小支持度阈值的所有项集称为()。

9.(多选题)

10.(判断题)频繁闭项集可用来无损还原频繁项集。

11.(判断题)对于项集来说,置信度没有意义。

1.(单选题)Apriori算法的加速过程依赖于以下哪个策略()

2.(单选题)以下哪个会降低Apriori算法的挖掘效率

4.(单选题)Apriori算法使用哪个指标筛选项目集()()

5.(单选题)以下选项中,哪个有可能是Apriori算法所挖掘出来的结果()

6.(单选题)

7.(单选题)

8.(单选题)

9.(判断题)Apriori算法是一种典型的关联规则挖掘算法。

10.(判断题)Apriori算法产生的关联规则总是确定的。

3.(单选题)

4.(判断题)啤酒和尿布的故事是聚类分析的典型案例。

5.(判断题)高置信度的规则不一定是合理的。

1.(单选题)如果不考虑外部信息,聚类结构的有良性度量应当采用()

2.(单选题)分类算法就是按照某种标准给对象贴标签,再根据标签来归类,以下属于分类算法的是()。

3.(单选题)无监督学习中应用最广的是()。

1.(单选题)聚类方法中,以下哪种方法需要指定聚类个数。()

6.(判断题)K均值可以很好得处理不同密度得数据

DBSCAN算法的过程是()

①删除噪声点。

②每组连通的核心点形成一个簇。

③将所有点标记为核心点、边界点和噪声点。

④将每个边界点指派到一个与之关联的核心点的簇中。

⑤为距离在Eps之内的所有核心点之间赋予一条边。

3.(单选题)在基本DBSCAN的参数选择方法中,点到它的K个最近邻的距离中的K选作为哪一个参数()

4.(单选题)当采用K-距离的方法选择DBSCAN的Eps和MinPts参数时,如果设置的K的值太大,则小簇(尺寸小于K的簇)可能会被标记为()

5.(单选题)DBSCAN之所以难以有效处理高维数据,其主要原因是()

6.(单选题)关于K均值和DBSCAN的比较,以下说法不正确的是()

7.(单选题)对于DBSCAN,参数Eps固定,当MinPts取值较大时,会导致()

9.(判断题)K均值可以发现不是明显分离的簇,即便簇有重叠,也可以发现,但是DBSCAN会合并有重叠的簇。

10.(判断题)DBSCAN的参数Eps固定时,MinPts的值越大越好。

11.(判断题)DBSCAN会把所有点划分到各自的簇中

12.(判断题)在所有核心点的Eps半径邻域内的点数都不少于MinPts阈值。

13.(判断题)DBSCAN能够很好的区分原始数据的形状,但受限于用户指定的参数。

14.(判断题)在做聚类时,DBSCAN会删掉它认为是噪声点的数据点。

16.(判断题)DBSCAN相对抗噪声,并且能够处理任意形状与大小的簇。

维修费用12.38

截距0.08

系数1.23

6.(简答题)

1.(单选题)决策树分类方法中,CART算法使用的分裂准则是:

4.(判断题)CART分类回归树是一种典型的二叉决策树,可以做分类或者回归。

5.(判断题)CART决策树分为分类树和回归树,当因变量Y为离散变量时为分类树,当因变量Y为连续变量时为回归树

THE END
1.统治世界的10大算法,你知道几个?腾讯云开发者社区一篇有趣的文章《统治世界的十大算法》中,作者George Dvorsky试图解释算法之于当今世界的重要性,以及哪些算法对人类文明最为重要。 1 排序算法 所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。排序算法,就是如何使得记录按照要求排列的方法。排序算法在很多领域得到相当地重视https://cloud.tencent.com/developer/article/2116002
2.数据结构与算法计算机领域最经典的十大算法本文介绍了计算机科学中最经典的十大算法,包括快速排序、汉密尔顿回路算法、迪杰斯特拉算法、最小生成树算法等,并提供了使用Golang语言实现的示例代码。这些算法在解决排序、路径查找、图论问题等方面具有广泛应用。 摘要由CSDN通过智能技术生成 目录 计算机领域最经典的十大算法 https://blog.csdn.net/universsky2015/article/details/129679032
3.图像识别算法有哪些图像识别十大经典算法图像识别是计算机视觉领域中的一个重要分支,它旨在让计算机能够理解和识别图像。下面将介绍一些常见的图像识别算法。 1.图像分类 图像分类是指将一张图像分类到不同的类别中。常用的图像分类算法包括卷积神经网络(CNN)、支持向量机(SVM)等。 2.目标检测 https://www.eefocus.com/e/518039.html
4.当今世界最为经典的十大算法封碎当今世界,已经被发现或创造的经典算法数不胜数。如果,一定要投票选出你最看重的十大算法,你会作何选择列? 曾有人在StackExchange上发起了提问,向网友们征集当今世界最为经典的十大算法。众人在一大堆入围算法中进行投票,最终得出了票数最高的以下十个算法。 https://www.iteye.com/blog/974039
5.数据挖掘的十大经典算法,总算是讲清楚了,想提升自己的赶快收藏一个优秀的数据分析师,除了要掌握基本的统计学、数据分析思维、数据分析工具之外,还需要掌握基本的数据挖掘思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距所在。 国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 评选出了数据挖掘领域的十大经典算法:C4.5, k-https://zhidao.baidu.com/question/633342225544566484.html
6.深入了解一下十大经典机器学习算法之一:PCA算法PCA(主成分分析)是十大经典机器学习算法之一。PCA是Pearson在1901年提出的,后来由Hotelling在1933年加以发展提出的一种多变量的统计方法。 对于维数比较多的数据,首先需要做的事就是在尽量保证数据本质的前提下将数据中的维数降低。降维是一种数据集预处理技术,往往在数据应用在其他算法之前使用,它可以去除掉数据的一些https://m.elecfans.com/article/594908.html
7.十大经典预测算法理想股票技术论坛探讨股票领域中最具影响力的十大经典预测算法,帮助投资者了解如何利用数据科学模型预测市场走势,提高投资决策的准确性和效率。 ,理想股票技术论坛https://www.55188.com/tag-7329966.html
8.十大经典排序算法动画演示AlgorithmMan,一套免费的算法演示神器,附带GitHub开源下载地址。 1、Sorting Algorithms Animations 2、算法的分类 3、时间复杂度 算法 1、冒泡排序 它重复地访问要排序的元素列,一次比较两个相邻的元素,如果他们的顺序不符合预期就把他们交换过来。访问元素的工作是重复地进行直到没有相邻元素需要交换时为止。 https://www.jianshu.com/p/e9cfc2cc869c
9.www.jxmzxx.com{$woaini}>www.jxmzxx.com{$woaini}为了成为内马尔的正牌女友,布鲁娜签署了多么奇葩的协议?虽然布鲁娜比安卡迪是内马尔的女朋友,但她只有内马尔的部分使用权,原因是他们之间签署了一份十分奇葩的恋爱协议,协议允许内马尔和其他女人调情甚至发生关系,但对内马尔有三条约束,分别是不能找应召女郎,不能不采取安全措施,不能亲吻嘴唇。 http://www.jxmzxx.com/appnews/668449.html
10.量子芯片再成焦点该组合使研究人员能够构建将量子计算与先进的经典计算相结合的超强应用,进而推动校准、控制、量子纠错和混合算法的发展。 Quantinuum推出系统模型H2 2023年5月,Quantinuum宣布推出量子计算系统H2,并成功创造和操控非阿贝尔任意子(non-Abeliananyon),迈出了构建容错量子计算机的关键一步。 https://new.qq.com/rain/a/20240502A02YUL00
11.十大经典机器学习算法之一AprioriApriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法,也是十大经典机器学习算法之一。 Agrawal和Srikant两位博士在1994年提出了Apriori算法,主要用于做快速的关联规则分析。 A priori在拉丁语中指“来自以前”。当定义问题时,通常会使用先验知识或者假设,这被称作“一个先验”(a priori)。Apriori算法正是基于这样https://m.hqew.com/tech/fangan_2016440
12.2024年最新加密货币的行话术语大全币种百科区块链流行算法之一。该算法效率较高,对计算机性能要求较低,但容易产生双花问题。 AI安全(AI security ) Gartner确定的2020年十大战略技术趋势之一。 暗网 暗网不能够被常规的网络协议访问,只可使用非常规协议和端口以及可信节点进行连接的私有网络。 API 在数字货币交易中,API能够让用户和应用程序或服务数据进行即时沟通,从而https://www.jb51.net/blockchain/931845.html
13.闫妮十大经典电视剧闫妮十大经典电视剧,榜单主要依据AI大数据算法关于剧集的“综合评分、奖项荣誉、收视成绩、网络关注指数、主题契合程度、网络十大排行情况”等因素综合判断得分系统自动生成而成,更新截止至2024年12月4日。本网站尊重并维护影视版权,坚决抵制侵犯他人原创版权的行为;本网站不提供试看、下载资源,只盘点相关名单,仅供娱乐参考https://www.maigoo.com/top/412669.html
14.学习笔记数据预处理与数据挖掘十大经典算法经管学习笔记数据预处理与数据挖掘十大经典算法 https://bbs.pinggu.org/thread-13203069-1-1.html
15.代码随想录》LeetCode刷题攻略:200道经典题目刷题顺序,共如果是已工作,备注:姓名-城市-岗位-组队刷题。如果学生,备注:姓名-学校-年级-组队刷题。备注没有自我介绍不通过哦 公众号 更多精彩文章持续更新,微信搜索:「代码随想录」第一时间围观,关注后回复:666,可以获得我的所有算法专题原创PDF。 「代码随想录」每天准时为你推送一篇经典面试题目,帮你梳理算法知识体系,轻松https://github.com/Coding4Real/leetcode-master
16.www.juntengtech.com/newxr96529145/202410美丽的水蜜桃2最经典的一句 娇妻的乳环婬奴生活 萌白酱一区二区三区四区免费 人体裸体东北女人毛多水多 国产又黄又爽视频 强要(H) 黄片十大软 欧美一级特黄AAAAAAAA 青青草网站在线观看 嘛豆三级片 蜜桃久久99国产91麻豆 麻豆蜜桃91久久 a一级爽 A毛一级 一级片黄色大奶 男生鸡鸡插进女生阴道https://www.juntengtech.com/newxr96529145/2024-10-27/61274023.htm
17.十大经典排序算法(一)51CTO博客在上一篇文章《Javascript-数组乱序》中我们提到不同浏览器采用不同的排序算法来实现Array.prototype.sort方法,今天我们一起来学习常见的几种排序算法。 我们常说的十大经典排序算法有:冒泡排序、选择排序、插入排序、希尔排序、归并排序、快速排序、堆排序、计数排序、桶排序、基数排序。 https://blog.51cto.com/u_15064638/2601682