数据挖掘(datamining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。该定义包含以下几层含义:
①数据源必须是真实的、大量的、有噪声的;【A选项正确】
②发现的是用户感兴趣的知识;【B选项正确】
③发现的知识是可接受、可理解、可运用的;【D选项正确】
④并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。【E选项正确】
因此,本题正确答案为选项ABDE。
【B选项正确】数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。
因此,本题正确答案为选项B。
本题考查数据科学。
“数据科学”这个词已有60年历史,最早由丹麦的计算机科学领域先驱彼得·诺尔提出。
因此,本题正确答案为选项D。
监督学习中有两大类典型任务:分类和回归。
分类是通过特征变量确定观测单位所属的类别,因变量是分类变量。常用的分类方法有逻辑斯特回归、决策树、随机森林和支持向量机等【选项BCE正确】。
回归是通过特征变量确定观测单位因变量的取值,因变量是定量变量。常用的回归方法有线性回归、非线性回归和分位数回归等。
文本归类属于常用的聚类方法之一,因子分析属于常用的降维方法之一【选项AD错误】。
因此,本题正确答案为选项BCE。
无监督学习有两大类典型任务:聚类和降维【选项AC正确】。
监督学习有两大类典型任务:分类和回归【选项BD错误】。
半监督分类属于半监督学习【选项E错误】。
因此,本题正确答案为选项AC。
常用的降维方法包括主成分分析法、因子分析法等【选项CE正确】。
THE END