数据挖掘金山办公2020校招大数据和机器学习算法笔试题

丰富的线上&线下活动,深入探索云世界

做任务,得社区积分和周边

最真实的开发者用云体验

让每位学生受益于普惠算力

让创作激发创新

资深技术专家手把手带教

遇见技术追梦人

技术交流,直击现场

海量开发者使用工具、手册,免费下载

极速、全面、稳定、安全的开源镜像

开发手册、白皮书、案例集等实战精华

为开发者定制的Chrome浏览器插件

1、执行如下程序代码后,C的值是(C)inta=0,c=0;do{–c;a=a-1;}while(a>0);01-1死循环

A、6423517

B、6452173

C、3246157

D、3217456

3、设指针变量p指向双向链表中结点A,指针变量s指向被插入的结点X,则在结点A的后面插入结点X的操作序列为(D)。p->right=s;s->left=p;p->right->left=s;s->right=p->right;

s->left=p;s->right=p->right;p->right=s;p->right->left=s;

p->right=s;p->right->left=s;s->left=p;s->right=p->right;

s->left=p;s->right=p->right;p->right->left=s;p->right=s;

前驱后继,前驱后继

4、在一条线段上任取两点,求能构成三角形的概率是多少:(B)A、1/8

B、1/4

C、1/3

D、1/2

解析:假设总线长为10,第一段线长x,第二段线长y,则第三段线长10-x-y。

由三角形性质可知:x+y>10-x-y,即x+y>5;x+(10-x-y)>y,即y<5;同理x<5;

接下来用图解法,画出方程相应的线就可以求出,x,y可取值的范围的面积为25,所以概率为25/100=1/4

5、以下正则表达式,能用来提取下面文字中的所有日期的是(D)

“Thenextmeetupondatasciencewillbeheldon2017-09-21,previouslyithappenedon31/03,2016”

A、\d{4}-\d{2}-\d{2}

B、(19|20)\d{2}-(0[1-9]|1[0-2])-[0-2][1-9]

C、(19|20)\d{2}-(0[1-9]|1[0-2])-([0-2][1-9]|3[0-1])

D、都不能

解析:

(1)限定符(Quantifier)

a*:a出现0次或多次

a+:a出现1次或多次

a:a出现0次或1次

a{6}:a出现6次

a{2,6}:a出现2-6次

a{2,}:a出现两次以上

(2)或运算符(OROperator)(a|b):匹配a或者b

(ab)|(cd):匹配ab或者cd

(3)字符类(CharacterClasses)

[abc]:匹配a或者b或者c

[a-c]:同上

[a-fA-F0-9]:匹配小写+大写英文字符以及数字

[^0-9]:匹配非数字字符(4)元字符(Meta-characters)

\d:匹配数字字符

\D:匹配非数字字符

\w:匹配单词字符(英文、数字、下划线)

\W:匹配非单词字符

\s:匹配空白符(包含换行符、Tab)

\S:匹配非空白字符

.:匹配任意字符(换行符除外)

\bword\b:\b标注字符的边界(全字匹配)

^:匹配行首

$:匹配行尾

(5)贪婪/懒惰匹配(Greedy/LazyMatch)

<.+>:默认贪婪匹配“任意字符”

<.+>:懒惰匹配“任意字符”

B、C是能匹配2017-09-21,不能匹配31/03,2016

6、观察者模式定义了一种()的依赖关系。AA、一对多

B、一对一

C、多对多

D、都有可能

7、N-Grams指的是N个单词的组合,下面的句子可以产生的Bi-Gram(N=2)是(C)

“KingsoftCorporationisafamoussoftwarecompanyintheworld.”

A、7B、8C、9D、10

8、堆可以用作(A)

A、优先队列B、栈C、降序数组D、普通数组

9、列哪个HTTP请求方法的请求体为空(C)A、POSTB、SENDC、GETD、PUT

10、下列伪代码段说明了OOP的哪个特征?(D)

classStudent{intmarks;};classTopper:publicStudent{intage;Topper(intage){this.age=age;}};A、继承

B、多态

C、继承与多态

D、封装和继承

11、Attention机制属于以下哪种网络结构(D)A、SeqtoSeq

B、SeqtoVector

C、VectortoSeq

D、Encoder-Decoder

12、one-hot和word2vec的相比,以下哪项是正确的(B)

A、one-hot向量稀疏,内存占用比Word2vec小

B、word2vec的向量考虑了词的上下文语义

C、one-hot可以用来判断相似词

D、Word2vec输出的向量维度与词典大小有直接关系

解析:A、D错:one-hot编码法,是按照词典来进行编码的,词向量维度取决于就是词典数量。向量稀疏,内存占用会比Word2vec大,Word2vec可以控制输出维度。

B对:word2vec是基于分布假设,认为上下文环境相同的词语其语义也相似.,主要的方法有两种:CBOW和skip-gram.Word2vec能将one-hotEncoder转化为低维度的连续值,也就是稠密向量,具有相似语义的单词的向量之间距离会比较小,部分词语之间的关系能够用向量的运算表示.C错:word2vec可以用来判断相似词,用Word2Vec得到词向量后,一般用余弦相似度来比较两个词的相似程度

13、NaveBayes(朴素贝叶斯)是一种特殊的Bayes分类器,特征变量是X,类别标签是Y,它的一个假定是(B)

A、各类别的先验概率P(Y)是相等的

B、特征变量X的各个维度是类别条件独立随机变量

C、以0为均值,sqr(2)/2为标准差的正态分布

D、P(X|Y)是高斯分布

解析:朴素贝叶斯的条件就是每个变量相互独立

14、在LogisticRegression中,如果同时加入L1和L2范数,不会产生什么效果(D)A、可以做特征选择,并在一定程度上防止过拟合

B、能解决维度灾难问题

C、能加快计算速度

D、可以获得更准确的结果

解析:L0范数计算非零参数个数,无法防止过拟合

L1范数进行特征选择,使得参数矩阵稀疏,一定程度上防止过拟合

L2范数可以防止过拟合

15、有一个15×15的图像,使用一个3×3的filter进行卷积(步幅为2)之后,得到的图像大小为(A)A、8*8

B、9*9

C、10*10

D、11*11

16、下列哪个不属于有监督学习(C)A、逻辑回归B、SVMC、K-meansD、XGBoost

18、LogisticLoss是()

交叉熵$$L=-[ylog\hat{y}+(1-y)log(1-\hat{y})]$$

19、以下哪种模型可以被用来计算文档相似度是(D)A、练一个word2vec模型学习文档中的上下文关系

B、训练一个词袋模型学习文档中的词共现关系

C、建立文档-词矩阵,用每个文档的cos距离

D、选项所有

解析:七种方法计算文本相似度方法余弦相似度余弦(余弦函数),三角函数的一种。…简单共有词通过计算两篇文档共有的词的总字符数除以最长文档字符数来评估他们的相似度。…编辑距离…SimHash+汉明距离…Jaccard相似性系数…欧几里得距离…曼哈顿距离

20、甲、乙、丙、丁4人分别掌握英、法、德、日四种语言中的两种,其中有3人会说英语,但没有一种语言是4人都会的,并且知道:

(1)没有人既会日语又会法语;

(2)甲会日语,而乙不会,但他们可以用另一种语言交谈;

(3)丙不会德语,甲和丁交谈时,需要丙为他们做翻译;

(4)乙、丙、丁不会同一种语言。

根据上述条件,以下哪项是四人分别会的两种语言?(A)

A、甲会英语和日语,乙会英语和德语,丙会英语和法语,丁会法语和德语。

B、甲会英语和日语,乙会英语和法语,丙会英语和德语,丁会法语和德语。

C、甲会英语和德语,乙会英语和日语,丙会英语和法语,丁会法语和德语。

D、甲会英语和德语,乙会英语和法语,丙会法语和德语,丁会英语和日语。

解析:根据不会的某种语言进行排除法做。

B和D、题目说了丙不会德语

C、题目说了,乙不会日语

21、

下列可以用来提升短文本分类模型的准确率的特征是(ABCD)A、词频

B、文本的向量表示

C、词性标注

D、语法依赖关系

22、如果神经网络有高的偏差(bias),下列哪些方法可以尝试(A、C)A、增加隐层神经元数量

B、增加测试(test)数据

C、增加网络层数

D、增加正则项

E、增加训练(training)数据

解析:网络层有较高的偏差(bias),模型拟合效果不佳,模型结构不够复杂,可以加深网络层,增加隐层神经元的个数。

23、下列关于栈的叙述正确的是(A、D)

A、栈是线性结构

B、栈是一种树状结构

C、栈具有先进先出的特征

D、栈有后进先出的特征

24、有关模板方法模式,以下叙述正确的是()ACDA、允许定义不同的子过程,同时维护基本过程的一致性。

B、将定义和操作相互分离。

C、创建一个抽象类,用抽象方法实现一个过程,这些抽象方法必须在子类中实现。

D、实现抽象方法的子类的步骤可以独立变化,并且这些步骤可以采用Strategy模式来实现。

解析:模板方法是将不变算法部分封装到父类中,将可变需要扩展部分封装到子类中实现,而不是将算法与操作相分离。

25、WhichofthefollowingstatementsarecorrectwithregardstoTopicModeling()

牛客官方正确答案:CD,我觉得官方答案不正确,我的答案:ABDA、Itisasupervisedlearningtechnique

B、LDA(LinearDiscriminantAnalysis)canbeusedtoperformtopicmodeling

C、Selectionofnumberoftopicsinamodeldependsonthesizeofdata

D、Numberoftopictermsarenotdirectlyproportionaltosizeofthedata

解析:关于主题模型正确的是:

它是一种有监督学习;

LDA可用于主题建模;

模型中主题数量的选择取决于数据的大小;

主题词的数量与数据的大小不成正比。

解释:LDA是一种无监督的主题模型。

模型的主题数量的选择不取决于数量的大小,取决于数据中主题类别;

主题词的数量类似于关键词,与数据大小无关。

26、装饰器模式和代理模式有哪些相同点和不同点,并分别举例说明

修饰器模式:动态地给一个对象添加一些额外的职责,同时又不改变其结构,就增加功能来说装饰模式比生成子类更为灵活。

代理模模式:为其他对象提供一种代理以控制对这个对象的访问。

(1)相同点

两种从设计模式分类来看都属于结构型,因为两者均使用了组合关系。其次两者都能实现对对象方法进行增强处理的效果。

(2)不同点

代理模式,注重对对象某一功能的流程把控和辅助。它可以控制对象做某些事,重心是为了借用对象的功能完成某一流程,而非对象功能如何。

装饰模式,注重对对象功能的扩展,它不关心外界如何调用,只注重对对象功能的加强,装饰后还是对象本身。

举个例子说明两者不同之处,代理和装饰其实从另一个角度更容易去理解两个模式的区别:代理更多的是强调对对象的访问控制,比如说,访问A对象的查询功能时,访问B对象的更新功能时,访问C对象的删除功能时,都需要判断对象是否登陆,那么我需要将判断用户是否登陆的功能抽提出来,并对A对象、B对象和C对象进行代理,使访问它们时都需要去判断用户是否登陆,简单地说就是将某个控制访问权限应用到多个对象上;而装饰器更多的强调给对象加强功能,比如说要给只会唱歌的A对象添加跳舞功能,添加说唱功能等,简单地说就是将多个功能附加在一个对象上。

(1)数据预处理,包括去除特殊字符,大小写统一

(2)利用分词工具进行分词,并采用word2vec编码为词向量

(3)利用二分类模型,TextCNN,Fasttext,等文本分类模型

(4)评价指标采用混淆矩阵、准确率、召回率、ROC、AUC等

从算法角度出发,通常的方法包括了:

29、给定一个长度为n的数组a[0],a[1]…a[n-1]和一个数字x,在数组中查找两个数a和b(可以是相同的值,但是不可以是相同位置的数字),使得它们的和与输入的数字差的绝对值最小。

THE END
1.数据挖掘类文章属于什么类型mob64ca12e83232的技术博客数据挖掘类文章属于什么类型 数据挖掘是一种从大量数据中提取隐含的、有用信息和知识的过程。它涉及统计学、机器学习、数据库技术等多门学科,因此数据挖掘类文章通常属于数据分析、机器学习和统计学等类别。本文将介绍数据挖掘的基本概念,并结合具体的代码示例,展示如何使用Python进行简单的数据挖掘任务。https://blog.51cto.com/u_16213397/12827058
2.数据挖掘基础知识解析:关联规则发现与分类算法评价标准详解1. 一家超市研究了销售记录数据,发现购买啤酒的人很可能也会购买尿布。这属于什么类型的数据挖掘问题? (一个) A.关联规则发现 B. 聚类 三、分类 D.自然语言处理 2. 哪两个分类算法的评价标准对应于以下两个描述? (一个) (a) 警察抓小偷,描述被警察抓到的人有多少是小偷的标准。 http://www.yl101.com/detail/id/87990.html
3.如何用通俗易懂地解释什么是数据挖掘举例子说明你对数据挖掘的理解如何用通俗易懂地解释什么是数据挖掘 通常我们把信息转化为价值,要经历信息、数据、知识、价值四个层面,数据挖掘就是中间的重要环节,是从数据中发现知识的过程。 举个例子来说明。(例子仅供解释,不包含其他意思,Σ( °△°|||)︴) 傍晚你一个人从火车站出来,看到路边有一个漂亮妹子,这个妹子朝你抛了一个媚眼https://blog.csdn.net/DataCastle/article/details/78132088
4.简述bi理论的基本要点并举例说明?一、简述bi理论的基本要点并举例说明? BI(Business Intelligence) 是一种运用了数据仓库,在线分析和数据挖掘等技术来处理和分析数据的崭新技术,目的是为企业决策者提供决策支持。功能 BI 是一个工厂; BI 的原材料是海量的数据; BI 的产品是由数据加工而来的信息和知识;BI 将这些产品推送给企业决策者;企业决策者利https://www.lnky.net/gthq/65034.html
5.数据挖掘的应用领域,并举例说明数据挖掘的应用领域,并举例说明 数据挖掘(Data Mining)是一种从大量数据中提取出有意义的信息和模式的技术。它结合了数据库、统计学、机器学习和人工智能等领域的理论和方法,通过高效的算法和工具,对大数据进行分析和挖掘,从而揭示数据中隐藏的规律、关联和趋势,支持决策和预测。https://www.elecfans.com/d/2395155.html
6.与“五彩缤纷”在意思有什么不同?请解释并举例说明。6. 举例说明什么是关系模型,什么是关系、属性、元组、关键字、关系模式。 7. 有哪些关系运算?举例说明什么是投影,选择,连接? 8. 简述SQL语言有什么作用? 9. 什么是大数据?举例说明大数据的价值何在? 10. 什么是数据挖掘? 点击查看答案 第6题 4、1-4、请解释什么叫一次能源?什么叫二次能源?并请举例说明?https://www.shangxueba.cn/wangke/ICJAHM45.html
7.上海市高等教育自学考试连锁经营管理专业(专科)(630604)商业2、简单运用:四象限评价法(波士顿矩阵法)把商品分为四类,分别对这四类商品举例并加以说明归类理由。 第三章 品类管理 一、学习目的和要求 通过本章学习要掌握品类与品类管理的基本概念,了解品类管理执行机构,掌握品类市场分析方法和品类结构分析方法,了解品类模板的建立,掌握品类的实施推广。 https://www.shmeea.edu.cn/page/04400/20190517/12734.html
8.人工智能经典习题集及各章总结(期末考试必备)江阴雨辰互联5、 人工智能有哪些应用领域或课题?试举例说明 难题求解、自动规划、调度与配置、机器定理证明、自动程序设计、机器翻译、智能控制、智能管理、智能决策、智能通信、智能仿真、智能CAD、智能制造、智能CAI、智能人机接口、模式识别、数据挖掘与数据库中的知识发现、计算机辅助创新、计算机文艺创作、机器博弈、智能机器人。 https://www.yc00.com/xiaochengxu/1690506190a360936.html
9.算法工程师机器学习面试题总结(2)腾讯云开发者社区需要注意的是,离散化也可能带来一些问题,比如可能损失一部分信息,或者引入过多的离散变量导致模型复杂度增加。因此,在使用离散化来提升逻辑回归效果时,需要综合考虑问题的特点、数据的分布以及业务需求,并进行实验验证。 类别不平衡问题你是如何处理的?什么是过采样,什么是欠采样?举例说明 https://cloud.tencent.com/developer/article/2322940
10.数据挖掘论文【摘要】由于我国的信息技术迅速发展,传统档案管理的技术已经不能满足现代的信息需求,数据挖掘技术的应用为档案管理工作效率的提升带来便利。本文通过说明数据挖掘技术的有关内容,阐明数据挖掘技术的相关知识,并对数据挖掘技术在档案管理工作中的实际运用来进行举例分析。 https://www.unjs.com/lunwen/f/20220924130749_5650839.html
11.举例说明银行风控中常用的技术手段大数据风控模型是银行风控中最为核心的技术手段之一。它基于海量数据,通过数据挖掘、机器学习等技术手段,构建出针对各类风险的预测模型,为银行提供风险识别、评估、监控和预警等全方位的风险管理服务。 以信贷业务为例,银行可以通过收集客户的个人信息、征信数据、交易记录等多维度数据,构建出信贷风险评估模型。该模型能够https://www.meipian.cn/53kn8560
12.数据挖掘概念imba数据挖掘 什么是数据挖掘 数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。 并https://www.cnblogs.com/xuasmi/articles/1295768.html
13.浙江传媒学院《跨媒体数据可视化》20223、(本题5分)描述数据挖掘中的关联分析和序列分析的区别,举例说明它们在零售行业中的应用,并解释如何从分析结果中获取有价值的信息。4、(本题5分)解释什么是迁移学习在数据分析中的应用,说明其优势和适用场景,并举例分析。三、论述题(本大题共5个小题,共25分)1、(本题5分)在电信行业的套餐设计中,如何借助https://www.renrendoc.com/paper/368147258.html
14.(集合)物流供应链管理论文15篇改良传统的数据挖掘模式, 以电商为基本的营销平台和销售渠道, 从供应链的角度出发, 为客户提供最原始的数据和信息需求。第二, 利用天猫等强大的数据平台控制住商业流量。第三, 利用菜鸟数据来整合整个物流和快递行业, 在全国各地的核心城市进行圈地计划, 从而建立多个供应物流站, 为偏远地区提供基本的优质服务。第四https://www.yjbys.com/biyelunwen/fanwen/jiaotongwuliu/735283.html
15.数据挖掘的基本概念和工作流程金融IT那些事儿大数据分析和挖掘是数字经济时代的重要技能。今天我们来学习一下数据挖掘,介绍一些基本概念,并以CRISP-DM方法为例着重说明数据挖掘的工作流程。 01 数据挖掘对于数据业务化意义重大 什么叫数字化?一切业务数据化,一切数据业务化。数据业务化绝不是数据的简单展现,而是要将数据中的价值提炼出来,并在实际业务中应用,支持https://www.shangyexinzhi.com/article/4052696.html