最近在准备数据分析岗位的笔试,整理了牛客网上的一些试题与答案方便查看。
1.想要了解上海市中学生的身高,从中抽取了1000个样本,这项调查中的样本是
**A.上海市全部中学生B.上海市全部中学生的身高C.从中抽取的1000名中学生D.从中抽取的1000名中学生的身高**
正确答案:D
举一反三对应《小红书2019年校园招聘数据分析岗位在线笔试第二批》的第1题,考察知识点「抽样」。
2.偏态分布一般用以下哪个指标描述集中趋势
**A.标准差B.平均值C.中值D.方差**
正确答案:C
「题目解析」正态分布用「期望」描述集中趋势;正态分布用「标准差」描述离散程度;偏态分布用「中值median」描述集中趋势。
举一反三《小红书2019年校园招聘数据分析岗位在线笔试第二批》第2题,考察偏态分布;《小红书2019年校园招聘数据分析岗位在线笔试第二批》第5题,考察正态分布的集中趋势;
3.在以下不同的场景中,使用的分析方法不正确的有
**A.根据商家最近一年的经营及服务数据,用聚类算法判断出小红书商家在各自主营类目下所属的商家层级B.用关联规则算法分析出对护肤内容有兴趣的用户,是否对彩根据妆内容感兴趣C.根据用户最近购买的商品信息,用决策树算法识别出用户是男是女D.根据商家近几年的成交数据,用聚类算法拟合用户未来一个月可能的消费金额公式**
「题目解析」D应当用回归分析拟合。
4.用算法拦截可疑笔记,描述拦截的笔记中有多少是真的可疑笔记是
**A.AUCB.ROCC.RecallD.Precision**
分类器的评价
ROC曲线接收者操作特征(receiveroperatingcharacteristic),roc曲线上每个点反映着对同一信号刺激的感受性。横轴:(1-Specificity)纵轴:Sensitivity(正类覆盖率)
Specificity=TN/TotalactualnegativeSensitivity=TP/Totalactualpositive=TP/(TP+FN)
AUCROC曲线与轴围成的面积
RecallRecall即Sensitivity=TP/Totalactualpositive
PrecisionPrecision=TP/Totalpredictedpositive
AccuracyAccuracy=(TP+TN)/Total
F1:Precision和Recall的调和均值2/F1=1/Precision+1/Recall
5.当总体分布未知的情况下,可以采用以下哪种检验方法?
**A.T检验B.方差分析C.F检验D.KS检验**
「题目解析」
t检验:适用小样本,总体标准差未知的正态分布;比较两个平均数的差异是否显著。方差分析(AnalysisofVariance,简称ANOVA):又称“变异数分析”,用于两个及两个以上样本均数差别的显著性检验。F检验:(F-test),最常用的别名叫做联合假设检验(英语:jointhypothesestest),此外也称方差比率检验、方差齐性检验。它是一种在零假设(nullhypothesis,H0)之下,统计值服从F-分布的检验。ks检验:Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。D=max|f(x)-g(x)|,当实际观测值D>D(n,α)则拒绝H0,否则则接受H0假设。
6.在做数据分析中,如何处理异常或是缺失数据,请选择一下你认为正确的答案
**A.不处理B.删除元组C.数据补齐D.以上全对**
7.下列哪一项不是描述连续变量的
**A.二项分布B.泊松分布C.超几何分布D.正态分布**
正确答案:ABC
常用离散随机变量分布
正确答案:AC
「题目解析」B:r=0,只说明线性无关,不明确非线性关系;D:-1和1可取,所以应该是闭区间。
**9.如下SQL建表语句:createtablegoods_info(goods_idINTprimarykey,goods_namechar(8)notnull,categorychar(20),amountINT),那么可以插入到该表中的数据是?**
**A.(1234,‘口红’,‘化妆品’,5)B.(NULL,‘口红’,化妆品,‘5’)C.(‘1234’,NULL,NULL,‘5’)D.(1234,‘口红’,NULL,NULL)**
正确答案:AD
「题目解析」主键不能为空,故排除B;根据代码,goods_name不能为空,故排除C。
10.已知一个家庭有两个小孩,且已知家中至少有一个男孩,则家中至少有一个女孩的概率是(填分数)
正确答案:2/3
条件概率
「题目解析」一个家庭中有两个小孩只有4种可能:{(男,男),(男,女),(女,男),(女,女)}。
设事件A为“至少有一个男孩”,事件B为“至少有一个女孩”,则A={(男,女),(男,男),(女,男)},B={(男,女),(女,男),(女,女)},AB={(男,女),(女,男)}
故,P(A)=3/4;P(AB)=2/4
P(B|A)=P(AB)/P(A)=2/3。
11.having、where、groupby语句同时出现在一段sql代码中,那么他们正确的出现的顺序是
正确答案:(1)where(2)groupby(3)having
12.某地区居民以同样多的人民币,2006年比2005年少购买5%的商品,则该地的物价上涨了?%(保留一位小数)
正确答案:5.3
「答案解析」
今年100块钱,买100个鸡蛋,每个1元,明年100块钱买95个鸡蛋,每个100/95元,物价上涨率:(100/95-1)/1
**任务:对过去两周产品的使用人群特点和入口点击率进行描述和可视化作图,说明上两周的现状情况。要求:从整体角度描述提到两个指标的变动情况;将不同入口点击率按照人群特点进行划分,描述不同人群的入口点击偏好、对某个入口点击率的差异。问题1:简述一下拿到这个数据文件后你根据任务所规划的处理步骤(画图or文字描述皆可,文字描述需要写清步骤序号)。问题2:列出你能够使用以及知道了解的软件名称-对应功能名称-用来处理什么内容(功能名称可以是程序包、具体某个包后插件下的function、使用的图的类型名称等),请把答案是属于“掌握”(知道名字,辅以简单查询后可以自己做出来)还是“了解”(听过这个名字,但没有实践应用过)分成两个部分。(举例:掌握:excel-图表-柱状图-作图说明不同年龄群有多少人)**
参考答案:
清洗->(以xx维度拆分->组合->)计算人群特点->统计整体不同特征人群人数,计算总体入口点击率->描述趋势->拆分计算入口点击率->细分对比,描述每个细分人群的特点->挑出重点进行阐述(希望知道候选人拿到任务之后如何开展自己的工作,对工作步骤是否能有自己的思路)举例:能够使用:excel-图表-柱状图-作图说明不同年龄群有多少人;能够使用:R-ggplot2-plot+pie_chart-可视化,说明不同城市的人群占比;知道了解:R-dplyr-数据清洗(希望可以知道候选人在数据分析这个方面技能上是否有积累、过去的水平)
【民间回答参考】:
首先进行数据预处理过程,进行必要的检查,数据重复,缺失值,异常值等问题分析人群特点:可以按照总体特征的分布情况对人群进行分类,总结人群特点,比如按年龄或者城市分档,也可以两者结合起来作为一个人群特点进行分析。入口点击率:对总体入口点击率进行趋势分析;然后拆分计算入口点击率,进行细分对比。可以结合人群特点进行分析,挑出重点进行阐述。比如点击率最高的集中是哪个年龄层的用户,某个年龄层内最高的点击率的操作对象是什么,等等。掌握:excel-图表-柱状图、折线图、甘特图、双层饼图-作图说明用户年龄分层情况和点击率的分布情况掌握:excel-数据透视表-(切片器)-通过数据透视表进行用户年龄分布和入口点击率的分布情况掌握:python-matplotlib-hist-作图说明用户人群特点的年龄、城市分布情况
**14.假设:浦东机场近日因车位紧张导致车流堵塞;为了解决这个问题,领导打算扩建停车场并且让你预估需要添加的车位数量。1、请写出你认为需要的辅助数据2、如果给你题1中你需要的数据,请阐述你如何使用这些数据预估车位数量。**
【民间回答参考】
2.统计平均每辆车停车时长t1
因此,假如我们要求95%的概率不会出现拥堵,则可以让p(k1)=0.95求出k1。则k1-现有车位,就是我们要扩建的数量。