目录第一章P10(1)第二章P34(2)第三章P66(3)第四章P94(8)第七章P176(11)第八章P212(15)第10章P258(17)第11章P291(21)第13章P348(26)第14章P376(30)第一章P10一、思考题1.1什么是统计学?1.2解释描述统计和推断统计。
1.3统计数据可分为哪几种类型?不同类型的数据各有什么特点?1.4解释分类数据、顺序数据和数值型数据的含义。
1.5举例说明总体、样本、参数、统计量、变量这几个概念。
1.6变量可分为哪几类?1.7举例说明离散型变量和连续型变量。
1.8请举出统计应用的几个例子。
1.9请举出应用统计的几个领域。
1.1指出下面变量的类型:(1)年龄(2)性别(3)汽车产量(4)员工对企业某项改革措施的态度(赞成、中立、反对)(5)购买商品时的支付方式(现金、信用卡、支票)(1)数值型变量。
(2)分类变量。
(3)离散型变量。
(4)顺序变量。
(5)分类变量。
1.2某研究部门准备抽取2000个职工家庭推断该城市所有职工家庭的年人均收入。
要求:(1)描述总体和样本。
(2)指出参数和统计量。
(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。
(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。
1.3一家研究机构从IT从业者中随机抽取1000人作为样本进行调查,其中60%的人回答他们的月收入在5000元以上,50%的人回答他们的消费支付方式是用信用卡。
(2)数值型变量。
(3)分类变量。
(4)截面数据。
1.4一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。
回答下列问题:(1)这一研究的总体是什么?(2)“消费者在网上购物的原因”是分类变量、顺序变量还是数值型变量?(3)研究者关心的参数是什么?(4)“消费者每月在网上购物的平均花费是200元”是参数还是统计量?(5)研究者所使用的主要是描述性统计方法还是推断行统计方法?(1)总体是所有在网上购物的消费者的集合。
(3)参数是所有在网上购物者的月平均花费。
(4)参数(5)推断统计方法。
二、练习题1.1指出下面变量的类型:(1)年龄(2)性别(3)汽车产量(4)员工对企业某项改革措施的态度(赞成、中立、反对)(5)购买商品时的支付方式(现金、信用卡、支票)1.2某研究部门准备抽取2000个职工家庭推断该城市所有职工家庭的年人均收入。
回答下列问题:(1)这一研究的总体是什么?(2)“消费者在网上购物的原因”是分类变量、顺序变量还是数值型变量?(3)研究者关心的参数是什么?(4)“消费者每月在网上购物的平均花费是200元”是参数还是统计量?(5)研究者所使用的主要是描述性统计方法还是推断统计方法?第二章P342.1什么是二手资料?使用二手资料需要注意些什么?2.2比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
2.6你认为应当如何控制调查中的回答误差?2.7怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。
1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。
2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样是指抽样时按一定概率以随机原则抽取样本。
每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。
如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。
它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
非概率抽样也适合市场调查中的概念测试。
缺点:成本比较高,对调查过程的质量控制有一定难度。
对于敏感问题,被访者会有压力。
5.请举出(或设计)几个实验数据的例子。
]6.你认为应当如何控制调查中的回答误差?对于理解误差,要注意表述中的措辞,学习一定的心里学知识。
对于有意识误差,调查人员要想法打消被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量避免敏感问7.怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。
对于随机误差,可以通过增加样本容量来控制。
对于系统误差,做好预防,在调查前做好各方面的准备工作,尽量把无回答率降到最低程度。
无回答出现后,分析武回答产生的原因,采取补救措施。
比如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不愿意回答时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高回收率。
第三章P66一、思考题3.1数据的预处理包括哪些内容?3.2分类数据和顺序数据的整理和图示方法各有哪些?3.3数值型数据的分组方法有哪些?简述组距分组的步骤。
3.4直方图与条形图有何区别?3.5绘制线图应注意问题?3.6饼图和环形图的不同?3.7茎叶图与直方图相比有什么优点?他们的应用场合是什么?3.8鉴别图标优劣的准则有哪些?3.9制作统计表应注意哪几个问题?一、思考题3.1数据的预处理包括哪些内容?答:审核、筛选、排序等。
3.2分类数据和顺序数据的整理和显示方法各有哪些?答:分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,如果是两个或两个以上变量可以制作交叉表。
对于分类数据可以绘制条形图、帕累托图、饼图、环形图等。
根据不同的资料或者目的选择不同的图。
对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。
可根据需要绘制条形图、饼图、环形图等。
3.3数值型数据的分组方法有哪些?简述组距分组的步骤。
答:单变量值分组和组距分组。
其中组距分组:第一步,确定组数,组数多少由数据的多少和特点等决定,一般5~15组;第二步,确定各组组距,宜取5或10的倍数;第三步,根据分组整理出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。
3.4直方图和条形图有何区别?答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;2直方图各矩形连续排列,条形图分开排列;3条形图主要展示分类数据,直方图主要展示数值型数据。
一般是长宽比例10:7的长方形,纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。
3.6饼图和环形图的不同?答:饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。
3.7茎叶图比直方图的优势,他们各自的应用场合?答:茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。
在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。
二、练习题3.1为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。
服务质量的等级分别表示为:A.好;B较好;C一般;D较差;E差。
调查结果如下:BECCADCBAEDACBCDECEEADBCCAEDCBBACDEABDDCCBCEDBCCBCDACBCDECEBBECCADCBAEBACDEABDDCADBCCAEDCBCBCEDBCCBC要求:(1)指出上面的数据属于什么类型。
(2)用Excel制作一张频数分布表。
(3)绘制一张条形图,反映评价等级的分布。
(4)绘制评价等级的帕累托图。
3.2某行业管理局所属40个企业2002年的产品销售收入数据如下:单位万元1521241291161001039295127104105119114115871031181421351251171081051101071371201361171089788123115119138112146113126要求:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。
(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
3.3某百货公司连续40天的商品销售额如下:单位:万元41252947383430384340463645373736454333443528463430374426384442363737493942323635要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。
3.4利用下面的数据构建茎叶图和箱线图。
5729293631234723282835513918461826502933214641522821431942203.5为了确定灯泡的使用寿命,在一批灯泡中随机抽取100个进行测试,所得结果如下:单位:小时700716728719685709691684705718706715712722691708690692707701708729694681695685706661735665668710693697674658698666696698706692691747699685698700710722694690736689696651673749708727688689683685702741698713676702701671718707683717733712683692693697664681721720677679695691713699725726704729703696717688要求:(1)利用计算机对上面的数据进行排序。
(2)以组距为10进行等距分组,整理成频数分布表。
(3)根据分组数据绘制直方图,说明数据分布的特点。
(4)制作茎叶图,并与直方图作比较。
3.6一种袋装食品用生产线自动装填,每袋重量大约为50g,但由于某些原因,每袋重量不会恰好是50g。
随机抽取100袋食品,测得的重量数据如下:单位:g57464954555849615149516052545155605647475351485350524045575352514648475347534447505253474548545248464952595350435346574949445752424943474648515945454652554749505447484457475358524855535749565657534148要求:(1)构建这些数据的频数分布表。
(2)绘制频数分布的直方图。
(3)说明数据分布的特征。
3.7下面是一种金属零件重量的误差数据:单位:g61.446.865.161.7....77.463.954.671.160.552.773.487.832.527.347.557.360.552.940.147.954.860.119.930.458.656.846.832.781.660.276.454.937.471.648.232.139.119.148.938.153.326.453.355.158.127.367.974.155.632.5要求:(1)以10为组距构建零件重量误差的频数分布表。
(2)绘制直方图,说明零件重量误差分布的特征。
3.8下面是北方某城市1-2月份各天气温的记录数据:单位:℃-32-4-7-11-1789-6-14-18-15-9-6-105-4-9-6-8-12-16-19-15-22-25-24-19-8-6-15-11-12-19-25-24-18-17-14-22-13-9-60-15-4-9-32-4-4-16-175-6-5要求:(1)指出上面的数据属于什么类型。
(2)对上面的数据进行适当的分组。
(3)绘制直方图,说明该城市气温分布的特点。
3.9下面是某考试管理中心对2005年参加成人自学考试的12000学生的年龄分组数据:要求:(1)对这个年龄分布作直方图。
(2)用直方图分析成人自学考试人员年龄分布的特点。
3.10下面是A,B两个班学生的数学考试成绩数据:A组4457596061616263636566666769707071727373737474747575757575767677777778787980808285858686909292929396B组35394044444851525254555656575757585960616162636466686870707171737474798182838384要求:(1)将两个班的考试成绩用一根公共的茎制成茎叶图。
(2)比较两个班考试成绩分布的特点。
3.11给下面的数据绘制散点图3.12甲乙两个班各有40名学生,期Array要求:(1)根据上面的数据,画出两个班考试成绩的对比条形图和环形图。
(3)画出雷达图,比较两个班考试成绩的分布是否相似。
3.132005年4月北京亚运村汽车交易市场的汽车销售数据如下:爱丽舍117奥迪6要求:(1)画出国产汽车和进口汽车销售量的对比条形图。
(2)画出国产汽车和进口汽车销售量的环形图。
3.14已知1995-2004年我国的国内生产总值数据如下(按当年价格计算):单位:亿元要求:(1)用Excel绘制国内生产总值的线图。
(2)绘制第一、二、三产业国内生产总值的线图。
(3)根据2004年的国内生产总值及其构成数据绘制饼图。
3.151997年我国几个主要城市各月份的平均相对湿度数据如下表所示,试绘制箱线图,并分析各城市平均相对湿度的分布特征。
第4章P94一、思考题4.1一组数据的分布特征可以从哪几个方面进行测度?4.2怎样理解平均数在统计学中的地位?4.3简述四分位数的计算方法。
4.4对于比率数据的平均为什么采用几何平均?4.5简述众数、中位数和平均数的特点和应用场合?4.6简述异众比率、四分位差、方差或标准差的应用场合。
4.7标准分数有哪些用途?4.8为什么要计算离散系数?4.9测度数据分布开关的统计量有当些?二、练习题4.1一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:辆)排序后如下:24710101012121415要求:(1)计算汽车销售量的众数、中位数和平均数。
(2)计算销售量的四分位数。
(3)计算销售量的标准差。
(4)说明汽车销售量分布的特征4.2随机抽取25个网络用户,得到他们的年龄数据如下单位:周岁要求:(1)计算众数、中位数。
(2)计算四分位数。
(3)计算平均数和标准差。
(4)计算偏态系数和峰态系数。
(5)对网民年龄的分布特征进行综合分析。
(4)如果让你选择一种排队方式,你会选择哪一种?试说明理由。
4.4某百货公司6月份各天的销售额数据如下:单位:万元(2)计算四分位数。
(3)计算日销售额的标准差。
4.5甲乙两个企业生产三种产品的单位成本和总成本资料如下:要求:比较两个企业的总平均成本哪个高,并分析其原因。
4.6在某地区抽取120家企业,按利润额进行分组,结果如下:要求:(1)计算120家企业利润额的平均数和标准差。
(2)计算分布的偏态系数和峰态系数。
4.7为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取100名7~17岁的少年儿童作为样本,另一位调查人员则抽取了1000名7~17岁的少年儿童作为样本。
请回答下面的问题,并解释其原因。
(1)两位调查人员所得到的样本的平均身高是否相同?如果不同,哪组样本的平均身高较高?(2)两位调查人员所得到的样本的标准差是否相同?如果不同,哪组样本的标准差较大?(3)两位调查人员得到这1100名少年儿童身高的最高者或最低者的机会是否相同?如果不同,哪位调查人员的机会较大?4.8一项关于大学生体重状况的研究发现,男生的平均体重为60㎏,标准差为5㎏;女生的平均体重为50㎏,标准差5㎏。
请回答下面的问题:(1)是男生的体重差异大还是女生的体重差异大?为什么?(2)以磅为单位(1㎏=2.21b),计算体重的平均数和标准差。
(3)粗略地估计一下,男生中有百分之几的体重在55㎏~65㎏之间?(4)粗略地估计一下,女生中有百分之几的体重在40㎏~60㎏之间?4.9一家公司在招收职员时,首先要进行两项能力测试。
在A项测试中,其平均分数是100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。
一位应试者在A项测试中得了115分,在B项测试中得了425分。
与平均数相比,该应试者哪一项测试更理想?4.10一条产品生产线平均每天的产量为3700件,标准差为50件。
下面是一周各天的产量,该生产线哪几天失去了控制?单位:㎝要求:(1)如果比较成年组和幼儿组的身高差异,你会采用什么样的统计量?为什么?(2)比较分析哪一组身高差异大?4.12一种产品需要人工组装,现有三种可供选择的组装方法。
为检验哪种方法更好,随机抽取15个工人,让他们分别用三种方法组装。
4.13在金融证券领域,一项投资的预期收益率的变化通常用该项投资的风险来衡量。
预期收益率的变化越小,投资风险越低;预期收益率的变化越大,投资风险越高。
下面的两个直方图分别反映了200种商业类股票和200种高科技类股票的收益率分布。
在股票市场上,高收益率往往伴随着高风险。
但投资于哪类股票,往往与投资者的类型有一定关系。
(1)你认为该用什么样的统计量来反映投资的风险?(2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?(3)如果进行股票投资,你会选择商业类股票还是高科技类股票?第七章P176一、思考题7.1解释估计量和估计值。
7.2简述评价估计量好坏的标准。
7.3怎样理解置信区间?7.4解释95%的置信区间。
7.5Zσ的含义是什么?a/2√n7.6解释独立样本和匹配样本的含义。
7.7在对两个总体均值之差的小样本估计中,对两个总体和样本都有哪些假定?7.8简述样本量与置信水平、总体方差、估计误差的关系。
(1)假定总体标准差为15元,求样本均值的抽样标准差。
(2)在95%的置信水平下,求估计误差。
7.5利用下面的信息,构建总体均值的置信区间。
(1)x=25,σ=3.5,n=60,置信水平为95%。
(2)x=119.6,σ=23.89,n=75,置信水平为98%。
(3)x=3.419,σ=0.974,n=32,置信水平为90%。
7.6利用下面的信息,构建构建总体均值的置信区间。
(1)总体服从正态分布,且已知σ=500,n=15,x=8900,置信水平为95%。
(2)总体不服从正态分布,且已知σ=500,n=35,x=8900,置信水平为95%。
(3)总体不服从正态分布,且σ未知,n=35,x=8900,s=500,置信水平为90%。
(4)总体不服从正态分布,且σ未知,n=35,x=8900,s=500,置信水平为99%。
7.9某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样本,他们到单位的距离(单位:㎞)分别是:103148691211751015916132假定总体服从正态分布,求职工上班从家里到单位平均距离的95%的置信区间。
7.10从一批零件中随机抽取36个,测得其平均长度为149.5㎝,标准差为1.93㎝.(1)试确定该种零件平均长度的95%的置信区间。
(2)在上面的估计中,你使用了统计中的哪一个重要定理?请简要解释这一定理。
7.11某企业生产的袋装食品采用自动打包包装,每袋标准重量为100g。
现从某天生产的一批产品中按重复抽样随机抽取50包进行检查,测得每包重量如下:已知食品包重服从正态分布,要求:(1)确定该种食品平均重量的95%的置信区间。
(2)如果规定食品重量低于100g属于不合格,确定该批食品合格率的95%的置信区间。
7.14利用下面的样本数据构建总体比例π的置信区间。
(1)n=44,p=0.51,置信水平为99%。
(2)n=300,p=0.82,置信水平为95%。
(3)n=1150,p=0.48,置信水平为90%。
7.15在一项家电市场调查中,随机抽取了200个居民户,调查他们是否拥有某一品牌的电视机,其中拥有该品牌电视机的家庭占23%。
求总体比例的置信区间,置信水平为90%和95%。
7.16一位银行的管理人员想估计每位顾客在该银行的月平均存款额。
他假设所有顾客月存款额的标准差为1000元,要求的估计误差在200元以内,置信水平为99%。
应选取多大的样本?7.17计算下列条件下所需的样本量。
(1)E=0.02,π=0.40,置信水平为96%。
(2)E=0.04,π未知,置信水平为95%。
(3)E=0.05,π=0.55,置信水平为90%。
7.18某居民小区共有居民500户,小区管理者准备采用一项新的供水设施,想了解居民是否赞成。
采取重复抽样方法抽取了50户,其中有32户赞成,18户反对(1)求总体中赞成该项改革的户数比例的置信区间(a=0.05)。
(2)如果小区管理者预计赞成的比例能达到80%,估计误差不超过10%,应抽取多少户进行调查(a=0.05)7.19根据下面的样本结果,计算总体标准差σ的90%的置信区间。
(1)x=21,s=2,n=50。
(2)x=1.3,s=0.02,n=15。
(3)x=167,s=31,n=22。
为此,某银行准备采取两种排队方式试验,第一种排队方式是:所有顾客都进入一个等待队列;第二种排队方式是:顾客在三个业务窗口处列队三排等待。