湖南统计信息网

一种是通过直接的调查获得的原始数据,一般称之为第一手或直接的统计数据;

另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,通常称之为第二手或间接的统计数据。

主要来自于国内外公开出版的或公开报道的各种出版物。

公开出版的或报道的社会经济统计数据主要是国家和地方的统计部门以及各种报刊媒介。例如,公开的出版物有《中国统计年鉴》、《中国统计摘要》和各种专业统计年鉴,以及各省、市、地区的统计年鉴等。

提供世界各国社会和经济数据的出版物业有许多,如《世界经济年鉴》、《国外经济统计资料》、世界银行各年度的《世界发展报告》等。联合国的有关部门及世界各国也定期出版各种统计数据。

获得第一手数据并不象得到二手数据那么轻松。某些在华的外资企业每年至少要花三四千万元来收集和分析数据。他们调查其产品目前在市场中的状况和地位并确定其竞争对手的态势等等;

三、观测数据和试验数据

上面所说的数据是在自然的未被控制的条件下观测到的,称为观测数据(observationaldata)。

而对于有些问题,比如在不同的医疗手段下某疾病的治疗结果有什么不同、不同的肥料和土壤条件下某农作物的产量有没有区别、用什么成分可以提高某物质变成超导体的温度等等。这种在人工干预和操作情况下收集的数据就称为试验数据(experimentaldata)。

第二节调查方法

一、调查方法的类型

调查的方法有许多种类型:普查、抽样调查、重点调查、典型调查等等。

在实际中最常用的方法:抽样调查和普查。

两者的差别在于抽样调查只调查总体中的一部分单元,而普查则调查总体中的所有单元。与普查相比,抽样凋查可以更为经济、迅速地提供数据,并较容易进行监控。

二、数据收集的方式

不论何种调查方法,都可采用不同的数据收集方式,并常常利用调查问卷或调查表来收集数据。

利用问卷或调查表收集数据的方式主要有:

1、自填法

自填式方法,是指被调查者在没有访员协助的情况下完成问卷。

自填式方法也可使用计算机辅助调查(CASl),这时,要将电子格式的问卷传送给被调查者,被调查者使用计算机填写问卷。

自填法的特点

所需费用较低,但同时它要求问卷结构严谨,有清楚的说明;

通常这种方法适用于受过比较好的教育的被调查者;

比较好管理,有助于减少回答误差;

还可以方便被调查者回答敏感问题;

但这种方法的回答率通常低于访员协助式方法;

速度较快(在各种数据收集方法中是最快的)

适合于总体和样本在地理上比较分散的情况,

适用于文化程度较低的调查总体,

管理起来比较容易。

现举一个令人吃惊的例子,《纽约时报》曾报道了一则关于一个多年前的屠杀犯的新闻:

一个犯有精神病的参加过战争的老兵,(名叫霍华德鲁),在新泽西州康姆登大街上疯狂枪杀了13个人以后就堂而皇之地回家了。

防暴警察队带着机关枪、滑膛枪、催泪弹赶到,双方开始了枪战;

“喂”

“是霍华德吗”

“是的……”

“你为什么杀人?”

“我不知道,我也不能回答此问题,等会儿我再跟你谈,现在我太忙了。”

3、访员面访法

访员面访,是指以个人接触的方式,由访员协助被调查者完成问卷。

当采用纸张式数据收集方式时,这种方法称为纸笔式面访(PAPl);当采用计算机辅助方式时,称为计算机辅助式面访(CAPl)。

访员面访法的特点

面访调查的回答率最高

但费用也最高

访员可以进行直接观察

但管理人员很难对面访进行监督。

第三节抽样调查中的基本问题

一、总体和样本。

要想了解北京市民对建设北京交通设施是以包括轨道运输在内的公共交通工具为主还是以小汽车为主的观点,需要进行调查;

调查对象是所有北京市民,调查目的是希望知道市民中对这个问题的不同看法各自占有的比例。

显然,不可能去问所有的北京市民,而只能够问一部分;并且根据这一部分的观点来理解整个北京市民的总体观点。

这种情况下,称所有(每个)北京市民对这个问题的观点为一个总体(population),而调查时问到的那部分市民的观点为该总体的一个样本(sample)。

总体是包含所有要研究的个体(element)的集合。而样本是总体中选中的一部分。

二、抽样调查中的误差

1、抽样误差

样本的特征不一定和总体完全一样。这种差异不是错误,而是必然会出现的抽样误差(samplingerror)。

2、未响应误差与响应误差;

在抽样调查中,一些人因为种种原因没有对调查作出反映(或回答),这种误差称为未响应误差(nonresponseerror)。

而另有一些人因为各种原因回答时并没有真实反映他们的观点,这称为响应误差(responseerror)。

和抽样误差不一样,未响应误差和响应误差都会影响对真实世界的了解;应该在设计调查方案时尽量避免。

3、数据伦理:

隐私、保密、知情、需要,显变量与隐变量。调查时应尽量减少敏感问题或隐私问题的影响。

4、抽样框

抽样框是一张包括被抽样总体所有单元的目录表.

确定了抽样框,就相当于定义了被抽样总体,我们可通过抽样框从总体中抽取样本单元,但前提是抽样框充分地代表了总体。

在确定了抽样框后,我们就可以计算总体中每个个体的抽样概率,根据这一概率,就可以用样本数据推算总体数据。

例如:学校学生的名单就可以是一个抽样框

这个抽样框应当包括:识别资料、分类资料、联系资料

抽样框的类型有:名录框和区域框

名录框是由总体中所有的单元组成的目录。

区域框是由许多地理区域构成的抽样框。

在下列两种情况下,适合采用区域框:

1)调查具有地理性质;

2)没有合适的目录框,需要借助区域框来构造目录框

区域框

例如某项调查需在某个城市抽取住户,但没有该城市最新的住户名录。此时,统计调查机构可以用区域框抽取地理区域,如街区,然后由调查员列出每个被抽中街区中的全部住户名单。

这种方法将对住户的抽样集中于数量有限的被的区域,从而可以较为经济地进行个人面访调查。

第四节抽样方法

抽样的两种主要类型是概率抽样与非概率抽样。

一、非概率抽样:

1、非概率抽样

;非概率抽样是用主观的(非随机的)方法从总体中抽选单元,是一种快速、简易且节省的从总体中选取样本单元的方法。

由于非概率抽样抽取样本有倾向性与偏差且没有一个抽样框,不可能计算出各个单元的入样概率。从而无法得到总体目标量的可靠估计值及其抽样误差估计值。

2、非概率抽样的优点

快速简便;费用相对较低;不需要抽样框;对探索性研究和调查的设计开发很有用。所以在市场调查中广泛应用

3、非概率抽样的缺点

为了对总体进行推断,需要对样本的代表性做很强的假定。不可能得到可靠的估计值以及抽样误差估计值。

4、非概率抽样的种类

非概率抽样方法有:随意抽样、志愿抽样、判断抽样、配额抽样。

随意抽样

随意抽样的样本单元的抽选以无目标、随意的方式进行,几乎没有或完全没有计划。

它假定总体是同质的,即总体单元都相似。比如“街道拦截”访问法。

志愿抽样

被调查者都是志愿者。

判断抽样

由专家有目的地抽选有代表性的样本。它适用于探索性研究,

如:抽选参加焦点座谈或深入访谈的人,但不宜用在试调查中。

配额抽样

这是最常见的一种非概率抽样。抽样要从各个子总体中选取特定数量的单元(配额)。

总样本量:900人

二、概率抽样:

1、概率抽样的两条基本准则:

单元是随机抽取的;

调查总体中的每个单元都有一个非零的入样概率,并且能计算出这些概率。

2、概率抽样的主要优、缺点:

能得到总体的可靠估计值并能计算每个估计值的抽样误差,因而能对总体进行推断。

与非概率抽样相比,概率抽样比较复杂,更费时,通常也更费钱。但总的说来,其利远大于弊。

3、概率抽样的种类

常用的概率抽样有七种:

简单随机抽样(SRS)

是所有概率抽样的出发点和理论基础。简单随机抽样是一种一步抽样法,它保证样本量为n的每个可能的样本都有相同的被抽中的概率p=n/N。

抽样可以是放回的,也可以是不放回的。

系统抽样(SYS)

其抽样单元是从总体中等距抽出的。

;它需要一个抽样间距和一个随机起点。抽样间距是k=N/n,随机起点r是介于1到k之间的一个随机数。

被抽中的单元是:r,r十k,r+2k,r+3k,…,r+(n-1)k。

整群抽样

整群抽样中,总体单元被分为群,抽样时先抽取群的样本,调查被抽中的群中的所有单元。

采用整群抽样的两个理由:(1)抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;(2)从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框)。

分层抽样(STR)

采用分层抽样时,总体被分为同质的、互不重迭的若干子总体(层),然后,在每一个层中独立地抽取样本。

可以使用任何一种抽样方法来对每个层进行抽样。

多阶抽样

多阶抽样是用两个或更多连续的阶段抽取样本的过程。

第一阶段抽取的单元称为初级或一级抽样单元(PSU),第二阶段抽取的单元称为次级或二级抽样单元(SSU),以此类推。

减少敏感问题或隐私问题的影响

思考题:

1.举出一些观察数据和实验数据的例子。

2.举出简单随机样本的例子。

3.根据你的经验举出总体和样本的例子。

4.举出调查抽样时可能发生的各种影响调查结果的问题,并且提出你认为可以减少或避免这些问题的建议。

5.根据你的理解本章提到的几种抽样方法的优缺点是什么?原因何在?

6.举出一些书报上发表的数据例子,并指出哪些是变量,哪些是观察值。

扫一扫

在手机打开当前页

统计联网直报平台咨询:0731-82213228统计违法案件举报:0731-82801000(自动接听)

THE END
1.地理信息系统导论学习笔记(7)——空间数据准确度和质量定位错误介绍内容为:使用二手数据的定位错误、产生数字化错误的原因、使用第一手数据源的定位错位。 定位错误是指数字化要素的几何错误。可以通过用于数字化的数据源来检查定位错误。 使用二手数据的定位错误, 数字化地图与源地图匹配好坏没有一个统一的阈值标准。如果数字化时使用的数据是二手数据(如纸质地图),定位错http://www.360doc.com/content/22/0323/10/79020595_1022806119.shtml
2.“中国数据”为全球大气环境监测作贡献—新闻—科学网首获第一手“中国数据” 卫星载荷,就是卫星上装载的实现特定卫星任务的仪器或设备。它相当于一台高分辨率的“太空相机”,可以给大气“拍照”,获取大气成分数据。 “每一种气体都有它独一无二的光谱信息,就如同人的指纹。研究人员首先通过载荷获取到这种‘指纹信息’,分析出它是什么气体,再根据光谱上吸收的深浅变化https://news.sciencenet.cn/htmlnews/2024/5/523249.shtm
3.空间数据的来源开源地理空间基金会中文分会开放地理空间实验室摘要: 数据源可以大致分为原始数据(第一手数据) 或处理加工后的数据(第二手数据),又可将数据源分为非电子数据和电子数据两类。大多数GIS中的数据是第二手数据,当然它们都是电子数据。第二手数据主要包括地图、图书和图像等。 下表列出了第一手数据和第二手数据的来源。从表中 https://www.osgeo.cn/post/13c68
4.语义分割之VOC2012Cityscapes数据集介绍4.gtFine_polygons.json存储的标注的第一手数据,即类(“label”: “sky”,“building”,“sidewalk”,等)及其在图像中对应的区域(由多边形"polygon"顶点在图像中的像素坐标给出的封闭区域);https://blog.csdn.net/weixin_42028608/article/details/104910327
5.生物多样性与你我息息相关光明日报150余个观测单位3500名工作人员常年不辞辛劳的野外奔波,为我国生物多样性的保护和管理提供了丰富的第一手数据。《2017年全国生物多样性观测报告》显示:截至2017年,我国观测到鸟类981种,约占全国鸟类总种数的71.55%;观测到两栖动物244种,约占两栖动物总种数的59.80%;观测到哺乳动物100种,占红外相机可拍摄物种数的39.https://news.gmw.cn/2018-05/22/content_28904961.htm
6.盛趣游戏谭雁峰:精准洞察玩家需求,打造符合用户期望的产品从三个维度获取第一手数据 谭雁峰解释道,尽管游戏行业常被视为创意产业,而创意本身很难量化,但随着行业不断完善,数据不断积累,单纯依赖个人经验和直觉研发产品风险变得越来越高。因此,近几年来,盛趣游戏从三个维度来获得第一手的数据,更准确地了解市场的需求和趋势,从而有效地调整游戏研发的方向。 https://www.51cto.com/article/793572.html
7.山河有我丨“湖民”谢永宏:在洞庭湖湿地一“站”十五年扎根洞庭,第一手数据献给国家 2006年,谢永宏来到洞庭湖,是因为一场偶然。 谢永宏2000年从湖南农业大学硕士毕业,2003年以武汉大学植物学博士毕业,2005年从南京大学生物学博士后流动站出站,随后特聘进入中国科学院东北地理与农业生态研究所。他原本计划纯做科研,没想到一次回长沙的经历改变了他的人生轨迹。 https://m.thepaper.cn/wifiKey_detail.jsp?contid=20154620
8.搜集第一手统计数据的方法有()。A登记法B直接观察法C电话访问法D搜集第一手统计数据的方法有( )。 A 登记法 B 直接观察法 C 电话访问法 D 查阅公开出版物 E 网络调查法 优质答案 查看答案 近期公考资料 2024广东事业单位考试教材图书 2025版国家公务员考试图书 华图教育在线APP下载(刷题听课尽在掌握) 2025版广东公务员行测申论教材 https://gd.huatu.com/tiku/3635858.html
9.关于统计学的数据来源与搜集数据的方法关于统计学的数据来源与搜集数据的方法 导语:统计数据资料的来源主要有两种渠道:一种是通过直接的调查或实验获得的原始数据,这是统计数据的直接来源,一般称为原始或第一手统计数据;另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,大家一起来看看吧。 https://www.oh100.com/kaoshi/zhicheng/383928.html
10.我国第25次南极考察取得丰硕成果CCTV.com第25次南极考察实施了普里兹湾海洋综合考察、埃默里冰架综合考察、中山站-冰穹A断面综合考察和站基协同观测等四个方面考察,为科技部野外台站常规观测、科技支撑计划、863高新技术计划以及国家自然科学基金研究项目,获取了大量宝贵的第一手科学数据和样品。 普里兹湾海洋综合考察旨在研究普里兹湾海洋与南印度洋和艾默里https://news.cctv.com/china/20090410/119355.shtml
11.数据驱动下的政府德勤中国由于数据共享受阻,数据合作也时常受限。然而,新冠疫情正在打破这种情形。所有政策制定者和专家都迫切地需要第一手数据信息,各国政府不得不寻求打破数据孤岛模式,与企业、高校合作,以求拓展数据资源1。这意味着,各个机构需要加大合作力度和决策透明度,通过共享数据来提高研究效果并整合相应服务。 https://www2.deloitte.com/cn/zh/pages/public-sector/articles/data-driven-government.html
12.科研数据库系列介绍——高校版所有数据来自新华社、中国政府网、国家统计局、发改委等,采购长三角权威研究机构的第一手数据。 (3)应用场景 1) 面向多维用户,支持学校教学科研、企业研究、研究所研究、政府机构决策,同时方便学生更全面系统的了解长三角一体化,有助于人才储备。 2)助力用户研究长三角一体化发展情况,完善长三角区域的协同治理模式。响https://www.suibe.edu.cn/gsgl/2024/0509/c8380a171307/page.htm
13.Python调用API爬取百度POI数据小贴士——坐标转换数据清洗在调用百度 API 进行 POI 爬取时,由于默认输入坐标类型属于百度坐标系(BD09ll),而我们第一手数据往往并不是百度坐标。 所以,我们需要将常用的非百度坐标(目前支持 GPS 设备获取的坐标、google 地图坐标、soso 地图坐标、amap 地图坐标、mapbar 地图坐标)转换成百度地图中使用的坐标,才可将转化后的坐标在百度地图 https://www.lianxh.cn/news/a72842993b22b.html