社会的迅速发展,产生大量的信息。数据作为信息的主要载体广泛存在。从纷乱复杂的数据中发现规律,认识问题要借助统计学这个工具来完成。统计学就是研究数据及其存在规律的一门科学。1984 年起我国施行了《中华人民共和国统计法》,为有效地、科学地开展统计工作提供了法律保证。
一、统计工作的基本步骤
1.设计:制定计划,对整个过程进行安排。是整个工作的关键。
2.收集资料(现场调查):根据计划取得可靠、完整的资料,同时要注重资料的真实性。
收集资料的方法有3 种:统计报表、日常性工作、专题调查。
3.整理资料:原始资料的整理、清理、核实、查对,使其条理化、系统化,便于计算和分析。可借助于计算机软件进行(常用软件有EPl、Epidata 等)核对整理。
4.统计分析:运用统计学的基本原理和方法,分析计算有关的指标和数据,揭示事物内部的规律。这是统计学的关键所在。
二、统计学基本知识
(一)统计资料的类型
统计资料(或称统计数据)有3 种类型:计量资料、计数资料和等级资料。
1.计量资料
定义:通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料,例如:质量与长度。 特点:有度量衡单位、可通过测量得到、多为连续性资料。
2.计数资料
定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。 特点:没有度量衡单位、通过枚举或记数得来、多为间断性资料。
3.等级资料
定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。
特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同。
(二)统计学中的重要概念
1.变量 研究者对每个观察单位的某项特征进行观察和测量,这种特征称为变量,变量的测得值叫变量值(也叫观察值)。
2.变异 变异是指同质事物个体间的差异。变异来源于一些未加控制或无法控制的甚至不明原因的因素,变异是统计学存在的基础,从本质上说,统计学就是研究变异的科学。
3.总体与样本
总体:根据研究目的确定的研究对象的全体。当研究有具体而明确的指标时,总体是指该项变量值的全体。
样本:是总体中有代表性的一部分。 现实研究中,直接研究总体的情况是很困难或者不可能的,因此实际工作中往往从总体中抽取部分样本,目的是通过样本信息来推断总体的特征。
4.随机抽样
是指按随机的原则从总体中获取样本的方法,以避免研究者有意或无意地选择样本而带来偏性。随机抽样是统计工作中常用的抽样方法。
5.概率
概率是描述随机事件发生的可能性大小的数值,常用 P 来表示。概率的大小在 0 和 1 之间,越接近1,说明发生的可能性越大,越接近0,说明发生的可能性越小。统计学中的许多结论是带有概率性质的,通常一个事件的发生小于5%,就叫小概率事件。
6.误差
统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。
主要有以下两种:
(1)系统误差
指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。
特点:具有累加性。
(2)随机误差
由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。
特点:随测量次数的增加而减小。
随机误差包括随机测量误差和抽样误差。
1)随机测量误差。在消除了系统误差的前提下,由于非人为的偶然因素,对于同一样本多次测定结果不完全一样,结果有时偏大有时偏小,没有倾向性,这种误差叫随机测量误差。其特点:没有倾向性,多次测量计算平均值可以减小甚至消除随机测量误差。
2)抽样误差。是由于抽样原因造成的样本指标与总体指标之间的差别。其特点:抽样误差不可避免。统计上可以估计抽样误差,并在一定范围内控制抽样误差。
通常可以通过改进抽样方法和增加样本量等方法来减少抽样误差。
三、统计图表的编制
统计表与统计图是统计描述的重要工具。在日常工作报告、科研论文中,常将统计分析的结果通过图表的形式列出。
(一)统计表
1.概念
统计表是将要统计分析的事物或指标以表格的形式列出来,以代替烦琐文字描述的一种表现形式。
2.统计表的组成
标题:即表的名称。
标目:横标目说明每一行要表达的内容,相当于句子的主语;纵标目说明每一列要表达的内容,相当于句子的谓语。
3.统计表的种类
简单表:表格只有一个中心意思,即二维以下的表格。
复合表:表格有多个中心意思,即三维以上的表格。
4.制表原则和基本要求
制表原则是重点突出,简单明了,主谓分明,层次清楚。
基本要求是:
(1)标题:位置在表格的最上方,应包括时间、地点和要表达的主要内容。
(2)标目:标目所表达的性质相当于“变量名称”,要有单位。
(3)线条:不宜过多,一般三根横线条,不用竖线条。
(4)数字:小数点要上下对齐,缺失时用“一”代替。
(5)备注:表中用“"标出,再在表的下方注出。
(二)统计图
统计图是一种形象的统计描述工具,它是用直线的升降、直条的长短、面积的大小、颜色的深浅等各种图形来表示统计资料的分析结果。
1.概念
统计图:用点、线、面的位置、升降或大小来表达统计资料数量关系的一种陈列形式。
2.制图的原则和基本要求
(1)按资料的性质和分析目的选用适合的图形。
统计图一般选用原则
统计图一般选用原则(6种情况)(需要记忆)
资料的性质和分析目的宜选用的统计图
1.比较分类资料各类别数值大小条图
2.分析事物内部各组成部分所占比重(构成比)圆图或百分条图
3.描述事物随时间变化趋势或描述两现象相互变化趋势线图、半对数线图
4.描述双变量资料的相互关系的密切程度或相互关系的方向散点图
5.描述连续性变量的频数分布直方图
6.描述某现象的数量在地域上的分布统计地图
3.统计图的类型
(1)条图。又称直条图,表示独立指标在不同阶段的情况,有两维或多维,图例位于右上方。
(2)圆图或百分条图。描述百分比(构成比)的大小,用颜色或各种图形将不同比例表达出来。
(3)线图。用线条的升降表示事物的发展变化趋势,主要用于计量资料,描述两个变量间关系。
(4)半对数线图。纵轴用对数尺度,描述一组连续性资料的变化速度及趋势。
(5)散点图。描述两种现象的相关关系。
(6)直方图。描述计量资料的频数分布。
(7)统计地图。描述某种现象的地域分布。
四、统计描述与统计推断
统计的主要工作就是对统计数据进行统计描述和统计推断。统计描述是统计分析的最基本内容,是指应用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述;而统计推断是指通过抽样等方式进行样本估计总体特征的过程,包括参数估计和假设检验两项内容。
(一)统计描述
1.计量资料的统计描述
计量资料的统计描述主要通过编制频数分布表、计算集中趋势指标和离散趁势指标以及统计图表来进行。
(1)集中趋势。指频数表中频数分布表现为频数向某一位置集中的趋势。
集中趋势的描述指标: 算术平均数。 直接法:为观察值,,z 为个数 加权法又称频数表法,适用于频数表资料,当观察例数较多时用。
2.假设检验
假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
(1)假设检验的基本思想。假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01 或 P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设Ho),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立。
(2)假设检验的基本步骤。
第一步:提出检验假设(又称无效假设)和备择假设。 Ho-样本与总体或样本与样本间的差异是由抽样误差引起的。 H1:样本与总体或样本与样本间存在本质差异。 预先设定的检验水准为O.05。
第二步:选定统计方法,计算出统计量的大小。根据资料的类型和特点,可分别选用t 检验,U 检验,秩和检验和卡方检验等。
第三步:根据统计量的大小及其分布确定检验假设成立的可能性P 的大小并判断结果。若P 值小于预先设定的检验水准,则H0 成立的可能性小,即拒绝H0,若P 值不小于预先设定的检验水准,则H0 成立的可能性还不小,还不能拒绝Ho。P 值的大小一般可通过查阅相应的界值表得到。
(3)进行假设检验应注意的问题
1)做假设检验之前,应注意资料本身是否有可比性。
2)当差别有统计学意义时应注意这样的差别在实际应用中有无意义。
3)根据资料类型和特点选用正确的假设检验方法。
4)根据专业及经验确定是选用单侧检验还是双侧检验。
5)当检验结果为拒绝无效假设时,应注意有发生I 类错误的可能性,即错误地拒绝了本身成立的Ho,发生这种错误的可能性预先是知道的,即检验水准那么大;当检验结果为不拒绝无效假设时,应注意有发生Ⅱ类错误的可能性,即仍有可能错误地接受了本身就不成立的 H0,发生这种错误的可能性预先是不知道的,但与样本含量和I 类错误的大小有关系。
6)判断结论时不能绝对化,应注意无论接受或拒绝检验假设,都有判断错误的可能性。
7)报告结论时应注意说明所用的统计量,检验的单双侧及P 值的确切范围。
易安博客 版权所有