描述一列数据的特征(比如近10年来GDP数据),可以计算出最大值、最小值、平均数、总数、众数、中位数、方差等数据来进行描述。本文介绍如何利用Excel的数据分析功能一次性计算出这些特征值,并说明这些特征值的涵义,以方便应用。
操作方法
点击如图所示红色尖头1所指向的“数据”,如果出现红色尖头2所指向的“数据分析”选项,则直接点击该项进入数据分析。如果未找到“数据分析”选项,则请点击下面的链接“Excel菜单栏上数据分析功能的调出”所介绍的方法将“数据分析”选项调出。
点击“数据分析”选项后弹出如图所示的窗口。如红色尖头1所示点击“描述统计”,再如红色尖头2所示点击“确定”按钮。
弹出如图所示的窗口,点击红色长尖头所指向的红圈内的方块。
出现如图所示的界面,使用鼠标左键选定所需要统计的数据项。本例如图红色红尖头1所指向的红框内的数据(使用鼠标左键选定),即B1:B21。然后点击红色尖头2所指向的方块。
出现如图所示的窗口。按照图示将文字前面的勾打上。在“输出选项”栏选定“输出区域”,点击右边空白方框边上的小红尖头。
出现如图所示的界面,在Excel的任意空白处点击一下(如图所示红色尖头1所指向,本例点击了D1)。然后点击如图红色尖头2所指向的方块,返回到上一步所示的图示(步骤5)点击该图长红色尖头所指向的“确定”按钮。
最后得到如图所示的统计结果(即所谓描述统计的结果)。
上述数据的涵义如下:平均值反映了数据的平均水平。标准误差是指样本平均值的“抽样误差”。中位数是对数据趋中性的一种描述,是样本中数据从小到大排列后的中间值。若样本容量为奇数,则取中间的数据值,若为偶数,则取中间两个数据的平均值。众数是样本数据中出现频率最高的数值。标准偏差是所选样本的标准差,是衡量数值相对于其平均值的离散程度的指标。方差是标准偏差的平方,同样是描述数据离散程度的指标。峰度是刻画测度数据分布陡缓程度的指标,若峰度>0,则说明其分布较标准正态分布曲线更尖锐,也就是数据更向平均值聚集,属于尖峰分布;若峰度<0,则说明其较标准正态分布曲线更宽阔一些,离散程度较大,属于平峰分布;若峰度=0,则数据的分布性状即为标准正态分布曲线。偏度也就是偏态系数,也称不对称度,是测度数据分布的偏斜方向和程度的指标。若偏度>0,则说明其分布较正态分布曲线更向右偏,称为正偏或右偏,说明存在偏大的极端值,有一条长尾拖在分布曲线的右端;若偏度<0,则分布为负偏或左偏,存在较小的极端值;若偏度=0,则数据的分布曲线左右对称。偏度的绝对值越大,说明数据分布曲线的偏斜程度就越大,偏度=0是就是无偏斜的情况。最大值为整个数据系列中数值最大的一个,最小值为数据系列中数值最小的一个,它们刻画了数据的离散状况。最大值与最小值之差称为极差,它反映了样本数据整体涵盖的范围大小。置信水平表示样本数据的数值落在某一区间的概率,置信度则为在一定置信水平的情况下,样本平均值可能出现的最大偏差,此时,总体平均值的置信区间即为样本平均值±置信度,求解置信区间实际上是置信度的求解过程。