spss数据分析入门教程(10种数据分析方法)

spss数据分析入门教程(10种数据分析方法)

  一、 均值比较检验与方差分析

  在经济社会问题的研究过程中,常常需要比较现象之间的一些指标有无显著差异,特别当考察的样本容量n比较大时,由随机变量的中心极限定理知,样本均值近似他服从正态分布、所以,均值的比较检验主要研究关于正态总体则均值有关的假设是否成立的问题,研究的数据服从正态分布或近似地服从正态分布是进行均值比较检验的前提条件。在Aanlyze菜单中,均值比较检验可以从菜单Compare Means 和General Linear Model得出。

  1 单个总体均值的t检验(One-Sample T Test)

  单个总体的t检验也称为单一样本的t检验,也就是检验单个变量的均值是否与假定的均值之间存在差异。将单个变量的样本均值与假定的常数相比较,通过检验得出预先的假设是否正确的结论。

  2 两个总体的t检验 (Two-Samples T Test)

  2.1两个独立样本的t检验 (Independent -Samples T Test)

  Independent -Samples T Test是检验两个没有联系的总体样本均值间是否存在显著的差异,两个没有联系的总体样也称独立样本,如两个无联系的企业生产的同样产品之间的某项指标的均值的比较,不同地区的儿童身高、体重的比较等,都可以通过抽取样本检验两个总体的均值是否存在显著的差异。

  2.2两个有联系样本均值的比较(Paired-Samples T Test)

  Paired-Samples T Test是检验两个有联系正态总体的均值是否存在显著的差异,又称配对样本的T检验。如检验某种药品使用的效果是否显苦,需要对使用者使用前后进行比较;再如对某种粮食进行品种改良,也需要比较改良前后粮食产量有无显著差异等。

  3单因素方差分析(One-Way ANOVA)

  单因变量的单因素方差分析主要解决多于两个总体样本或变量间均值的比较问题。是一种对多个(大于两个)总体样本的均值是否存在显著差异的检验方法。

  单因素方差分析的应用条件:在不同的水平(因素变量取不同值)下,各总体应当服从方差相等的正态分布。

  例2.5:某个年级有三个班,现在对他们的一次数学考试成绩进行随机抽(见下表),试在显著性水平0.005下检验各班级的平均分数有无显著差异(数据文件:数学考试成绩.sav)。

  (1)建立数学成绩数据文件。

  (2)选择“分析” →“比较均值” →“单因素方差”,打开单因素方差分析窗口,将“数学成绩”移入因变量列表框,将“班级”移入因子列表框。

  (3)单击“两两比较”按钮,打开“单因素ANOVA两两比较”窗口。

  (4)在假定方差齐性选项栏中选择常用的LSD检验法,在未假定方差齐性选项栏中选择Tamhane’s检验法。在显著性水平框中输入0.05,点击继续,回到方差分析窗口。

  (5)单击“选项”按钮,打开“单因素ANOVA选项”窗口,在统计量选项框中勾选“描述性”和“方差同质性检验”。并勾选均值图复选框,点击“继续”,回到“单因素ANOVA选项”窗口,点击确定,就会在输出窗口中输出分析结果。

  4 双因素方差分析

  单因变量的双因素方差分析是对观察的现象(冈变量)受两个因素或变量的影响进行分析,检验不同水平组合之间对因变旦的影响足合显著。双因素方差分析的应用范围很广,如粮食产量受到气候、温度因素的影响;共生物广:舱的牛产过程不仅受催化剂多少的影响,还受温度高低的影响等,甚至两因素变虽之间的交互作用对因变量也有 定的影响。要分清楚哪个因素的影响作用比较大,就要以应用双因素方差分析的方法来解决。

  例2.6:研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表5-7。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异(数据文件:粘虫.sav)。

  (1)建立数据文件“粘虫.sav”。

  (2)选择“分析” →“一般线性模型” →“单变量”,打开单变量设置窗口。

  (3)分析模型选择:此处我们选用默认;

  (4)比较方法选择:在窗口中单击“对比”按钮,打开“单变量:对比”窗口进行设置,单击“继续”返回

  (5)均值轮廓图选择:单击“绘制”按钮,设置比较模型中的边际均值轮廓图,单击 “继续”返回;

  (6)“两两比较”选择,用于设置两两比较检验,本例中设置为“温度”和

  “湿度”。

  二 相关分析与回归模型的建立与分析

  相关分析和回归分析是统计分析方法中最重要内容之一,是多元统计分析方法的基础。相关分析和回归分析主要用于研究和分析变量之间的相关关系,在变量之间寻求合适的函数关系式,特别是线性表达式。

  相关或回归分析的数据条件:参与分析的变量数据是数值型变量或有序变量。

  1 相关方析 (Correlate)

  两个变量之间的相关关系称简单相关关系。有两种方法可以反映简单相关关系,一是散点图,可直观地显示变量之间的关系,二是相关系数,可准确地反映两变量的相关程度。

  1.1 简单相关分析

  简单相关分析操作:简单相关分析是指两个变量之间的相关分析,主要指对两变量之间的线性相关程度做出定量分析。

  例3.6(简单双变量):调查了29人身高、体重和肺活量的数据见下表,试分析这三者之间的相互关系。

  (1)建立数据文件“学生生理数据.sav”。

  (2)选择“分析” →“相关” →“双变量”,打开双变量相关分析对话框。

  (3)选择分析变量:将“身高”、“体重”和“肺活量”分别移入分析变量框中。

  (4)选择相关分析方法:在相关系数栏有三种相关系数,分别对应三种方法,供使用者选择。

  (5)显著性检验:双侧检验、单侧检验。

  (6)“标记显著性检验”复选项:选中该复选项,输出结果中在相关系数右上角用“*”表示显著性水平为5%,用“**”表示显著水平为1%。

  (7)“选项”对话框:本例在统计时项选择“均值和标准差”,在缺失值选项选择默认,即“按对排除个案”。

  1.2 偏相关分析

  简单相关关系只反映两个变量之间的关系,但如果因变量受到多个因素的影响时,因变量与某一自变量之间的简单相关关系显然受到其他相关因素的影响,不能真实地反映二者之间的关系,所以需要考察在其他因素的影响剔除后二者之间的相关程度,即偏相关分折。

  2 线性回归分析(Regression)

  线性回归是统计分析方法小最常用的方法之一。如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线件回归的方法建立现象(因变量)与影响因素(自变量)之间的线性函数关系式。

  2.1线性回归模型假设条件与模型的各种检验

  1.回归系数的检验(T检验);

  2.回归方程的检验(F检验);

  3.拟合程度判定(可决系数R2);

  4.D.W检验(残差项是否自相关);

  5.共线性检验(多元线性回归)。

  6.残差图示分析(判断残差序列异方差性和自相关)。

  2.2线性回归分析的具体步骤

  例3.10:考察中国居民收入与消费支出的关系。数据文件名称“居民消费水平.sav”。 变量说明:GDPP:人均国内生产总值 CONSP:人均居民消费

  (1)建立数据文件“居民消费水平.sav”。

  (2)选择“分析” →“回归” →“线性”,打开线性回归分析对话框。

  (3)选择因变量和自变量:将人均居民消费“CONSP” 移入因变量框中; (4)在线性回归窗口中点击“统计量”,打开线性回归统计量窗口,对统计量进行设置。

  (5)在线性回归窗口中点击“绘制”,打开、“线性回归:图” 窗口,选择绘制标准化残差图,其中的正态概率图是rankit图。同时还需要画出残差图,Y轴选择:ZRESID,X轴选择: ZPRED。

  (6)在线性回归窗口中点击“选项”,打开、“线性回归:选项” 窗口。

  ◆ 步进方法标准单选钮组:设置纳入和排除标准,可按P值或F值来设置;

  ◆ 在等式中包含常量复选框:用于决定是否在模型中包括常数项,默认选中。

  3 曲线估计(Curve Estimation)

  上节介绍了线性回归模型的分析和检验方法。如果某对变量数据的散点图不是直线,而是某种曲线的形式时,可以利用曲线估计的方法为数据寻求一条合适的曲线,也可用变量代换的方法将曲线方程变为直线方程。用线性回归模型进行分析和预测。

  三 时间序列分析

  由于反映社会经济现象的大多数数据是按照时间顺序记录的,所以时间序列分析是研究社会经济现象的指标随时间变化的统计规律性的统计方法。为了研究事物在不同时间的发展状况,就要分析其随时间的推移的发展趋势,预测事物在未来时间的数量变化。

  主要内容:

  1.时间序列的线图、自相关图和偏自关系图;

  2.SPSS软件的时间序列的分析方法——季节变动分析。

  四 非参数检验

  前面进行的假设检验和方差分析,大都是在数据服从正态分布或近似地服从正态分布的条件下进行的。但是如果总体的分布未知,进行总体参数的检验,或者检验总体服从一个指定的分布,都可以归结为非参数检验方法。非参数检验包括下列内容:

  1.总体分布的假设捡验;

  2.两种以下的现象之间的关联性检验(见列联分析);

  3.总体分布未知时,关于单个总体均值的检验;两个总体均值或分布的差异是否显著的检验,以及多个未知总体的单因素方差分析;

  4.某种现象出现的随机性检验。

推荐阅读