判别分析的应用

2024-11-18 22:58:50

推荐回答（2个）

回答（1）：

在气候分类、农业区划、土地类型划分中有着广泛的应用。
在市场调研中，一般根据事先确定的因变量（例如产品的主要用户、普通用户和非用户、自有房屋或租赁、电视观众和非电视观众）找出相应处理的区别特性。在判别分析中，因变量为类别数据，有多少类别就有多少类别处理组；自变量通常为可度量数据。通过判别分析，可以建立能够最大限度的区分因变量类别的函数，考查自变量的组间差异是否显著，判断那些自变量对组间差异贡献最大，评估分类的程度，根据自变量的值将样本归类。
应用范围
1）信息丢失
2）直接的信息得不到
3）预报
4）破坏性实验
假设条件
1）分组类型在两种以上，且组间样本在判别值上差别明显。
2）组内样本数不得少于两个，并且样本数量比变量起码多两个。
3）所确定的判别变量不能是其他判别变量的线性组合。
4）各组样本的协方差矩阵相等。
5）各判别变量之间具有多元正态分布。
6）样品量应在所使用的自变量个数的10~20倍以上时，建立的判别函数才比较稳定；而自变量个数在8~10之间时，函数的判别效果才能比较理想。当然，在实际工作中判别函数的自变量个数往往会超过10个，但应该注意的是，自变量的个数多并不代表效果好
spss操作：“分析”～“分类”～“判别”～进入判别分析主对话框。
这里有容易引起歧义的二个变量，最上面的为分组变量。对分组变量的了解需要联系判别分析的原理以及适用范围。因为判别分析是已知分类数目的情况下，进行分析，这个已知的分类数目就是这个分组变量。其实，一般分析步骤中，都是先进行聚类分析，聚类之后得到的分类结果就是这个分组变量，然后再选择这个分组变量，进行分析。也就是，聚类分析是母亲，母亲的孩子就是判别分析。得到的判别函数就是预测想要知道的个案究竟属于哪一类。另一个变量就是选择变量，它位于主对话框的最下面。这个选择变量在回归分析相应的对话框中也有，意思就是选择你需要的变量，这个变量可以为数据窗口的一个整个变量，也可以利用子设置“值”进行选择，所以，它的名字叫做选择变量。
“统计量”子对话框：“描述性”栏，包括“均值”“单变量ANOVA”“BoxsM”
需要特别说明，以后只要见到ANOVA这个单词，它的意思就是方差分析，也就是进一步输出方差分析表，其中最重要的就是P值也就是Sig值。
BoxsM复选框：指的是输出对组协方差矩阵的等同性检验的检验结果。也就是对各类协方差矩阵相等的假设进行检验。
“函数系数”栏：其实就是将判别函数系数进行设置。包括“费雪”和“未标准化”。费雪指的是对每一类给出一组系数，并且给出该组中判别分数最大的观测量。
“矩阵”栏：都是复选框，对应相应的矩阵也就是在结果表中的四种数阵。“组内相关”“组内协方差”“分组协方差”“总体协方差”这个都是计算机自动计算，人工计算是不可能完成的任务。
“分类”子对话框：本文也提到过先验概率，先验概率就是已知一部分信息，来了解未知信息也就是后验概率。
“所有组相等”也就是如果分为几类，这所有的类中的先验概率都相等。
“根据组大小计算”各类先验概率按照和各类样本量呈正比。
“使用协方差矩阵”栏：是二个单选框。“在组内”指使用合并组内协方差矩阵进行分析
“分组”指使用各组协方差矩阵进行分析。
“输出”栏～“个案结果”：对每一个观测量输出判别分数，也就是选定变量的个案的分进哪个组的资格得分。实际类，预测类，也就是根据判别得分计算的古今对比。实际类就是目前实际上分为几类，预测类就是过去对未来预测，它们一对比，就可以知道过去和现在差别在哪里。附属选项“将个案限制在”在后面的小矩形框中输入观测量数，含义为仅输出设置的观测量结果，当个案也就是观测量太多，可以用此法。
“摘要表”输出分类小结，给出正确和错分的观测量数，和错判率。
“不考虑该个案时的分类”这个根据字面就可以理解，不赘述。
“图”栏：“合并组”生成一张包括各类的散点图，该散点图根据前两个判别函数得到，如果只有一个判别函数，则生成直方图。
“分组”复选框：有几类就有几张散点图，和上面一样，如果只有一个判别函数，就生成直方图。
“区域图”复选框：将观测量分到各组中去的区域图。此图将一张图的平面划分出类数，相同的区域，每一类占据一个区，各类的均值在各区中用星号标出，如果仅有一个判别函数，即没有此图。
“保存”子对话框：这个设置是非常重要的，并且特别直观，只要选择，就可以在数据窗口生成相应的新变量。这个新变量分别是：“预测组成员”这个预测组成员是根据判别分数，以及后验概率最大的预测分类。也就是，每个个案的预测分类。
“判别得分”这个根据名字就可以理解。该分数=没有标准化的判别系数×自变量的值+一个常数。每次运行判别过程都给出一组表明判别分数的新变量。有几个判别函数就建立几个判别函数减1的新变量。新变量名称词头为dis-。
举例：1 医学实践中根据各种化验结果，疾病症状等判断病人患有什么疾病。
2 体育人才选拔根据运动员的体形，运动成绩，生理指标，心理素质指标判断是否继续培养。
3 动植物分类
判别分析最主要的分析目的：得到判别函数，对未知个案进行预测分类。
“组成员概率”表示观测量属于哪一类的概率，有几类，就给出几类概率值，新变量默认名为dis预测分类数-判别概率，例如有三类，二个判别函数，则新变量名称可以为dis1-1,dis2-1,dis3-1,dis3-2以此类推。
逐步判别分析：只要在主对话框中选择“使用步进式方法”，就可以筛选变量，同时，方法对话框将激活。
“方法”对话框中“标准”栏的设置和线性回归的一样，不赘述。
“方法”栏：原则就是，负面指标越小越好，正面指标越大越好。负面指标是wilks lambda和未解释方差，正面指标是马氏距离，最小F值，Raos V。马氏距离在回归中越大代表这个个案为影响点可能越大，也就是，只有这个个案为影响点，它越重要，越对判别函数影响越大，把它挑出来，也就是马氏距离最大。
结果：1 sig值小于0.05，说明可以继续分析，函数具有判别作用，也就是有统计学意义。
2 数据窗口对话框，将在“保存”子对话框设置的新变量和在主对话框的分组变量进行对比，每个个案被分到哪类，以及判别得分，都一目了然。
3 根据输出表中的系数，可以写出判别函数，进行以后的预测。

回答（2）：

科普中国·科学百科：判别分析