Logistic回归是分类资料回归分析的一种,而且是最基础的一种。Logistic回归应用广泛、关注度较高,在医学研究、市场研究等方面比较流行。CNKI学术搜索给出的学术关注度,可见其被广泛关注应用程度和时间序列的关系。
Logistic回归主要应用领域
1、影响因素、危险因素分析
主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,也即影响因素分析。包括从多个可疑影响因素中筛选出具有显著影响的因素变量,还包括仅考察某单一因素是否为影响某一事件发生与否的因素。
2、预测是否发生、发生的概率
如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。
3、判别、分类
实际上跟预测有些类似,也是根据logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。
Logistic回归案例一枚
源数据:数据来自《Clementine数据挖掘方法及应用》中案例数据BuyOrNot.sav,包含431个样本数据,变量有:是否购买(0未购买,1购买)、年龄、性别(1男、2女)和收入水平(1高收入、2中收入、3低收入)。年龄为数值变量,其他为分类变量。
数据分析的目标:(仅基于此样本)年龄、性别、收入,哪些因素在影响购买决策?
参考工具书:张文彤,《 SPSS 11 统计分析高级教程》;薛薇《Clementine数据挖掘方法及应用》。
以下为案例:
案例详解SPSS聚类分析全过程
案例详解SPSS聚类分析全过程
案例数据源:
有20种12盎司啤酒成分和价格的数据,变量包括啤酒名称、热量、钠含量、酒精含量、价格。【一】问题一:选择那些变量进行聚类?——采用“R型聚类”
1、现在我们有4个变量用来对啤酒分类,是否有必要将4个变量都纳入作为分类变量呢?热量、钠含量、酒精含量这3个指标是要通过化验员的辛苦努力来测定,而且还有花费不少成本,如果都纳入分析的话,岂不太麻烦太浪费?所以,有必要对4个变量进行降维处理,这里采用spss R型聚类(变量聚类),对4个变量进行降维处理。输出“相似性矩阵”有助于我们理解降维的过程。
2、4个分类变量量纲各自不同,这一次我们先确定用相似性来测度,度量标准选用pearson系数,聚类方法选最远元素,此时,涉及到相关,4个变量可不用标准化处理,将来的相似性矩阵里的数字为相关系数。若果有某两个变量的相关系数接近1或-1,说明两个变量可互相替代。3、只输出“树状图”就可以了,个人觉得冰柱图很复杂,看起来没有树状图清晰明了。从proximitymatrix表中可以看出热量和酒精含量两个变量相关系数0.903,最大,二者选其一即可,没有必要都作为聚类变量,导致成本增加。至于热量和酒精含量选择哪一个作为典型指标来代替原来的两个变量,可以根据专业知识或测定的难易程度决定。(与因子分析不同,是完全踢掉其中一个变量以达到降维的目的。)这里选用酒精含量,至此,确定出用于聚类的变量为:酒精含量,钠含量,价格。
【二】问题二:20中啤酒能分为几类?——采用“Q型聚类”1、现在开始对20中啤酒进行聚类。开始不确定应该分为几类,暂时用一个3-5类范围来试探。Q型聚类要求量纲相同,所以我们需要对数据标准化,这一回用欧式距离平方进行测度。2、主要通过树状图和冰柱图来理解类别。最终是分为4类还是3类,这是个复杂的过程,需要专业知识和最初的目的来识别。我这里试着确定分为4类。选择“保存”,则在数据区域内会自动生成聚类结果。【三】问题三:用于聚类的变量对聚类过程、结果又贡献么,有用么?——采用“单因素方差分析”1、聚类分析除了对类别的确定需讨论外,还有一个比较关键的问题就是分类变量到底对聚类有没有作用有没有贡献,如果有个别变量对分类没有作用的话,应该剔除。2、这个过程一般用单因素方差分析来判断。注意此时,因子变量选择聚为4类的结果,而将三个聚类变量作为因变量处理。方差分析结果显示,三个聚类变量sig值均极显著,我们用于分类的3个变量对分类有作用,可以使用,作为聚类变量是比较合理的。【四】问题四:聚类结果的解释?——采用”均值比较描述统计“1、聚类分析最后一步,也是最为困难的就是对分出的各类进行定义解释,描述各类的特征,即各类别特征描述。这需要专业知识作为基础并结合分析目的才能得出。2、我们可以采用spss的means均值比较过程,或者excel的透视表功能对各类的各个指标进行描述。其中,report报表用于描述聚类结果。对各类指标的比较来初步定义类别,主要根据专业知识来判定。这里到此为止。以上过程涉及到spss层次聚类中的Q型聚类和R型聚类,单因素方差分析,means过程等,是一个很不错的多种分析方法联合使用的案例。
spss数据分析论文详细步骤
SPSS软件主要用于对数据做统计学方面的一些分析和检验,是用于对数据进行一些基本处理、分析,以及做一些统计检验的软件,使用SPSS分析数据通常有以下几步:导入数据——>数据基本处理——>数据分析——>总结并得出结论
。
打开SPSS后会出现两个界面,如下图;图一是数据处理分析区,包括数据视图(数据处理区)和变量视图(数据包含各字段编辑区);图二是分析结果区,分析的各类结果都会在此显示。导入数据:在数据处理区左上方选择“文件”——>“导入数据”,导入相应格式的数据,此处我以csv文件格式为例。点击之后,出现如下对话框,选择好要处理的数据,点击“打开”,对要导入数据数据按需要进行预处理,再点击确定。
spss数据分析一般步骤
SPSS软件主要用于对数据做统计学方面的一些分析和检验,是用于对数据进行一些基本处理、分析,以及做一些统计检验的软件。
那么,你们知道在使用spss分析数据通常有哪几个步骤吗?一般整体是分为4个步骤的:导入数据——>数据基本处理——>数据分析——>总结并得出结论。具体是怎么样的呢?一起来看看吧!
步骤如下:
1、我们在打开SPSS软件后会出现两个界面,如下图;
图1:是数据处理分析区,包括数据视图(数据处理区)和变量视图(数据包含各字段编辑区)。
图2:是分析结果区,分析的各类结果都会在此显示。
2、我们进行导入数据;在数据处理区左上方选择【文件】;找到【导入数据】,导入相应格式的数据,此处我以csv文件格式为例。
3、点击之后,出现如下对话框,选择好要处理的数据,点击【打开】,对要导入数据数据按需要进行预处理,再点击【确定】。
4、稍等片刻,等待数据加载完成。
图1:为数据视图。
图2:为变量视图。(可查看各变量类型是否正确,并按需求做修改,此处示例无需修改)
5、数据处理及分析:
(1)、对数据的处理操作可在【数据】和【转换】中实现;统计分析都在【分析】中(红框中为常用项);若需画图,在【图形】中的【图标构建器】。
(2)、在处理前最好明确自己的分析目标,如我只想知道:示例数据中,影片排名与影片评分的相关关系。(可参照图片,查看相关系数和散点图)(注:处理时尽量不要对原始数据做更改,可以新建一列)
(3)、接着,我们在【双变量相关性】中进行设置,然后,点击【确定】的按钮。
(4)、这时候,我们可以看到相关性的相关数据。
(5)、下面,我们找打【图形】,在子菜单中,我们找到【图标构建器】进行点击。
(6)、最后,我们进行相关设置即可。
好了,这就是关于spss数据分析的完整步骤了,你们学会了吗?今天就到这里,下期再见吧!
本篇文章使用以下硬件型号:联想小新Air15;系统版本:win10;软件版本:spss21版本。
相关推荐: