JDB电子·(中国)官方网站

科研能力提升—基于大数据的科研分析方法及工具系列讲座（二）

2024-04-30

为提升教师科研素养、助力教师在科研项目申报立项、学术论文撰写等方面取得新的进展和突破，4月24日下午杨君岐教授开展了“基于大数据的科研分析方法及工具”系列讲座第二讲——《SPSS入门及基本数据处理》巩固讲授。本次讲座主要涵盖三方面内容：前两方面：是复习上次讲座内容：SPSS快速入门及围绕二维表的基本数据处理，第三方面介绍面向问题做数据挖掘过程：搞清问题；选择合能解决该问题的数学模型；依据自己能力选择合适分析工具和平台（SPSS是其一）；用平台求解模型；解读求解结果给出问题解决方案。

封面.png

讲座伊始，杨教授回顾了上次讲座的内容，如何利用SPSS求解问题的“三部曲”——打开数据文件、找到功能菜单、选择变量做适当设置。重申设计在SPSS中设计数据文件的重要性，并以某单位工资表为例，在解释了标准差、方差等指标涵义后，演示了通过描述统计分析功能如何在SPSS中如何操作，首先打开二维数据文件；其次演示了变量视图的编辑过程，比如行业、职称、文化成度如何定义；接着，在分析功能中，选择变量并作出适当的设置；最后，得出结果。

杨君岐教授着重强调，SPSS中Z值是指样本数据与总体平均数之间的差除以总体标准差，是描述统计分析可以直接获得的结果，也是数据标准化、无量纲化的常用手段。它可以用来衡量一个样本数据在总体中的相对位置，从而判断该数据是否为离群值。如果一个样本数据的Z值为2，则表示该数据比总体平均数大两个总体标准差。因此，这个数据可能是一个离群值。通常，Z值的取值范围是从-3.5到3.5，如果Z值在这个范围之外，则表示该数据可能是离群值。但是，这个范围也可以根据具体情况进行调整。在实际应用中，我们可以通过计算Z值来判断样本数据是否为离群值，并在数据分析过程中对离群值进行特殊处理。这有助于提高数据分析的准确性和可靠性。

图1.jpg

在讲座的最后复习了数据预处理，数据如何规范化，怎么筛选，强调了这些手段的必要性，比如在因子分析法中数据的无量纲化是模型处理的必要条件。由于时间关系这部分复习内容重点介绍了，如何利用横向汇总功能生成新的一个变量（列）便于进一步分析和模型应用，并以股票为例介绍如何将过去交易数据作为新列生成，并强调这是自回归分析中必不可少的处理技术，而自回归分析是动态预测中利用要预测变量过去资料与影响要素数据预测未来值的最佳模型之一。为了让老师们更好的理解SPSS的应用，杨君岐教授为老师们安装了软件，结合具体案例阐述指标的统计，让教师们上手操作，掌握该方法。

讲座在热烈的掌声中圆满结束，老师们纷纷表示，杨君岐教授的讲座内容主题集中、条理清晰，实用性强，增强了教师攻克科研课题难题的能力，使得教师们对今后的科研工作有了更加明确的方向和目标。