实验教学方法
实验教学方法的使用目的
使学生全面了解公共危机事件从发生到分析、警告以及提供决策的一整套流程,具体如下:
学生通过数据在公共危机事件发生前后的直观变化,深入了解引起事件发生的相关因素,为构建后续的特征工程做准备;
![]() |
最终,学生根据平台所给出的数据分析结果,提供可执行的决策建议,并评估决策执行后的影响。
实施过程:
传统的数据分析类实验教学课程,通常是对整理好的数据进行数理统计分析,缺少空间和时间相结合的分析软件。本项目将这些系统软件整合在一起,通过云计算平台进行大数据分析,使学生再学习过程中有沉浸感并强调操作的交互性,这也是传统的实验教学无法完成的。
实验方法与步骤要求
本项目采用“虚”+“实”结合的实验方法,构建基于大数据的公共危机事件预警分析虚拟仿真实验教学平台。学生通过该平台进行操作,以可视化方式了解公共危机事件发展情况,并对其、预测分析。
通过对数据的收集、集成、建模和评价等过程,掌握文本挖掘、相关分析、回归分析、趋势预测分析、综合指标评价等方法,熟悉地图、箱式图、雷达图、柱形图等多种可视化展示方法。通过统计模拟实验,了解各种统计分析方法的特点和原理,体验虚实结合的实验过程,增进学生的创新思维、实践动手能力与科学研究能力,培养具有综合性创新性的大数据人才。
学生交互性操作步骤说明
模块一:公共危机事件大数据分析基础
步骤1:接受工作任务
![]() |
步骤2:文本数据的收集
学生在虚拟仿真实验平台接受工作任务后,首先平台会提供一部分数据,学生也可以收集相关文本资料进行文本挖掘。
以本次公共危机事件新冠肺炎为例,目前我们拥有的数据,包括:日期、行政区域(国家、省市和县)、每日更新的疫情数据(确诊 、治愈、病死 和疑似、隔离、重症等)。目前疫情数据主要来自疾控中心、丁香医生、QQ疫情、百度、今日头条等媒体和渠道发布的公开数据;人口迁徙数据,主要包括人口流动情况,数据源主要为百度地图;舆情数据。流行病追踪数据,主要包括传播者、感染者、康复者、传染途径和传染类别等;其他数据,包括人口数据、医院资源、酒店餐饮、公共场所等。
从数据类型上看,除了舆情数据外大部分应该都是结构化数据,数据结构是时间、位置、特征属性、传播或迁徙关系和分类特征。学生需要在文本资料中进行文本挖掘。
步骤3:文本数据的挖掘
教导学生如何从文本中挖掘有用的信息,通过构造一定词频的数据,可进行建立词频分析和绘制词云图,进而构建关键词的知识图谱。
步骤4.数值数据的收集
指导学生如何建立指标体系和收集、整理和保存公共危机相关数据。
步骤5:数据值的读取
将建立的数据库调入系统平台。
模块二:可视化分析与模拟研究
步骤6:地理空间数据分析
基于地理分析软件Qgis可以进行各种地理分析计算和标注,主要包括地理数据多边形Polygon,线Polyline和点Point,进行过滤选择,以及计算有多少点Point落在特定Polygon多边形内。另一类就是属性表数据,可以讲将各种特征属性标注在地理数据上,比如人口密度、行政等级、疫情指数等。
步骤7:时间纵线数据分析
步骤8:统计分布模拟
在进行任何数据的统计分析前,我们都需对数据的分布做一个基本的了解,以确定采用何种统计量和统计方法进行分析。变量的分布通常可能是正态和偏态的,概念比较抽象,可通过模拟仿真使学生有直观感受。
步骤9:数据的描述统计分析
通过绘制统计图,了解和检验数据的分布情况,如何根据不同分布,计算不同的统计量来对数据进行统计描述。
模块三:模型预测及模拟仿真
步骤10:相关与回归模拟研究
根据模拟次数和模型系数,对变量间的相关关系和回归模型进行模拟
步骤11:相关与回归分析
计算两变量的相关系数,建立回归分析模型,进行影响因素分析
步骤12:模拟变量时间场景
可视化在时间序列分析和预测中起着重要的作用。原始样本数据的可视化图可以提供有价值的诊断来识别可以影响模型选择的时间结构,如趋势、周期和季节性。搭建用于多变量时间序列预测的 LSTM 模型。可以无缝建模具备多个输入变量的问题
步骤13:趋势模型预测的模拟仿真
模拟变量的趋势模型,趋势模型通常有一次模型(直线)、对数模型(对数曲线)、指数模型(指数曲线)和冥函数模型(冥函数曲线)。通过建立变量的趋势预测模型,对公共危机事件的发展态势进行精准的预测。
步骤14:综合评价指数构建及变动分析
应用综合评价方法构件地区公共危机事件的综合指数,进行可视化分析。
步骤15:提交公共危机事件大数据分析与预警报告
实验结果与结论要求
(1)是否记录每步实验结果:是
(2)实验结果与结论要求:实验报告
(3)其他描述:要求学生掌握数据的收集、数据的整理和数据的分析技术。学会和运用数据的可视化分析技术;统计方法的模拟和仿真方法;统计模型的建立与模拟技术;综合评价与虚拟真方法。