新闻公告

疫期研学丨“数据悦读”系列课程第五讲:《科学数据的采集、分析和应用》

主讲人:殷沈琴 副教授

      复旦大学人文社会科学数据研究所科学数据中心主任、硕士生导师,上海人口数据实验室副主任。主要从事科学数据管理、政府开放数据、社会管理与社会政策等领域的研究。承担和参与二十余个国家级和省部级的项目,并多次负责数据平台的规划和部署实施工作,有丰富的数据研究和落地实践经验。

本讲殷沈琴老师将重点介绍科学数据采集、分析的流程和相关技术,并结合首届“慧源共享”上海高校开放数据大赛中的“高校图书馆借阅数据集”和“ERU数据集”,进行针对性讲解。

本讲要点

    探索数据科学的流程

    基于大赛数据集的案例介绍

    数据挖掘模型介绍

    其他数据源简介

精彩观点

1 探索数据科学的流程

探索数据科学的流程如同一条Pipeline(管道):从数据的采集、探索、加工、建模、验证到报告;然后从报告重新回到采集,这样不断循环,迭代优化。分为七个步骤:

①定义需要解决的核心问题;

②围绕问题,采集所需数据;

③探索数据,对数据进行熟悉和摸底,充分了解数据的特征;

④对数据进行清洗加工、调整转换,使之符合建模需要;

⑤构建模型,发现有价值的信息;

⑥验证和评估模型的准确性;

⑦发布模型和输出报告。 

 

2 重点讲述大赛数据集的两个案例

(1)采访经费配置和预测模型

在采访经费有限、图书价格不断上涨和出版的图书逐年增多的大环境下,从四百余万条高校图书流通数据、采访数据和新闻出版总署出版的图书数据中,采纳多元回归模型,挖掘分析相关关系,构建采访经费优化配置和预测模型,科学地配置和预测高校不同学科采访经费比例,从而较大程度满足多个学科师生的个性化图书需求,提高图书的利用率。经过实证验证,模型的实用性较强,适用于重点高校的应用学科的采访和非重点高校的采访。

 

(2)ERU数据集的关联、聚类和社会网络分析

ERU数据集,涵盖某段时间范围内高校数据库的访问日志数据,它可以用于泛在知识环境下的知识发现,例如学科交叉研究分析、学科热点分析和用户信息行为分析等。本案例以ERU数据集为例,分别开展了关联分析、聚类分析及社会网络分析,抛砖引玉,揭示不同分析方法的挖掘效果和应用场景,将学科领域知识、经验和洞察力与数据挖掘方法相结合,从数据中发现有价值的知识。


▲ 20190510学术训练营之华东师范大学站

 

3   数据集链接

(1)高校图书馆业务数据集http://hdl.handle.net/20.500.12291/10022

(2)ERU数据集

http://hdl.handle.net/20.500.12304/ERU2015

http://hdl.handle.net/20.500.12304/ERU2016HSS

http://hdl.handle.net/20.500.12304/ERU2016NATURALSCIENCES