2018年中国科学院继续教育网科研人员在线学习数据集
作者:赵以霞 金昆 郑晓欢 孔丽华
2019年9月26日
本作品收录于《中国科学数据
赵以霞, 金昆, 郑晓欢, 孔丽华. 2018年中国科学院继续教育网科研人员在线学习数据集[J/OL]. 中国科学数据, 2019, 4(3). (2019-09-18). DOI: 10.11922/csdata.2019.0012.zh.


    摘要&关键词

    摘要:为更好地面向科研人员提供学习服务,促进科技创新发展,中国科学院继续教育网为科研人员提供在线学习服务,科研人员自主选学课程。2018年1月1日至2018年12月31日,共积累219472条学习数据,学习时长为212382.74小时。初步数据分析结果显示,10–12时和14–18时是学习行为产生的高峰期,但晚上18–24时也有相当数量的学习行为,不可忽视。每次学习时长与性别年龄无显著相关,科研人员最感兴趣的学习内容更多聚焦在人工智能和大数据方面。通过数据集,可以分析不同专业技术职称、不同年龄、不同性别、不同工作年限科研人员的在线学习时间点倾向、学习内容倾向和学习时长倾向,为精准服务科研人员在线学习奠定基础。

    关键词:科研人员;在线学习;继续教育网;学习分析

    Abstract & Keywords

    Abstract: In order to promote scientific and technological innovation and development, the Continuing Education Network of the Chinese Academy of Sciences (CASMOOC) provides online learning services where researchers choose courses independently. This study examines a time period from January 1, 2018 to December 31, 2018, through which 219,472 data entries were accumulated, amounting to a total learning time of 21,282.74 hours. It shows that online learning behavior arrives at its peak at 10am to 12am and 14pm to 18pm while we should not ignore that considerable learning behaviors occur at 18pm to 24pm. There is no significant correlation exists among learning duration, gender and age, and artificial intelligence and big data are on the highest demand. The data set provides a locus for analyzing the tendencies of researchers’ online learning time, content and duration across a variety of professional and technical titles, ages, genders and working years, which lays a precise foundation for online curriculum design of scientific researchers.

    Keywords: scientific researchers; online learning; CASMOOC; learning analysis

    数据库(集)基本信息简介

    数据库(集)名称 2018年中国科学院继续教育网科研人员在线学习数据集
    数据作者 赵以霞、金昆、郑晓欢、孔丽华
    数据通信作者 赵以霞(zyx@cnic.cn)
    数据时间范围 2018年
    调查范围 中国科学院129个机构科研职工
    数据量 42299 KB,219472条
    数据格式 *.xlsx
    数据服务系统网址 http://www.sciencedb.cn/dataSet/handle/752
    基金项目 中国科学院“十三五”信息化建设子课题“服务人才高地建设的智慧终身学习平台”(2017-2018)。
    数据库(集)组成 数据集由3个数据表单组成:“所有选学数据”“仅选学未学”和“选学且学习”。“所有选学数据”表单包括219472条数据;“仅选学未学”表单包括12716条数据;“选学且学习”表单包括206756条数据。“所有选学数据”表单和“仅选学未学”表单的样本数据共有11个字段,其中基本信息有5个字段;“选学且学习”表单的样本数据共有12个字段,基本信息有5个字段。

    Dataset Profile

    Title Online learning data set for scientists on CASMOOC in 2018
    Data corresponding author Zhao Yixia (zyx@cnic.cn)
    Data authors Zhao Yixia, Jin Kun, Zheng Xiaohuan, Kong Lihua
    Time range 2018
    Survey scope Research Staff of 129 Institutions of Chinese Academy of Sciences
    Data volume 42,299 KB, 219,472 entries
    Data format *.xlsx
    Data service system <http://www.sciencedb.cn/dataSet/handle/752>
    Source of funding E-learning System Project of the 13th Five-Year Informatization Program of the Chinese Academy of Sciences (2017-2018).
    Dataset composition The data set consists of three data sheets, namely, “All Selected Courses”, “Selected but not Attended” and “Selected and Attended”. “All Selected Courses” includes 219 472 pieces of data; “Selected but not Attended” includes 12,716 pieces of data; and “Selected and Attended” includes 206,756 pieces of data. Each entry of “All Selected Courses” and “Selected but not Attended” have 11 data fields, of which 5 fields account for basic information, while “Selected and Attended” has 12 fields, of which 5 fields account for basic information.


    引 言

    2011年,新媒体联盟(New Media Consortium,NMC)发布《地平线报告(高教版)》,预测学习分析技术将在4–5年内应用起来,并将学习分析定义为大范围收集学生的学习数据并加以分析,从而评价学生的学习进度、预测其未来的学习表现,并查找潜在的问题[1]。2011–2019年,旨在促进个性化学习的学习分析技术与自适应学习一直是新媒体联盟地平线报告所预测的技术趋势。随着MOOC(Massive Open Online Courses,大规模开放在线课程)的发展,在线学习数据迅速积累起来,进一步推动了基于在线学习数据开展用户分析。2014年6月,哈佛大学和麻省理工学院联合发布了经过整理的2012–2013学年edX平台(麻省理工和哈佛大学于2012年4月联手创建的大规模开放在线课堂平台,网址www.edx.org/course)16门课程开放数据供全球研究者使用[2]。2014年,罗切斯特大学计算机科学副教授菲利普·郭,针对edX数学和科学课程的862个视频课程,基于12.8万人的690万条视频在线观看记录数据,开展分析,研究受欢迎的课程媒体形式[3]。为提升专业技术人员能力,我国人力资源和社会保障部发布2015年《专业技术人员继续教育规定》,对专业技术人员的学习时间提出要求,并明确参加远程教育是有效的继续教育学习方式之一。不同于其他专业技术人员,国家相关行业会提出明确的公需课和专业课学习要求,并组织实施,自然科学研究人员的学习具有更强的自主性。为此,中国科学院专门建设中国科学院继续教育网,为科研人员提供自主学习服务,促进知识更新。本数据集是基于2018年中国科学院科研人员的学习习惯建立的学习数据,通过分析不同专业技术职称、不同年龄、不同性别、不同工作年限科研人员的在线学习时间点倾向、学习内容倾向和学习时长倾向,可以为精准服务科研人员在线学习奠定基础。

    1 数据采集和处理方法

    为获得科研人员学习数据,本研究构建起科研人员专属的在线学习平台,汇聚各类课程资源,进而记录科研人员在线选学课程和学习时长。

    1.1 学习平台开发设计

    为面向中国科学院100多个科研机构的科研人员提供有针对性的学习服务,研发中国科学院继续教育网,支持各院属机构组织管理培训,发布资源,管理人员,进行统计分析。科研人员登陆中国科学院继续教育网可以自主选学课件,报名培训班,并围绕课件、培训班等资源进行交流互动[4]

    1.2 建设和汇聚在线学习资源

    MOOC的发展,为用户带来了大规模学习资源的同时,也会带来信息过载问题。中国科学院继续教育网实现了自主研发资源和汇聚外部资源功能,主要由各科研院所自主上传和汇聚。截至2018年底,共积累3062个课件资源,包括三分屏课件、视频课件、微课件、单一文档(PPT、PDF、WORD等),以及外部优质资源链接。

    1.3 在线学习数据记录收集与清洗

    (1)数据收集:中科院继续教育网用户信息由各研究院所维护,本研究利用中科院继续教育网的职工在线学习统计功能,直接获得2018年1月1日至2018年12月31日科研人员在线学习数据。

    (2)数据清洗:结合本研究目的,剔除管理人员、支撑人员、工人等人群的学习数据,最终得到科研人员在线学习数据集。由于部分院属单位对于人员的标识不完整,科研人员属性值缺失,本文仅保留具有明确的科研人员属性值且标识专业技术职称的学习数据。

    (3)数据处理:由于涉及科研人员的个人信息,为保护隐私数据,本文采用编号标识科研人员唯一性,并将出生年月和入所工作时间进行计算,转换为年龄和工作年限予以标识。为进一步分析学习时间段特点,将数据集划分为12个时间段,即每2小时为1个时间段,从0–2时开始,至22–24时。

    1.4 样本数据人口统计特征

    本文最终得到219472条学习数据,来自10360名科研人员,其中选学并学习为206756条,仅选学并未学习有12716条。206756条学习数据由10245位科研人员产生,学时合计为212382.74小时。针对重点分析学习行为,本文重点统计10245人的基本信息,其人口统计特征如下(详见数据集性别、年龄、工作年限、职称)。10245名科研人员中,有6846位男性科研工作者,占比66.82%,3399名女性科研工作者,占比33.18%。在线学习科研人员年龄方面,31~50岁的科研人员占比78.87%;从事工作年限方面,集中在三个区域“1~5年”“6~10年”“11~20年”,共占比89.71%;受访者专业技术职称方面,初级占比7.67%,中级占比41.03%,副高级占比35.93%;正高级占比15.36%(详细见表1)。


    表1 样本人口统计基本特征描述

    序号 样本特征 具体统计 样本数 百分比
    1 年龄 30岁以下31~40岁41~50岁51~60岁61岁以上 109858872193102839 10.72%57.46%21.41%10.03%0.38%
    2 性别 男女 68463399 66.82%33.18%
    3 工作年限 1年以下1~5年6~10年11~20年20~30年30年以上 3212335413527637414 0.03%20.72%34.56%34.43%6.22%4.04%
    4 职称 初级专业技术人员 786 7.67%
    中级专业技术人员 4204 41.04%
    副高级专业技术人员 3681 35.93%
    正高级专业技术人员 1574 15.36%
    5 合计 10245 100%


    2 数据样本描述

    本数据集的数据存储于Excel文件的3个数据表单中,“所有选学数据”表单存放10360名科研人员2018年课件选学和学习相关数据,共有219472条学习记录;“仅选学未学”表单存放具有选学行为、但未开始学习的12716条数据记录;“选学且学习”表单存放选学且有学习行为的206756条学习记录。这3个数据表单所包含的具体字段名称、类型及示例见表2。关于课程时长字段数值,取值范围在0.05~48之间,平均值为1.27小时。


    表2 所有选学数据内容

    字段名称 数据类型 示例
    1 人员ID 字符型 53143
    2 性别 布尔型
    3 年龄(岁) 数值型 47
    4 工作年限(年) 数值型 5
    5 职级 字符型 正高级
    6 课程ID 字符型 1493371795041
    7 课程名称 字符型 微积分:8分钟白话(中文)
    8 课程时长(小时) 数值型 0.2
    9 学习日期 日期型 2018/1/1
    10 学习时间 时间型 9:10:16
    11 学习时长(小时) 数值型 0.13


    3 数据质量控制和评估

    3.1 质量控制

    数据集质量主要通过系统限定实现,以人工干预为辅。在设计在线学习功能时,实现20分钟内需要答题继续记录学时,否则中断记录;在线学习统计功能,实现同一课件跨年度重新选学,课件学习时长小于课件时长记录,限制用户多个浏览器终端或浏览器同时学习,并实现课件继续学习功能,支持断点续学。

    人工干预方面,主要是对最终收集的数据进行转换,剔除人员敏感信息,结合本文研究目的,分离仅选学未有学习行为和有学习行为的数据。虽然没有学习行为,但选学课程到个人学习空间,也代表用户的一种兴趣和需求,因此,本文将此类数据保留到了数据集中。

    3.2 质量评估

    本文提供的2018年科研人员在线学习数据集,通过研究院所维护保障人员信息的真实性,并通过设定系列学时计算规则控制数据质量,保障数据的可用性和真实性,可以基于此学习数据集开展系列学习分析工作。

    (1)学习行为与选学行为比例分析

    学习率在选学中达到94%,选学某个课件但从未点击开始学习的比例为6%,转化率较好,这为在线资源开发和推送提供依据(图1)。


    图1 选学转化率


    (2)不同职称男女学习比例分析

    根据中国科学院统计年鉴,中科院科研人员专业技术岗位的男女比例约为2.2∶1。本数据集中,具有学习行为的男女科研人员比例为2∶1,说明女性在线学习积极度略高于男性科研人员。在副高级选学人数中,男女选学比例与实际人员数据男女统计比例基本一致;而在初级、中级和正高级的科研人员选学男女比例中,均显示女性科研人员在线选学比男性科研人员更积极一些(图2)。


    图2 不同性别和职称学习数据对比


    (3)不同职称不同性别人均年累计学习时长分析

    对不同职称级别的男性和女性科研人员的年累计学习时长分别求平均值,可以看出男性科研人员的年累计学习时长均高于女性,在正高级科研人员中,尤为突出。而随着职称的提升,科研人员的人均年累计学习数据有较为明显的下降,女性科研人员人均年累计学时从23小时降低到16小时,而男性科研人员人均年累计学时从23小时降低到19小时(图3)。


    图3 不同性别和职称人均学习时长对比


    (4)学习时间段规律

    初级、中级、副高级和正高级人员的学习时间段呈现较为一致的趋势,主要集中在上午10–12时、14–18时,而18–24时也是不可忽视的学习时间段,这为后续精准推送学习资源的时间提供了参考,使得资源能够更有效地为科研人员学习(图4)。


    图4 不同职称人员学习时间段对比


    (5)不同年龄每次学习时长特点

    利用学习时长数据除以学习记录数据,得到平均每次学习时长,该学习时长与课件时长有较强相关性。结合不同年龄和性别进行分析,可以看出每次学习时长数和年龄、性别无明显相关,基本都在1小时左右(图5)。对数据进行深入分析,可得到更多学习规律。


    图5 不同年龄和性别每次学习时长对比


    (6)已学习课程与未学习课程分析

    共汇聚3062个课件资源,1915个课程被选学,选学率仅达到63%,还有1147个课件从未被选学。通过分析1915个课程的特点,为后续研发课件资源提供支持。

    (7)最受欢迎课程分析

    按照选学人次对课程进行排序,选课人数在1000人以上的课程,共有11个,集中在大数据、人工智能、信息技术等方面,如表3所示。


    表3 选学最多的课程排名

    序号 课程名称 选学人数
    1 大数据与数据智能 1587
    2 人工智能:天使还是恶魔? 1477
    3 深度学习研究进展与现状 1403
    4 信息技术发展趋势 1373
    5 核化学与放射化学基础知识 1333
    6 锶原子光晶格钟 1188
    7 用心陪伴我们的孩子 1120
    8 天旋、岁差与中西之争:清代思想史的故事 1077
    9 天工论坛第19期-太阳能人工光合成 1074
    10 以现代化经济体系支撑“两个一百年”的宏伟蓝图 1044
    11 新量子革命:从量子物理基础检测到量子信息技术 1021


    4 数据使用方法和建议

    2018年中国科学院继续教育网科研人员在线学习数据集以EXCEL存储,使用者可以通过EXCEL工具或转换格式导入到数据库进行查看、检索、分析、数据挖掘等操作。可以通过关联规则挖掘课程之间的关系,构建推荐系统,在基于学习行为分析的个性推荐方面开展深入研究和应用,进一步提升中科院继续教育网的智能化水平。

    致 谢

    感谢在中国科学院继续教育网开发及资源研发中贡献智慧的专家和研发人员。

    参考文献

    1. New Media Consortium. 2011 Horizon Report[EB/OL]. (2011-02-08) [2019-09-23]. https://library.educause.edu/resources/2011/2/2011-horizon-report.
    2. MITx and HarvardX. HarvardX-MITx Person-Course Academic Year 2013 De-Identified dataset, version 2.0[EB/OL]. (2014-06-09) [2019-09-23]. http://thedata.harvard.edu/dvn/dv/mxhx.
    3. HAZLETT C. How MOOC Video Production Affects Student Engagement[EB/OL]. (2014-03-12) [2019-09-23]. https://blog.edx.org/how-mooc-video-production-affects.
    4. 赵以霞, 金昆, 金瑛. 网络环境下科研人员继续教育内容研究——以中国科学院继续教育网资源为例[J]. 科研信息化技术与应用, 2018, 9(06): 31-38.

    数据引用格式

    赵以霞, 金昆, 郑晓欢, 孔丽华. 2018年中国科学院继续教育网科研人员在线学习数据集[DB/OL]. Science Data Bank, 2019. (2019-04-14). DOI: 10.11922/sciencedb.752.