文档章节

教育 | 学生群体分析

openfea
 openfea
发布于 2017/02/15 19:41
字数 1222
阅读 24
收藏 0

什么是群体分析?

通俗的讲,就是一类人或者一类事情通过分析后,获得共同的特征属性或者特异的特征属性,是一种对群体画标签的方法。

那么,怎么进行群体分析呢?

第一步,要学会分群。可以使用机器学习算法中的分类与聚类等,当然也可以人为地对事物进行分类。

第二步,对分类好的数据进行分析,画出对应的标签。本文将使用人为分类的办法,对学霸与学渣在图书馆借书、图书馆出入情况进行分析,剖析出学霸与学渣借书的区别,用数据说明学渣是不是一定不去图书馆等问题。

一、数据准备

(一)表结构说明 

加载已经对每个学生ID进行多维度画像的df表,df表的结构如下:

(二)记录条数说明

总共包含29列,总共记录条数为21605条,如下:

(三)记录内容说明

数据记录如下:

二、数据分类

(一)数据分类思路

根据学院和学生成绩的排名,取不同学院的前50名和后50名,对不同学院前50名的学霸组成一张表a,对不同学院倒数后50名的组合生成一张表b。分别对a、b表做异常数据的剔除,最后获得学霸和学渣数据各969条数。

(二)步骤

1、对导入FEA的df表做排序操作,排序的对象为college列和score_pm列,使用如下语句:

df=order df by (college,score_pm) with (desc,asc)

2、使用foreach循环,分别获取各学院的学霸与学渣记录;

3、组成a表和b表,并处理异常数据;

三、群体分析

(一)群体分析思路

第一种,取消费、住宿等维度的平均值进行比较。

第二种,只取学生成绩、学生图书馆借书、学生进出记录关联分析,抛开住宿、消费维度。

(二)分析过程

第一种我做过,结果如下:

比较结果无法区分学霸与学渣之间鲜明的特征,最大的两个特征是学渣获得的助学金多,学霸晚归次数比较多,消费平均数比较大。

去查找了为什么产生这种没有鲜明特征的原因,发现本次数据是经过脱敏处理的,学生成绩排名不分年级,不分专业,只是将所有成绩按学分加权求和,然后除以学分总和,再按照学生所在学院排序。所以,低年级学生怎么可能比高年级学生学分高啊?!

通过第一种思路的分析,说明我们本次数据准备并不完美,或者说本身就是有一定的错误存在。学霸的数据应该是高年级同学中的学霸,而不是学院中各年级各专业的学霸,学渣可能是低年级学渣占多数,而且过几年他们不一定是学渣。所以本次群体分析的立论,应该改为高年级学霸与低年级学渣比较合适。

通过第二种思路,我们只分析图书馆借书维度。先分析学霸和学渣中有多少人没有借过书?

学霸有197人没有借书,学渣有181没有借书。再分析借书总数、平均数、借书人平均数等数据。

接着,分析学霸与学渣都关注哪种类型的书籍。

因为本数据来自工科类大学,所以工业技术类书籍占到第一。第二是文学类,第三语言与文字,第四数理化,第五是经济,第六是哲学,第七是政治法律,第八是历史,具体排名见最后图表。

最后,我们看一下借书类型的总次数。

通过上图发现学渣同学比学霸借的书多,具体排名为:第一是语言、文学,第二是经济,第三是政治、法律。但是学霸与学渣借书的类型、数量上相差不大。

四、群体分析结论

通过上面分析,我们得出以下结论:

第一、学霸、学渣人数各969,但是学霸不借书的人数多于学渣;

第二、学霸借书平均数大于学渣;

第三、被分类到学渣类的同学去图书馆平均次数多于学霸,估计原因为高年级学霸到后期可能忙着找工作;

第四、被分类到学渣类的同学,比学霸更加关注经济、政治、法律、文字、语言类的书籍。

第五、从数据可以看出,学霸与学渣都是很努力学习的。

© 著作权归作者所有

openfea
粉丝 18
博文 86
码字总数 95615
作品 1
杭州
其他
私信 提问
CIO时代APP微讲座:成都信息工程大学舒红平谈应用大数据技术深化教育信息资源

2月13日,成都信息工程大学软件工程学院院长、教授舒红平在CIO时代APP微讲座栏目作了题为《运用大数据技术深化教育信息资源应用》的主题分享,他对自己在教育领域的思考和想法作出了分享。 ...

玄学酱
2018/04/18
0
0
你所不知道的Learning Analytics

前言 在介绍Learning Analytics之前,我先简单介绍一下我自己,以及开这个专栏在初衷。 我是哥伦比亚大学教育学院人类发展系学习分析专业的在读研究生,这是我在这个项目的第三个学期,眼下正...

JIE_2017
2017/12/09
0
0
大数据和AI怎么与现代教育相结合?

来源:刘鹏看未来 本文长度为2600字,建议阅读8分钟 未来大数据、人工智能对教育的变革将持续发酵。 欢迎转载,须署名并注明来自“刘鹏看未来”公众号,并保留本句。 比尔·盖茨曾预言,“5...

enohtzvqijxo00atz3y8
2017/12/19
0
0
4至10年内数据科学家的市场需求将减少...

来源:大数据文摘 本文长度为1500字,建议阅读3分钟 本文用图表为你分析该预测的原因。 根据近1200份投票的统计结果显示,KDnuggets的读者认为对数据科学家/机器学习专家的需求将在未来4至1...

enohtzvqijxo00atz3y8
2017/12/13
0
0
腾讯网2016回响中国:华清远见荣获2016年度知名IT培训品牌

12月1日,由腾讯网主办的“2016回响中国·腾讯网教育年度盛典”上,揭晓了“2016腾讯网教育年度总评榜”榜单。高端IT就业培训专家——华清远见教育集团凭借自身优质的高薪IT就业服务优势成功...

华清远见
2016/12/02
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周日乱弹 —— 我,小小编辑,食人族酋长

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @宇辰OSC :分享娃娃的单曲《飘洋过海来看你》: #今日歌曲推荐# 《飘洋过海来看你》- 娃娃 手机党少年们想听歌,请使劲儿戳(这里) @宇辰OSC...

小小编辑
今天
723
10
MongoDB系列-- SpringBoot 中对 MongoDB 的 基本操作

SpringBoot 中对 MongoDB 的 基本操作 Database 库的创建 首先 在MongoDB 操作客户端 Robo 3T 中 创建数据库: 增加用户User: 创建 Collections 集合(类似mysql 中的 表): 后面我们大部分都...

TcWong
今天
40
0
spring cloud

一、从面试题入手 1.1、什么事微服务 1.2、微服务之间如何独立通讯的 1.3、springCloud和Dubbo有哪些区别 1.通信机制:DUbbo基于RPC远程过程调用;微服务cloud基于http restFUL API 1.4、spr...

榴莲黑芝麻糊
今天
26
0
Executor线程池原理与源码解读

线程池为线程生命周期的开销和资源不足问题提供了解决方 案。通过对多个任务重用线程,线程创建的开销被分摊到了多个任务上。 线程实现方式 Thread、Runnable、Callable //实现Runnable接口的...

小强的进阶之路
昨天
75
0
maven 环境隔离

解决问题 即 在 resource 文件夹下面 ,新增对应的资源配置文件夹,对应 开发,测试,生产的不同的配置内容 <resources> <resource> <directory>src/main/resources.${deplo......

之渊
昨天
74
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部