文档章节

Follow me!百万奖金由你拿 | 学霸去哪了(二)

openfea
 openfea
发布于 2017/01/24 10:29
字数 1378
阅读 22
收藏 0

在上一篇中我们跟随大神的脚步,探讨了学生的消费数据,消费数据对本次竞赛预测来讲很重要。本篇将探索寝室门禁、图书借阅、图书馆门禁和学生成绩等一些和学生学习相关的数据,来看看学生的品行如何,虽然资助金和奖学金的性质不太一样,但我们毕竟还是想资助那些品学兼优的学生,而不是资助虽然家境很贫寒但不学无术的学生。

所以本篇探索的数据可以比较好的反应出这些情况。当然这里面还隐藏了更好玩的话题,学霸去哪了?话不多说,let's go!

一、数据介绍

OpenFEA已经将上述数据存放到了OpenFEA在线试用环境的match/fund目录下,具体在www.openfea.cn下载专区里有介绍。

二、数据探索

(一) 寝室门禁数据分析

1、 加载寝室门禁数据

因为原始数据没有列名,所以加with (header=-1)为各列自动填写列名。

加载寝室门禁数据

2、 修改字段名

分别用id、time、isout表示学生编号、进出寝室时间、进出寝室。

3、 提取时间中的小时为单独的一列

 

4、 修改hour字段类型为数字类型

5、 过滤出深夜出入寝室的人

6、 分组统计

按照id字段进行分组统计,统计每个学生深夜进出寝室的次数。

7、 绘图

图形展示学生深夜出入寝室的数据。

2131多条记录中,共涉及1297人,最多的34次,最少的1次,平均2.08次。元芳,你怎么看呢?

(二) 图书借阅数据分析

1、加载图书借阅数据

由于原始数据中有逗号,会在加载时被认为是分隔符,所以我们需要采用一个全文没有出现的分割符`,将数据按一整行加载成为DF表。同时由于原始数据没有列名,需要为各列自动填写列名,所以参数处需添加with (header=-1,sep="`") 。

2、修改字段名

3、字符串处理

通过lambda函数将raw字段中的”,”和,”替换为$,然后按分隔符$分割为几个不同的list,具体表达式为x: x.replace ('","','$').replace (',"','$').split("$")

4、分割列

将raw字段按照分隔符分割为几个不同的列。

此数据主要可以分析借阅次数(本书),阅读时间等,要想再深入一些可以分析阅读的门类等,就不详细介绍了。

(三) 图书馆门禁数据分析

1、 加载图书馆门禁数据

因为原始数据没有列名,所以加with (header=-1)为各列自动填写列名。 

2、修改字段名

分别用id、gate、time表示学生编号、门禁编号、时间。

3、 分组统计

按照id字段进行分组统计,统计每个学生进出图书馆的次数。

4、 绘图

图形展示学生出入图书馆的数据。

最多的学生是1485次,最少的居然两年只去1次(惨不忍睹,都忙啥了?),平均是122次。去的次数最多的是不是学习成绩最好呢,一会我们验证一下。

(四) 学生成绩数据分析

1、 加载学生成绩数据

因为原始数据没有列名,所以加with (header=-1)为各列自动填写列名。 

加载学生成绩数据

2、 修改字段名

分别用id、college、score表示学生编号、学院编号、成绩排名。 

成绩数据就这样了,我们来看一下图书馆次数最多的学生成绩到底怎么样,是真的一份耕耘一份收获,还是在磨洋工装样子呢。

3、 对分组统计好的图书馆门禁数据进行重置索引

4、修改该数据的字段名,将index修改为id。

5、取去图书馆次数最多的100人

6、和成绩数据进行关联

  

7、设置id列为索引

8、删除college列

9、将数据按照进出图书馆次数进行排序

10、绘图

黄线代表去图书馆的次数,红线代表成绩的排名,看完这个也很心塞啊!其中最好的才排学院30名,比比都是500名开外,都在图书馆干嘛了呢?

好吧,再来看看学院的学霸们(前100名)到底去不去图书馆呢?

11、取每个学院的前100名

12、和分组统计后的进出图书馆书架进行关联 

13、设置id字段为索引

14、由于count字段中有控制,所以我们用数字0来填充空值

15、删除college列

16、将数据按照成绩和进出图书馆次数进行排序

17、修改字段名,分别将id和count修改为“成绩排名”和“去图书馆次数”

看这满屏的0,不知你作何感想?禁不住要问学霸去哪了?这还是以前的大学图书馆吗?

18、绘图

红色代表成绩,黄色代表去图书馆的次数,去图书馆的平均线是105,看来"死读书"是越来越没市场了。^V^

有兴趣的同学,可以将学霸的数据和深夜外出的数据碰一下,看看学霸到底去哪了。

© 著作权归作者所有

openfea
粉丝 18
博文 86
码字总数 95615
作品 1
杭州
其他
私信 提问
百万英雄类答题游戏的程序员打开方式

最近知识答题类的app应用和网站 都很火 所以机器人多了,,百度度秘、搜狗小汪等 Python发挥了很大作用 《百万英雄》《冲顶大会》《头脑王者》《一站到底》《芝士超人》《黄金十秒》《百万赢...

English0523
2018/01/12
0
0
汪仔重出江湖开挂撒币大战 引画风突变

  【IT168 资讯】“撒币”、“瓜分百万奖金”、“直播答题”……2018 刚开年,互联网行业又出现一个新玩法,短短十几天内,四五个直播答题软件相继火了:王思聪投资的 “冲顶大会”,映客推...

it168网站
2018/01/11
0
0
2017华为开发者大赛——CloudCaaS与您“在一起,梦飞扬“

指尖寻梦,百万大奖……你与这只差一个报名,华为开发者大赛CloundCaaS赛区愿与你携手并进,让你的梦想走进千家万户! 一、大赛时间: 报名时间:2017/6/6 – 2017/7/25 作品提交时间:6月30日...

兰同学
2017/06/13
1K
1
2017华为开发者大赛——CloudCaaS与您“在一起,梦飞扬“

指尖寻梦,百万大奖……你与这只差一个报名,华为开发者大赛CloundCaaS赛区愿与你携手并进,让你的梦想走进千家万户! 一、大赛时间: 报名时间:2017/6/6 – 2017/7/25 作品提交时间:6月30日...

兰同学
2017/06/13
88
1
直播答题:撒钱狂欢能嗨多久

10日晚,中国版“贫民窟的百万富翁”在众人“围观”之下诞生了——一名25岁的江苏公务员,从100多万答题者中杀出重围,“血战”近一个小时,捧得全部101万奖金。 一夜暴富神话的缔造者是“芝...

软件达人
2018/01/12
22
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周日乱弹 —— 我,小小编辑,食人族酋长

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @宇辰OSC :分享娃娃的单曲《飘洋过海来看你》: #今日歌曲推荐# 《飘洋过海来看你》- 娃娃 手机党少年们想听歌,请使劲儿戳(这里) @宇辰OSC...

小小编辑
今天
490
10
MongoDB系列-- SpringBoot 中对 MongoDB 的 基本操作

SpringBoot 中对 MongoDB 的 基本操作 Database 库的创建 首先 在MongoDB 操作客户端 Robo 3T 中 创建数据库: 增加用户User: 创建 Collections 集合(类似mysql 中的 表): 后面我们大部分都...

TcWong
今天
20
0
spring cloud

一、从面试题入手 1.1、什么事微服务 1.2、微服务之间如何独立通讯的 1.3、springCloud和Dubbo有哪些区别 1.通信机制:DUbbo基于RPC远程过程调用;微服务cloud基于http restFUL API 1.4、spr...

榴莲黑芝麻糊
今天
10
0
Executor线程池原理与源码解读

线程池为线程生命周期的开销和资源不足问题提供了解决方 案。通过对多个任务重用线程,线程创建的开销被分摊到了多个任务上。 线程实现方式 Thread、Runnable、Callable //实现Runnable接口的...

小强的进阶之路
昨天
32
0
maven 环境隔离

解决问题 即 在 resource 文件夹下面 ,新增对应的资源配置文件夹,对应 开发,测试,生产的不同的配置内容 <resources> <resource> <directory>src/main/resources.${deplo......

之渊
昨天
31
0

没有更多内容

加载失败,请刷新页面

加载更多