文档章节

pandas 笔记

pior
 pior
发布于 2016/01/29 21:59
字数 334
阅读 80
收藏 3

读取一个表格数据

数据格式如:

1::1193::5::978300760
1::661::3::978302109
1::914::3::978301968
1::3408::4::978300275
1::2355::5::978824291
1::1197::3::978302268
1::1287::5::978302039
1::2804::5::978300719
1::594::4::978302268
1::919::4::978301368
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames, engine='python')

rnames为表格数据的列名,sep为分隔符

筛选数据行

ratings[:5]

横向合并数据表

pd.merge(ratings, users)

聚合数据

data.pivot_table('rating',index='title',  columns='gender', aggfunc='mean')

将data中的,相同title的行中的rating字段,分别计算不同gender的mean值,mean为平均值(std为标准差)

分类记数

data.groupby('title').size()

筛选数据

ratings_index = ratings_by_title.index[ratings_by_title >= 250]//得到下标值
mean_data = mean_data.ix[ratings_index]//按下标得到新的数据

数据排序

mean_data.sort_values(by='F', ascending=False)

by为指定列名

计算出新数据列

mean_data['diff'] = mean_data['M'] - mean_data['F']

数据反序

sort_by_diff[::-1]

分类求和

names1880.groupby('sex').births.sum()

以sex列分类后, 将births字段数据求和.

读取csv

Mary,F,7065
Anna,F,2604
Emma,F,2003
Elizabeth,F,1939
Minnie,F,1746
Margaret,F,1578
Ida,F,1472
Alice,F,1414
Bertha,F,1320
Sarah,F,1288
names1880 = pd.read_csv('./yob1880.txt', names=['name', 'sex', 'births'])

names指定数据的列名

纵向合并数据

pieces = []
pieces.append(names1880)
names1881 = pd.read_csv('./yob1881.txt', names=['name', 'sex', 'births'])
names1881['year']=1881
pieces.append(names1881)
names = pd.concat(pieces,ignore_index=True)

转换数据为浮点数

用于整数的除法(python3不用)

births.astype(float)









© 著作权归作者所有

共有 人打赏支持
pior
粉丝 26
博文 151
码字总数 22496
作品 0
济南
高级程序员
私信 提问
Pandas学习(二)——双色球开奖数据分析

学习笔记汇总 学习笔记汇总 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学习(四)–数据的归一化 本章主要利用双色球开奖数...

hjxzb
2017/08/26
0
0
python执行各种sql语句,让你分析数据更简洁

由于许多潜在的pandas用户对SQL有一定的了 解 ,因此本页旨在提供一些使用pandas来执行各种SQL操作的示例。 大部分的例子将利用在pandas测试中发现的数据集。我们将数据读入一个名为tips的D...

frbevrqbn4l
2017/11/07
0
0
【机器学习】Numpy&Pandas 快速入门笔记

Numpy&Pandas 快速入门笔记 Xu An 2018-4-6 ######Numpy部分###### 1、创建array import numpy as np a=np.array([[2,23,4],[21,3,43],[34,43,234]],dtype=np.int32) #创建矩阵 使用dtype进行......

XuAn97916
06/26
0
0
十分钟读懂python的“数据库”语言

JOIN可以用或执行。默认情况下, 将在其索引中加入DataFrame。每个方法都有参数,允许您指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列(列名称或索引)。 假设我们有两个与...

frbevrqbn4l
2017/11/09
0
0
[新手-数据分析师]pandas的学习笔记

pandas常用的函数有这些: pd.DataFrame pd.Series pd.read_csv pd.concat pd.Timestamp pd.to_datetime pd.date_range pd.index pd.merge 先从实际上能够用得到的函数开始学起走,然后遇到问...

inerds
2016/11/22
124
0

没有更多内容

加载失败,请刷新页面

加载更多

崛起于Springboot2.X之集成工作流Activiti5.22(42)

声明:该博客主要是Springboot1.X和Springboot2.X集成Activiti5.22版本,并说一下两个版本的搭建不同的地方 技术:Springboot2.0.3+mysql+jpa(自动生成25张表)+Activiti5.22 /然后Springboo...

木九天
5分钟前
0
1
windows环境下搭建rabbitMQ开发环境

windows环境下搭建rabbitMQ开发环境 下载与安装 erlang rabbitmq 是使用erlang语言开发的,所以需要erlang环境; 下载地址 rabbitmq 下载地址 rabbitmq与erlang版本关系 下载之后直接安装即可...

晨猫
17分钟前
0
0
JVM 中的守护线程

特点 通常由JVM启动 运行在后台处理任务,比如垃圾回收等 用户启动线程执行结束或者JVM结束时,会等待所有的非守护线程执行结束,但是不会因为守护线程的存在而影响关闭。 判断线程是否为守护...

小刀爱编程
20分钟前
1
0

参考 极客时间《数据结构与算法之美》

grace_233
33分钟前
2
0
谈谈KMP算法

KMP算法的资料网上已经一大把了,主要用来解决某个文本片段是否包含另一个子串问题。这里假设文本片段的长度n大于子串长度m,如: 文本串为ABCDABGHIJK 子串为 ABCDABE 在传统的暴力解法中当...

FAT_mt
35分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部