文档章节

pandas 笔记

pior
 pior
发布于 2016/01/29 21:59
字数 334
阅读 75
收藏 3

读取一个表格数据

数据格式如:

1::1193::5::978300760
1::661::3::978302109
1::914::3::978301968
1::3408::4::978300275
1::2355::5::978824291
1::1197::3::978302268
1::1287::5::978302039
1::2804::5::978300719
1::594::4::978302268
1::919::4::978301368
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames, engine='python')

rnames为表格数据的列名,sep为分隔符

筛选数据行

ratings[:5]

横向合并数据表

pd.merge(ratings, users)

聚合数据

data.pivot_table('rating',index='title',  columns='gender', aggfunc='mean')

将data中的,相同title的行中的rating字段,分别计算不同gender的mean值,mean为平均值(std为标准差)

分类记数

data.groupby('title').size()

筛选数据

ratings_index = ratings_by_title.index[ratings_by_title >= 250]//得到下标值
mean_data = mean_data.ix[ratings_index]//按下标得到新的数据

数据排序

mean_data.sort_values(by='F', ascending=False)

by为指定列名

计算出新数据列

mean_data['diff'] = mean_data['M'] - mean_data['F']

数据反序

sort_by_diff[::-1]

分类求和

names1880.groupby('sex').births.sum()

以sex列分类后, 将births字段数据求和.

读取csv

Mary,F,7065
Anna,F,2604
Emma,F,2003
Elizabeth,F,1939
Minnie,F,1746
Margaret,F,1578
Ida,F,1472
Alice,F,1414
Bertha,F,1320
Sarah,F,1288
names1880 = pd.read_csv('./yob1880.txt', names=['name', 'sex', 'births'])

names指定数据的列名

纵向合并数据

pieces = []
pieces.append(names1880)
names1881 = pd.read_csv('./yob1881.txt', names=['name', 'sex', 'births'])
names1881['year']=1881
pieces.append(names1881)
names = pd.concat(pieces,ignore_index=True)

转换数据为浮点数

用于整数的除法(python3不用)

births.astype(float)









© 著作权归作者所有

共有 人打赏支持
pior
粉丝 25
博文 151
码字总数 22496
作品 0
济南
高级程序员
Pandas学习(二)——双色球开奖数据分析

学习笔记汇总 学习笔记汇总 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学习(四)–数据的归一化 本章主要利用双色球开奖数...

hjxzb
2017/08/26
0
0
python执行各种sql语句,让你分析数据更简洁

由于许多潜在的pandas用户对SQL有一定的了 解 ,因此本页旨在提供一些使用pandas来执行各种SQL操作的示例。 大部分的例子将利用在pandas测试中发现的数据集。我们将数据读入一个名为tips的D...

frbevrqbn4l
2017/11/07
0
0
十分钟读懂python的“数据库”语言

JOIN可以用或执行。默认情况下, 将在其索引中加入DataFrame。每个方法都有参数,允许您指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列(列名称或索引)。 假设我们有两个与...

frbevrqbn4l
2017/11/09
0
0
【机器学习】Numpy&Pandas 快速入门笔记

Numpy&Pandas 快速入门笔记 Xu An 2018-4-6 ######Numpy部分###### 1、创建array import numpy as np a=np.array([[2,23,4],[21,3,43],[34,43,234]],dtype=np.int32) #创建矩阵 使用dtype进行......

XuAn97916
06/26
0
0
[新手-数据分析师]pandas的学习笔记

pandas常用的函数有这些: pd.DataFrame pd.Series pd.read_csv pd.concat pd.Timestamp pd.to_datetime pd.date_range pd.index pd.merge 先从实际上能够用得到的函数开始学起走,然后遇到问...

inerds
2016/11/22
124
0

没有更多内容

加载失败,请刷新页面

加载更多

sourcetree 离线免注册登录安装教程

Sourcetree是一个优秀的git可视化管理工具,深受开发者喜爱Sourcetree官网,但是在安装时需要谷歌账户登录,需要翻qiang才可以,此一点一直被人们所诟病。今天本教程就为大家提供离线免登陆安...

QQZZFT
13分钟前
0
0
使用 PostgreSQL 解决一个实际的统计分析问题

使用 PostgreSQL 解决一个实际的统计分析问题作者:老农民(刘启华)Email: 46715422@qq.com 之前有个朋友扔给我一个奇葩需求,他们公司之前做了一批问卷调查,全部都是统一格式的excel...

新疆老农民
16分钟前
0
0
TypeScript基础入门之高级类型的映射类型

转发 TypeScript基础入门之高级类型的映射类型 高级类型 映射类型 一个常见的任务是将一个已知的类型每个属性都变为可选的: interface PersonPartial {    name?: string;    age?...

durban
31分钟前
0
0
Dubbo源码分析(6):Dubbo内核实现之基于SPI思想Dubbo内核实现

SPI接口定义 定义了@SPI注解 package com.alibaba.dubbo.common.extension; import java.lang.annotation.Documented;import java.lang.annotation.ElementType;import java.lang.an......

郑加威
32分钟前
0
0
RxJS的另外四种实现方式(后记)—— 同时实现管道和链式编程

目录 RxJS的另外四种实现方式(序) RxJS的另外四种实现方式(一)——代码最小的库 RxJS的另外四种实现方式(二)——代码最小的库(续) RxJS的另外四种实现方式(三)——性能最高的库 Rx...

一个灰
35分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部