文档章节

数据索引转换

leonhu
 leonhu
发布于 2017/07/10 05:51
字数 390
阅读 16
收藏 0

数据索引转换

对数据创建新的索引使得数据操作更直观

import pandas as pd
fandango = pd.read_csv('fandango_score_comparison.csv')
print(type(fandango))
<class 'pandas.core.frame.DataFrame'>
# drop = False 保留原有的列
# drop = True 不保留原有的列
fandango_films = fandango.set_index('FILM', drop=False)
# print(fandango_films[:3])
# fandango_films[:3]
# Slice using either bracket notation or loc[]
# fandango_films["Avengers: Age of Ultron (2015)":"Hot Tub Time Machine 2 (2015)"]
loc= fandango_films.loc["Avengers: Age of Ultron (2015)":"Hot Tub Time Machine 2 (2015)"]

import numpy as np

# returns the data types as a Series
types = fandango_films.dtypes
# print(types)
# filter data types to just floats, index attributes returns just column names
float_columns = types[types.values=='float64'].index
print('---')
print(float_columns[:2])
float_df = fandango_films[float_columns]
print('---')
print(float_df[:2])

# 'x' is a Series object representing a column
# 方差,每一列计算方差
deviations = float_df.apply(lambda x: np.std(x))[:5]
print('---')
print(deviations)
---
Index(['Metacritic_User', 'IMDB'], dtype='object')
---
                                Metacritic_User  IMDB  Fandango_Stars  \
FILM                                                                    
Avengers: Age of Ultron (2015)              7.1   7.8             5.0   
Cinderella (2015)                           7.5   7.1             5.0   

                                Fandango_Ratingvalue  RT_norm  RT_user_norm  \
FILM                                                                          
Avengers: Age of Ultron (2015)                   4.5     3.70           4.3   
Cinderella (2015)                                4.5     4.25           4.0   

                                Metacritic_norm  Metacritic_user_nom  \
FILM                                                                   
Avengers: Age of Ultron (2015)             3.30                 3.55   
Cinderella (2015)                          3.35                 3.75   

                                IMDB_norm  RT_norm_round  RT_user_norm_round  \
FILM                                                                           
Avengers: Age of Ultron (2015)       3.90            3.5                 4.5   
Cinderella (2015)                    3.55            4.5                 4.0   

                                Metacritic_norm_round  \
FILM                                                    
Avengers: Age of Ultron (2015)                    3.5   
Cinderella (2015)                                 3.5   

                                Metacritic_user_norm_round  IMDB_norm_round  \
FILM                                                                          
Avengers: Age of Ultron (2015)                         3.5              4.0   
Cinderella (2015)                                      4.0              3.5   

                                Fandango_Difference  
FILM                                                 
Avengers: Age of Ultron (2015)                  0.5  
Cinderella (2015)                               0.5  
---
Metacritic_User         1.505529
IMDB                    0.955447
Fandango_Stars          0.538532
Fandango_Ratingvalue    0.501106
RT_norm                 1.503265
dtype: float64
# 也可按行计算方差(例子数据没有实际意义)
rt_mt_user = float_df[['Metacritic_User','IMDB']]
rt_mt_user.apply(lambda x:np.std(x), axis=1)[:10]
FILM
Avengers: Age of Ultron (2015)    0.35
Cinderella (2015)                 0.20
Ant-Man (2015)                    0.15
Do You Believe? (2015)            0.35
Hot Tub Time Machine 2 (2015)     0.85
The Water Diviner (2015)          0.20
Irrational Man (2015)             0.35
Top Five (2014)                   0.15
Shaun the Sheep Movie (2015)      0.70
Love & Mercy (2015)               0.35
dtype: float64

© 著作权归作者所有

共有 人打赏支持
leonhu
粉丝 0
博文 38
码字总数 13436
作品 0
深圳
为应用选择和创建最佳索引,加速数据读取

在工作之中,由于SQL问题导致的数据库故障层出不穷,索引问题是SQL问题中出现频率最高的,常见的索引问题包括:无索引,隐式转换,索引创建不合理。 当数据库中出现访问表的SQL没创建索引导致...

光斑
04/24
0
0
SQL优化 · 经典案例 · 索引篇

Introduction 在这些年的工作之中,由于SQL问题导致的数据库故障层出不穷,下面将过去六年工作中遇到的SQL问题总结归类,还原问题原貌,给出分析问题思路和解决问题的方法,帮助用户在使用数...

阿里云RDS-数据库内核组
2017/02/06
0
0
SQL优化常用方法44

避免改变索引列的类型. 当比较不同数据类型的数据时, ORACLE自动对列进行简单的类型转换.假设 EMPNO是一个数值类型的索引列. SELECT … FROM EMP WHERE EMPNO = ‘123' 实际上,经过ORACLE类型...

inzaghi1984
2017/12/17
0
0
索引 技巧

避免在索引列上使用计算和函数. WHERE子句中,如果索引列是函数的一部分.优化器将不使用索引而使用全表扫描. 举例: 低效: SELECT … FROM DEPT WHERE SAL * 12 > 25000; 高效: SELECT …...

Reborn-D
2016/10/17
34
0
面向.Net程序员的后端性能优化实战

最近对系统进行性能优化 避免超时 死锁 数据处理能力不够等常见的性能问题 这里不从架构方面出发 毕竟动大手脚成本比较高 那么我们以实例为前提 从细节开始 优化角度 业务逻辑优化 DB优化 数...

wen1512
2017/11/02
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

JS三元运算示例

1. topFlag=topFlag ==0?1:0; 等于 if(topFlag=00){ topFlag=1; }else if(topFlag == 1){ topFlag=0; } 2. 5>3?alert('5大'):alert('3大'); 即 if(5>3){alert('5大')}else{alert('3大')}; 注......

森火
今天
0
0
利用Slf4j的MDC跟踪方法调用链

why? 一个web项目通常提供很多URL访问地址, 项目一般都是分层处理,例如Controller——>Service——>DAO。 如果想根据日志查看用户一次请求都走了哪些方法(多数是查错误)。 如果系统是多人...

杨春炼
今天
9
0
Maven介绍及安装

Maven介绍及安装 以下内容是本人早期学习时的笔记,可能比较详实繁琐,现在复习一下Maven,顺便将内容抛出来,供大家一起学习进步。 一、Maven简介 Maven是Apache旗下的一款项目管理工具,是...

星汉
今天
0
0
小程序Aes解密

主要步骤: 1、下载AES源码(JS版) 2、在小程序中新建一个公共的文件夹,把AES源码拷贝进去(注意:需要暴露接口 module.exports = CryptoJS;) 3、添加一个用于加密解密的公共JS,可取名为...

Mr_Tea伯奕
今天
0
0
Go实现文件传输(基本传输可用)

发送端 package mainimport ("fmt""os""net""io")func SendFile(path string, connect net.Conn){file, oerr :=os.Open(path)if oerr !=nil{fmt.Println("Open", oerr)......

CHONGCHEN
今天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部