文档章节

数据索引转换

leonhu
 leonhu
发布于 2017/07/10 05:51
字数 390
阅读 16
收藏 0

数据索引转换

对数据创建新的索引使得数据操作更直观

import pandas as pd
fandango = pd.read_csv('fandango_score_comparison.csv')
print(type(fandango))
<class 'pandas.core.frame.DataFrame'>
# drop = False 保留原有的列
# drop = True 不保留原有的列
fandango_films = fandango.set_index('FILM', drop=False)
# print(fandango_films[:3])
# fandango_films[:3]
# Slice using either bracket notation or loc[]
# fandango_films["Avengers: Age of Ultron (2015)":"Hot Tub Time Machine 2 (2015)"]
loc= fandango_films.loc["Avengers: Age of Ultron (2015)":"Hot Tub Time Machine 2 (2015)"]

import numpy as np

# returns the data types as a Series
types = fandango_films.dtypes
# print(types)
# filter data types to just floats, index attributes returns just column names
float_columns = types[types.values=='float64'].index
print('---')
print(float_columns[:2])
float_df = fandango_films[float_columns]
print('---')
print(float_df[:2])

# 'x' is a Series object representing a column
# 方差,每一列计算方差
deviations = float_df.apply(lambda x: np.std(x))[:5]
print('---')
print(deviations)
---
Index(['Metacritic_User', 'IMDB'], dtype='object')
---
                                Metacritic_User  IMDB  Fandango_Stars  \
FILM                                                                    
Avengers: Age of Ultron (2015)              7.1   7.8             5.0   
Cinderella (2015)                           7.5   7.1             5.0   

                                Fandango_Ratingvalue  RT_norm  RT_user_norm  \
FILM                                                                          
Avengers: Age of Ultron (2015)                   4.5     3.70           4.3   
Cinderella (2015)                                4.5     4.25           4.0   

                                Metacritic_norm  Metacritic_user_nom  \
FILM                                                                   
Avengers: Age of Ultron (2015)             3.30                 3.55   
Cinderella (2015)                          3.35                 3.75   

                                IMDB_norm  RT_norm_round  RT_user_norm_round  \
FILM                                                                           
Avengers: Age of Ultron (2015)       3.90            3.5                 4.5   
Cinderella (2015)                    3.55            4.5                 4.0   

                                Metacritic_norm_round  \
FILM                                                    
Avengers: Age of Ultron (2015)                    3.5   
Cinderella (2015)                                 3.5   

                                Metacritic_user_norm_round  IMDB_norm_round  \
FILM                                                                          
Avengers: Age of Ultron (2015)                         3.5              4.0   
Cinderella (2015)                                      4.0              3.5   

                                Fandango_Difference  
FILM                                                 
Avengers: Age of Ultron (2015)                  0.5  
Cinderella (2015)                               0.5  
---
Metacritic_User         1.505529
IMDB                    0.955447
Fandango_Stars          0.538532
Fandango_Ratingvalue    0.501106
RT_norm                 1.503265
dtype: float64
# 也可按行计算方差(例子数据没有实际意义)
rt_mt_user = float_df[['Metacritic_User','IMDB']]
rt_mt_user.apply(lambda x:np.std(x), axis=1)[:10]
FILM
Avengers: Age of Ultron (2015)    0.35
Cinderella (2015)                 0.20
Ant-Man (2015)                    0.15
Do You Believe? (2015)            0.35
Hot Tub Time Machine 2 (2015)     0.85
The Water Diviner (2015)          0.20
Irrational Man (2015)             0.35
Top Five (2014)                   0.15
Shaun the Sheep Movie (2015)      0.70
Love & Mercy (2015)               0.35
dtype: float64

© 著作权归作者所有

共有 人打赏支持
leonhu
粉丝 0
博文 38
码字总数 13436
作品 0
深圳
为应用选择和创建最佳索引,加速数据读取

在工作之中,由于SQL问题导致的数据库故障层出不穷,索引问题是SQL问题中出现频率最高的,常见的索引问题包括:无索引,隐式转换,索引创建不合理。 当数据库中出现访问表的SQL没创建索引导致...

光斑
04/24
0
0
SQL优化 · 经典案例 · 索引篇

Introduction 在这些年的工作之中,由于SQL问题导致的数据库故障层出不穷,下面将过去六年工作中遇到的SQL问题总结归类,还原问题原貌,给出分析问题思路和解决问题的方法,帮助用户在使用数...

阿里云RDS-数据库内核组
2017/02/06
0
0
SQL优化常用方法44

避免改变索引列的类型. 当比较不同数据类型的数据时, ORACLE自动对列进行简单的类型转换.假设 EMPNO是一个数值类型的索引列. SELECT … FROM EMP WHERE EMPNO = ‘123' 实际上,经过ORACLE类型...

inzaghi1984
2017/12/17
0
0
索引 技巧

避免在索引列上使用计算和函数. WHERE子句中,如果索引列是函数的一部分.优化器将不使用索引而使用全表扫描. 举例: 低效: SELECT … FROM DEPT WHERE SAL * 12 > 25000; 高效: SELECT …...

Reborn-D
2016/10/17
34
0
mysql表设计规范和字段设计规范和开发使用规范

表设计规范: 每个innodb表都要有一个主键, 限制表上索引的数量,避免简历重复和冗余索引 注意合理选择符合索引键值的顺序 字段类型: 优先选择符合存储需要的最小的数据类型。 1、尽量将字...

王峰芝
06/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

django rest framework 外键序列化方法与问题总结

django rest framework 外键序列化方法与问题总结 当借口中需要出现一对多关系的时候,我们可以用rest_framwork的序列化功能来处理,代码如下. # models.pyfrom django.db import modelscl...

_Change_
昨天
0
0
SingleNumber136 leetCode

Given a non-empty array of integers, every element appears twice except for one. Find that single one. Note: Your algorithm should have a linear runtime complexity. Could you im......

woshixin
昨天
1
0
String ,  StringBuffer ,  StringBuilder的区别

String , StringBuffer , StringBuilder的区别 String 首先,String 是用来表示一个字符串常量的,它是一个不可变对象,意味着,一旦我们创建了某个字符串之后,就不能再改变它的值了,我们可...

tsmyk0715
昨天
3
0
区块链100讲:UTXO 和 Account 模型对比

在当前区块链世界中,主要有两种记录保存方式,UTXO 模式(Unspent Transaction Output) 和 Account 模式。Bitcoin 采用的是 UTXO 模型,Ethereum 采用的 Account 模型,同样 CITA 也采用了 ...

HiBlock
昨天
1
0
Vue中路由管理器Vue Router使用介绍(三)

一、路由定义添加动态参数定义 1.路由定义项,使用:xx 方式 定义动态参数 { path:'/user/:id/:name', name:'user', component:()=>import('./views/User.vue') ...

tianma3798
昨天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部