文档章节

数据索引转换

leonhu
 leonhu
发布于 2017/07/10 05:51
字数 390
阅读 17
收藏 0

数据索引转换

对数据创建新的索引使得数据操作更直观

import pandas as pd
fandango = pd.read_csv('fandango_score_comparison.csv')
print(type(fandango))
<class 'pandas.core.frame.DataFrame'>
# drop = False 保留原有的列
# drop = True 不保留原有的列
fandango_films = fandango.set_index('FILM', drop=False)
# print(fandango_films[:3])
# fandango_films[:3]
# Slice using either bracket notation or loc[]
# fandango_films["Avengers: Age of Ultron (2015)":"Hot Tub Time Machine 2 (2015)"]
loc= fandango_films.loc["Avengers: Age of Ultron (2015)":"Hot Tub Time Machine 2 (2015)"]

import numpy as np

# returns the data types as a Series
types = fandango_films.dtypes
# print(types)
# filter data types to just floats, index attributes returns just column names
float_columns = types[types.values=='float64'].index
print('---')
print(float_columns[:2])
float_df = fandango_films[float_columns]
print('---')
print(float_df[:2])

# 'x' is a Series object representing a column
# 方差,每一列计算方差
deviations = float_df.apply(lambda x: np.std(x))[:5]
print('---')
print(deviations)
---
Index(['Metacritic_User', 'IMDB'], dtype='object')
---
                                Metacritic_User  IMDB  Fandango_Stars  \
FILM                                                                    
Avengers: Age of Ultron (2015)              7.1   7.8             5.0   
Cinderella (2015)                           7.5   7.1             5.0   

                                Fandango_Ratingvalue  RT_norm  RT_user_norm  \
FILM                                                                          
Avengers: Age of Ultron (2015)                   4.5     3.70           4.3   
Cinderella (2015)                                4.5     4.25           4.0   

                                Metacritic_norm  Metacritic_user_nom  \
FILM                                                                   
Avengers: Age of Ultron (2015)             3.30                 3.55   
Cinderella (2015)                          3.35                 3.75   

                                IMDB_norm  RT_norm_round  RT_user_norm_round  \
FILM                                                                           
Avengers: Age of Ultron (2015)       3.90            3.5                 4.5   
Cinderella (2015)                    3.55            4.5                 4.0   

                                Metacritic_norm_round  \
FILM                                                    
Avengers: Age of Ultron (2015)                    3.5   
Cinderella (2015)                                 3.5   

                                Metacritic_user_norm_round  IMDB_norm_round  \
FILM                                                                          
Avengers: Age of Ultron (2015)                         3.5              4.0   
Cinderella (2015)                                      4.0              3.5   

                                Fandango_Difference  
FILM                                                 
Avengers: Age of Ultron (2015)                  0.5  
Cinderella (2015)                               0.5  
---
Metacritic_User         1.505529
IMDB                    0.955447
Fandango_Stars          0.538532
Fandango_Ratingvalue    0.501106
RT_norm                 1.503265
dtype: float64
# 也可按行计算方差(例子数据没有实际意义)
rt_mt_user = float_df[['Metacritic_User','IMDB']]
rt_mt_user.apply(lambda x:np.std(x), axis=1)[:10]
FILM
Avengers: Age of Ultron (2015)    0.35
Cinderella (2015)                 0.20
Ant-Man (2015)                    0.15
Do You Believe? (2015)            0.35
Hot Tub Time Machine 2 (2015)     0.85
The Water Diviner (2015)          0.20
Irrational Man (2015)             0.35
Top Five (2014)                   0.15
Shaun the Sheep Movie (2015)      0.70
Love & Mercy (2015)               0.35
dtype: float64

© 著作权归作者所有

共有 人打赏支持
leonhu
粉丝 0
博文 38
码字总数 13436
作品 0
深圳
私信 提问
为应用选择和创建最佳索引,加速数据读取

在工作之中,由于SQL问题导致的数据库故障层出不穷,索引问题是SQL问题中出现频率最高的,常见的索引问题包括:无索引,隐式转换,索引创建不合理。 当数据库中出现访问表的SQL没创建索引导致...

光斑
2018/04/24
0
0
SQL优化 · 经典案例 · 索引篇

Introduction 在这些年的工作之中,由于SQL问题导致的数据库故障层出不穷,下面将过去六年工作中遇到的SQL问题总结归类,还原问题原貌,给出分析问题思路和解决问题的方法,帮助用户在使用数...

阿里云RDS-数据库内核组
2017/02/06
0
0
SQL优化常用方法44

避免改变索引列的类型. 当比较不同数据类型的数据时, ORACLE自动对列进行简单的类型转换.假设 EMPNO是一个数值类型的索引列. SELECT … FROM EMP WHERE EMPNO = ‘123' 实际上,经过ORACLE类型...

inzaghi1984
2017/12/17
0
0
索引 技巧

避免在索引列上使用计算和函数. WHERE子句中,如果索引列是函数的一部分.优化器将不使用索引而使用全表扫描. 举例: 低效: SELECT … FROM DEPT WHERE SAL * 12 > 25000; 高效: SELECT …...

Reborn-D
2016/10/17
34
0
为什么sql 语句逻辑相同,性能却差距巨大

一 索引字段函数操作 对于索引字段做函数操作,可能破坏索引值的有序性,因此优化器就决定放弃走树搜索功能 二 隐式类型转换 数据类型转换的规则是什么? 为什么有数据类型转化,就需要走全索...

writeademo
2018/12/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

jenkins 配置

1. ssh-keygen -t rsa 2. 配置 GitLab 用户 创建一个用户或选择一个已有用户,用来让 Jenkins 和 GitLab API 交互。这个用户将需要是全局的管理员或添加进每个组/工程,并作为成员。需要开发...

关上越
11分钟前
1
0
中台迷思

到处都在喊中台,到处都是中台,中台这个词在我看来已经被滥用了。 在有些人眼里:中台就是技术平台,像微服务开发框架、Devops平台、PaaS平台,容器云之类的,人们都叫它“技术中台”。 在有...

老道士
17分钟前
1
0
Linux命令参数解析

Linux命令参数 通过一个例子来理解什么是Linux命令参数。以Linux中常用的删除命令“rm”为例,输入“rm --help”可以看到如下信息,其中红色框内的就是命令参数。经常使用Linux对命令参数应该...

RongJinhui0
21分钟前
1
0
边缘节点服务ENS重磅升级 阿里云首次定义“边缘云计算”概念层层深入

摘要: 在这一横一纵之间,阿里云在2018年率先提供了基于运营商边缘节点和网络的弹性分布式算力资源平台,也就是边缘节点服务ENS,连接最后10公里的ENS可以帮助用户将计算、转发等业务下沉至...

阿里云云栖社区
25分钟前
1
0
阿里云 Aliplayer高级功能介绍(四):直播时移

基本介绍 时移直播基于常规的HLS视频直播,直播推流被切分成TS分片,通过HLS协议向播放用户分发,用户请求的m3u8播放文件中包含不断刷新的TS分片地址;对于常规的HLS直播而言,TS分片地址及相...

阿里云官方博客
28分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部