文档章节

python数据分析-- 本地数据的IO操作

超神的小橘子
 超神的小橘子
发布于 2017/05/17 10:52
字数 1919
阅读 48
收藏 0

Python数据分析_Pandas04_本地数据的导入导出

 

本地数据的IO操作

pandas可以很方便的读取/存储各种格式的本地文件,读取用read_xx(),写入用to_xx()

读取                            写入
read_csv                        to_csv
read_excel                      to_excel
read_hdf                        to_hdf
read_sql                        to_sql
read_json                       to_json
read_msgpack (experimental)     to_msgpack (experimental)                
read_html                       to_html
read_gbq (experimental)         to_gbq (experimental)            
read_stata                      to_stata
read_sas                        
read_clipboard                  to_clipboard    
read_pickle                     to_pickle

上面是官方文档列出来的用来读取数据的方法,支持好多格式的数据呢。有些我都没见过没听说,我有用到的有csv, excel, json, pickle等。它们的用法都差不多,而且特别简单。以read_csv()为主简单介绍一下pandas读取和存储数据的方法。

pd.read_csv()

基本用法

In [1]: import pandas as pd
In [4]: data = pd.read_csv('D:/test.csv')
In [5]: data.head()
Out[5]:
        Date      Open      High       Low     Close        Volume  Adj Close
0  2011/5/25  12355.45  12462.28  12271.90  12394.66  4.109670e+09   12394.66
1  2011/5/24  12381.87  12465.80  12315.42  12356.21  3.846250e+09   12356.21
2  2011/5/23  12511.29  12511.29  12292.49  12381.26  3.255580e+09   12381.26
3  2011/5/20  12604.64  12630.11  12453.96  12512.04  4.066020e+09   12512.04
4  2011/5/19  12561.46  12673.78  12506.67  12605.32  3.626110e+09   12605.32

什么参数都不设置的情况就是这样,读取进来之后是dataframe格式,自动生成数字索引。

它的参数特别多!!!

种种参数

  • filepath_or_buffer: 路径或文件,也可以是URL地址。
  • sepdelimiter:分隔符。默认是','逗号。
  • delim_whitespace:布尔型,默认False。决定是否将空格当做分隔符,相当于sep='\s+'。如果这里设置为True的话,delimiter就不要设置参数了。

列、列名和索引

  • header:设置作为列名的行,值可以是int或int组成的list,默认是'infer',如果names没有传参数,把第一行当做列名。如果设置为None,自动生成一组数字列名。
  • names:array-like,默认None。也是用来设置列名的,直接传一个字符串组成的矩阵形式的的参数。
  • index_col:设置index。可以是int或list(如果有多列索引用list),默认为None。
  • 还有其他呢,不常用不列举了。下面挨个试试。

      In [8]: data = pd.read_csv('D:/test.csv',header=None)
    
      In [9]: data.head(2)
      Out[9]:
                 0         1         2        3         4           5          6
      0       Date      Open      High      Low     Close      Volume  Adj Close
      1  2011/5/25  12355.45  12462.28  12271.9  12394.66  4109670000   12394.66
    
      In [10]: data = pd.read_csv('D:/test.csv',names='abcdefg')
    
      In [11]: data.head(2)
      Out[11]:
                 a         b         c        d         e           f          g
      0       Date      Open      High      Low     Close      Volume  Adj Close
      1  2011/5/25  12355.45  12462.28  12271.9  12394.66  4109670000   12394.66
    
      In [12]: data = pd.read_csv('D:/test.csv',index_col='Date')
    
      In [13]: data.head(2)
      Out[13]:
                     Open      High       Low     Close        Volume  Adj Close
      Date
      2011/5/25  12355.45  12462.28  12271.90  12394.66  4.109670e+09   12394.66
      2011/5/24  12381.87  12465.80  12315.42  12356.21  3.846250e+09   12356.21

时间数据处理

  • parse_dates:可以是布尔型、int、ints或列名组成的list、dict,默认为False。如果为True,解析index。如果为int或列名,尝试解析所指定的列。如果是一个多列组成list,尝试把这些列组合起来当做时间来解析。(敲厉害!!)
  • infer_datetime_format:布尔型。如果为True,而且也设置了parse_dates参数,可以提高速度。对于days开头的敏感。如果多列待解析的时间数据格式相同的话,这个可以大大提高解析速度。(我数据不多,感觉不出来。人家官方文档说了,反正启用了也不会有副作用。)
  • keep_date_col:布尔型,默认False。如果为Ture的话则保留原格式的时间列。
  • date_parser:设置解析时间数据所用的函数,一般按默认的走就好了。

      In [14]: data = pd.read_csv('D:/test.csv',index_col='Date',parse_dates=True)
      #注意Date那一列的格式变了,原来是字符串格式的,
      #现在变成了可以进行加减操作的日期格式。
      In [15]: data.head(2)
      Out[15]:
                      Open      High       Low     Close        Volume  Adj Close
      Date
      2011-05-25  12355.45  12462.28  12271.90  12394.66  4.109670e+09   12394.66
      2011-05-24  12381.87  12465.80  12315.42  12356.21  3.846250e+09   12356.21
    
      #这里从新读取一个CSV文件,前三列组成日期。
      In [21]: data2 = pd.read_csv('D:/test2.csv')
    
      In [22]: data2.head(2)
      Out[22]:
         Mon  Day  Year    gas  crude oil
      0    1    3  1997  22.90      1.225
      1    1   10  1997  23.56      1.241
    
      #解析之后
      In [23]: data2 = pd.read_csv('D:/test2.csv',
             : parse_dates={'date':[0,1,2]},
             : index_col='date')
             :
      In [24]: data2.head(2)
      Out[24]:
                    gas  crude oil
      date
      1997-01-03  22.90      1.225
      1997-01-10  23.56      1.241
    
      #保留原来的时间列
      In [27]: data2 = pd.read_csv('D:/test2.csv',parse_dates={'date':[0,1,2]},infer_datetime_format=True,keep_date_col=True,
          ...: index_col='date')
    
      In [28]: data2.head(2)
      Out[28]:
                 Mon Day  Year    gas  crude oil
      date
      1997-01-03   1   3  1997  22.90      1.225
      1997-01-10   1  10  1997  23.56      1.241

啊,惊艳了时光!就问你棒不棒,棒 不 棒 !!

解析配置(好多的,我挑几个可能会用的)

  • dtype:设置数据类型,可以是类型名或{列名:类型名}组成的dict,默认None。
  • nrows:int,读取多少行。大文件读取片段时使用。
  • true_values false_values:被认为是True和False的值。
  • skiprows:int或列表形式,默认None。要跳过的行数,按索引(list),或者跳过头几行(int)。

空值和NA处理

  • na_values:增加被当做NA/NaN的值。默认情况下这些数据会被认为是NA值,'-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A', '#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', ''
  • keep_default_na:布尔型,默认True。如果值为False,而且na_values进行了设置,那么NA值会被重写,使用你设置的而不是上边所列出来的。
  • na_filter:布尔型,默认True。检测缺失值(空值和NA值)标记。如果文件没有NA值,设置na_filter=False可以提高读取大文件速度。
  • skip_blank_lines:布尔型,默认True。跳过空行,而不是解析为NA值。

啊,还有引用、注释、字符格式等等参数,一般不会到那么细枝末节的地步,不说了。

read_csv()read_table()几乎相等,不单单可以读取以逗号分割的CSV格式,你可以通过设置sep参数让它读取各种不同分割符号的文本文件等等。

可用参数是很多,但这个方法用起来很简单。唯一一个必须的参数就是需要读取文件的路径/地址。写入和读取类似,用法都一样。
下面的几个方法我就不再解释参数,其实都类似的,直接举几个例子看看好了。

pd.to_csv()

In [2]: import pandas as pd
      : data = pd.read_csv('D:/test.csv',index_col='Date',parse_dates=True)
      :

In [5]: data[:5]
Out[5]:
                Open      High       Low     Close        Volume  Adj Close
Date
2011-05-25  12355.45  12462.28  12271.90  12394.66  4.109670e+09   12394.66
2011-05-24  12381.87  12465.80  12315.42  12356.21  3.846250e+09   12356.21
2011-05-23  12511.29  12511.29  12292.49  12381.26  3.255580e+09   12381.26
2011-05-20  12604.64  12630.11  12453.96  12512.04  4.066020e+09   12512.04
2011-05-19  12561.46  12673.78  12506.67  12605.32  3.626110e+09   12605.32

#把data中Open和Close列的前五行写入to.csv文件中。
In [9]: data[:5].to_csv('D:/to.csv', columns=['Open','Close'])

In [10]: data2 = pd.read_csv('D:/to.csv')
#把刚生成的to.csv再读进来看看对不对。

In [11]: data2
Out[11]:
         Date      Open     Close
0  2011-05-25  12355.45  12394.66
1  2011-05-24  12381.87  12356.21
2  2011-05-23  12511.29  12381.26
3  2011-05-20  12604.64  12512.04
4  2011-05-19  12561.46  12605.32

pd.read_excel()

In [19]: excel = pd.read_excel('D:/test.xlsx', sheetname='Sheet1')

In [20]: excel.head(2)
Out[20]:
   Month  Day  Year    gas  crude oil
0      1    3  1997  22.90      1.225
1      1   10  1997  23.56      1.241

In [21]: excel['Date']=pd.to_datetime(excel[['Year','Month','Day']])

In [22]: excel = excel.set_index("Date")

In [23]: excel.head(2)
Out[23]:
            Month  Day  Year    gas  crude oil
Date
1997-01-03      1    3  1997  22.90      1.225
1997-01-10      1   10  1997  23.56      1.241

pd.read_pickle & pd.to_pickle

pickle这个用起来特别简单,根本就没有其他参数。它比较特殊的是可以实现将数据或对象序列化为字节流,pickling也就是保存为二进制数,unpickling就是相反的过程。pickle的意思是泡菜,把数据泡起来之后就可以长久存放不容易变质,pickle被当做永久储存数据的一个方法。

我见过用pickle保存数据是在机器学习中。把训练好的模型存成pickle文件,下次使用这个模型的时候直接读取pickle文件,而不需要再次训练。

本文转载自:http://www.jianshu.com/p/7764b6591cf5

上一篇: Python 画图
下一篇: Python--内置函数
超神的小橘子
粉丝 1
博文 43
码字总数 1875
作品 0
太原
私信 提问
Python的进程、线程、协程

从操作系统角度 操作系统处理任务,调度单位是进程和线程。 进程:表示一个程序的执行活动(打开程序、读写程序数据、关闭程序) 线程:执行某个程序时,该进程调度的最小执行单位(执行功能...

快乐水
2018/07/17
0
0
Python GIL 系列之再谈Python的GIL

1. 之前写过一篇《通过实例认识Python的GIL》的文章,感觉有些意犹未尽 2. 这次对例子作了些扩展,进一步的分析GIL对Python程序的影响 2.1 先来看例子: from threading import Thread from ...

神棍先生
2018/12/29
0
0
(转载)Python进阶:聊聊IO密集型任务、计算密集型任务,以及多线程、多进程 - 笑虎的文章 - 知乎

Python进阶:聊聊IO密集型任务、计算密集型任务,以及多线程、多进程 - 笑虎的文章 - 知乎 https://zhuanlan.zhihu.com/p/24283040 Python进阶:聊聊IO密集型任务、计算密集型任务,以及多线...

avatus
2018/09/05
0
0
证券数据服务平台 - BaoStock

BaoStock 是一个免费、开源的证券数据服务平台。考虑到Python pandas包在金融量化分析中体现出的优势, BaoStock返回的绝大部分的数据格式都是pandas DataFrame类型,非常便于用pandas/NumP...

匿名
2018/05/03
3.5K
2
【上海场】中国Python开发者大会PyConChina2017 - 10/22

大会简介 【上海场报名链接】 http://www.huodongxing.com/go/pyconchina2017sh 【杭州场报名链接】 http://www.huodongxing.com/go/pyconchina2017hz 今年,IEEE Spectrum 发布了第四届顶级...

TopGeek
2017/09/21
58
0

没有更多内容

加载失败,请刷新页面

加载更多

iptables删除命令中的相关问题

最近在做一个中间件的配置工作,在配置iptables的时候,当用户想删除EIP(即释放当前连接),发现使用iptables的相关命令会提示错误。iptables: Bad rule (does a matching rule exist in t...

xiangyunyan
25分钟前
2
0
IT兄弟连 HTML5教程 HTML5表单 新增的表单属性1

HTML5 Input表单为<form>和<input>标签添加了几个新属性,属性如表1。 1 autocomplete属性 autocomplete属性规定form或input域应该拥有自动完成功能,当用户在自动完成域中开始输入时,浏览器...

老码农的一亩三分地
53分钟前
5
0
OSChina 周五乱弹 —— 葛优理论+1

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @这次装个文艺青年吧 :#今日歌曲推荐# 分享米津玄師的单曲《LOSER》: mv中的舞蹈诡异却又美丽,如此随性怕是难再跳出第二次…… 《LOSER》-...

小小编辑
今天
1K
18
nginx学习笔记

中间件位于客户机/ 服务器的操作系统之上,管理计算机资源和网络通讯。 是连接两个独立应用程序或独立系统的软件。 web请求通过中间件可以直接调用操作系统,也可以经过中间件把请求分发到多...

码农实战
今天
5
0
Spring Security 实战干货:玩转自定义登录

1. 前言 前面的关于 Spring Security 相关的文章只是一个预热。为了接下来更好的实战,如果你错过了请从 Spring Security 实战系列 开始。安全访问的第一步就是认证(Authentication),认证...

码农小胖哥
今天
15
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部