文档章节

Pandas中文教程

糖果01
 糖果01
发布于 01/14 10:03
字数 6552
阅读 3
收藏 0

导航

目录

搜索

 

输入搜索字词或模块,类或函数名称。

pandas:强大的Python数据分析工具包

PDF版本

已压缩的HTML

日期:2016年12月24日版本:0.19.2

二进制安装: http://pypi.python.org/pypi/pandas

源代码仓库: http://github.com/pydata/pandas

问题&想法: https://github.com/pydata/pandas/issues

Q&A支持: http://stackoverflow.com/questions/tagged/pandas

开发人员邮件列表: http://groups.google.com/group/pydata

pandas是一个提供快速,灵活和表达性数据结构的Python包,旨在使“关系”或“标记”数据变得简单直观。它旨在成为在Python中进行实用的真实世界数据分析的基本高级构建块。此外,它的更广泛的目标是成为最强大和最灵活的任何语言的开源数据分析/操作工具。它已经很好地朝着这个目标前进了。

pandas非常适合许多不同类型的数据:

  • 具有非均匀类型列的表格数据,如在SQL表或Excel电子表格中
  • 有序和无序(不一定是固定频率)时间序列数据。
  • 带有行和列标签的任意矩阵数据(均匀类型或异质)
  • 任何其他形式的观测/统计数据集。数据实际上不需要被标记就可以被放置到Pandas的数据结构中

pandas的两个主要数据结构Series(一维)和DataFrame(二维)处理了金融,统计,社会中的绝大多数典型用例科学,以及许多工程领域。对于R用户,DataFrame提供R的data.frame所有功能及其他功能。pandas建立在NumPy之上,旨在包含更多其他第三方库并与之集成为优秀的科学计算环境。

这里只是几个pandas做得很好的事情:

  • 轻松处理浮点数据中的缺失数据(表示为NaN)以及非浮点数据
  • 大小可变性:列可以从DataFrame和更高维度的对象中插入和删除
  • 自动和显式数据对齐:对象可以显式地对齐到一组标签,或者用户可以简单地忽略标签,让Series,DataFrame 等在计算中为您自动对齐数据
  • 功能强大,灵活的分组功能对数据集执行拆分应用组合操作,以聚合和转换数据
  • 使易于将其他Python和NumPy数据结构中的粗糙,不同索引的数据转换为DataFrame对象
  • 基于智能标签的切片花式索引子集化大数据集
  • 直观的合并连接数据集
  • 灵活的重塑和数据集的旋转
  • 轴的分层标签(每个标记可能有多个标签)
  • 用于从平面文件(CSV和定界),Excel文件,数据库加载数据并保存/加载超快速HDF5格式的数据的强大IO工具
  • 时间序列 - 特定功能:日期范围生成和频率转换,移动窗口统计,移动窗口线性回归,日期移动和滞后等。

许多此处原则是为了解决在使用其他语言/科学研究环境时常常所遇到的不足。对于数据科学家,处理数据通常分为多个阶段:清理和清理数据,分析/建模,然后将分析的结果组织成适合于绘图或表格显示的形式。pandas是处理所有这些任务的理想工具。

其他一些注释

  • pandas是快速的。许多低级算法位已在Cython代码中广泛调整。然而,与任何其他泛化通常牺牲性能。因此,如果您专注于应用程序的一个功能,您可以创建一个更快的专业工具。
  • pandas是statsmodels的依赖项,使其成为Python中统计计算生态系统的重要组成部分。
  • pandas已广泛用于金融应用的产品。

注意

本文档假定大家熟悉NumPy。如果你还没有熟练使用NumPy或者根本没用过numpy,请先花一些时间在学习NumPy

有关库中的内容的更多详细信息,请参阅软件包概述。

© 著作权归作者所有

共有 人打赏支持
上一篇: Tornado中文教程
下一篇: NumPy v1.11手册
糖果01
粉丝 2
博文 36
码字总数 122594
作品 0
程序员
私信 提问
Python数据分析学习路径图(120天Get新技能)

Python是一种面向对象、直译式计算机程序设计语言,由Guido van Rossum于1989年底发明。由于他简单、易学、免费开源、可移植性、可扩展性等特点,Python又被称之为胶水语言。下图为主要程序语...

数据007
2016/01/22
0
0
深度学习|中文文本的分类(处理篇)

前言 之前我们通过朴素贝叶斯方法,做过英文文档的分类(传送门)。那使用中文文本,如何使用深度学习方法来进行分类了?这就是本文所讲的。首先我们来看看中文文本和英文文本的不同。 在处理...

罗罗攀
01/27
0
0
Expression Blend实例中文教程系列文章汇总

Silverlight经历3年多的发展,从当初的1.0版本到现在4.0,已经逐步趋向成熟。当前市面上关于Silverlight开发的中文资料很少,介绍Expression Blend更是少之又少,为了让更多开发人员学习和了...

冷秋寒
2018/06/29
0
0
编程零基础应当如何开始学习 Python ?

提前说一下,这篇福利多多,别的不说,直接让你玩回最有手感的怀旧游戏,参数贴图很方便自己可以根据喜好修改哦。 本篇通过以下四块展开,提供大量资源对应。 【选一个好版本 有没有看过《在...

崔斯特呀
2017/09/14
0
0
开源电子书

目录 语言无关类 操作系统 智能系统 分布式系统 编译原理 函数式概念 计算机图形学 WEB服务器 版本控制 编辑器 NoSQL PostgreSQL MySQL 管理和监控 项目相关 设计模式 Web 大数据 编程艺术 ...

zting科技
2017/12/11
0
0

没有更多内容

加载失败,请刷新页面

加载更多

grafana安装使用及与zabbix集成

grafana简介 Grafana是一个完全开源的度量分析与可视化平台,可对来自各种各种数据源的数据进行查询、分析、可视化处理以及配置告警。 Grafana支持的数据源: 官方:Graphite,InfluxDB,Ope...

阿dai学长
44分钟前
11
0
带你看数据挖掘与机器学习-厦大EDP上课出勤预测

带你看数据挖掘与机器学习-厦大EDP上课出勤预测 标签: 数据挖掘 特征工程 机器学习 出勤预测 write by xmhexi 2019/3/22 内容提要 首先说明本文是一篇科普文章,通过一个实际案例,帮助理解什...

xmhexi
今天
112
0
IOS  学习记录

1.StackView=>IOS 9及以上支持 2.布局方式: AutoLayout / StackView 堆布局 (线性布局) 3.屏幕适配 (资源分辨率、设计分辨率、屏幕分辨率) Size Class技术 可以针对 屏幕的方向进行设置...

萨x姆
今天
5
0
第四次工业革命:自主经济的崛起

https://36kr.com/p/5170370.html

shengjuntu
昨天
5
0
Cloud Native 与12-Factor

12-Factor(twelve-factor),也称为“十二要素”,是一套流行的应用程序开发原则。Cloud Native架构中使用12-Factor作为设计准则。 12-Factor 的目标在于: 使用标准化流程自动配置,从而使...

waylau
昨天
10
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部