文档章节

python爬虫系列之数据的存储(二):csv库的使用

西伯利亚大尾巴狼
 西伯利亚大尾巴狼
发布于 2018/07/09 16:40
字数 1435
阅读 32
收藏 1

上一篇我们讲了怎么用 json格式保存数据,这一篇我们来看看如何用 csv模块进行数据读写。

一、csv简介

CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用的文本格式,用来存储表格数据,包括数字或者字符。

csv的使用很广泛,很多程序都会涉及到 csv的使用,但是 csv却没有通用的标准,所以在处理csv格式时常常会碰到麻烦。

因此在使用 csv时一定要遵循某一个标准,这不是固定的,但每个人都应该有一套自己的标准,这样在使用 csv时才不会犯低级错误。

二、csv库的使用

关于 csv库的使用,我们从写和读两个方面来讲。

csv库有四个主要的类 writer,DictWriter,reader,DictReader

reader和 DictReader都接受一个可以逐行迭代的对象作为参数,一般是一个包含 csv格式数据的文件对象。

writer和 DictWriter则接受一个 csv文件对象,csv格式的数据将会写入到这个文件中。

他们都会返回一个对应的对象,我们通过这个对象来进行数据的读和写。

这四者中 reader和 writer对应,DictReader和 DictWriter对应,也就是说通过 writer类写的 csv文件只能通过 reader类来读取,DictReader同理。

1、csv将数据写入文件

#-*- coding: utf-8 -*
import csv


#通过 writer类写入数据
#待写入的数据 注意到两个列表的元素个数不一样
test_writer_data_1 = ['Tom', 'Cody', 'Zack']
test_writer_data_2 = ['Mike', 'Bill']

#创建并打开文件
with open('test_writer.csv', 'w', newline='', encoding='utf-8') as csvfile:
    #获得 writer对象 delimiter是分隔符 默认为 ","
    writer = csv.writer(csvfile, delimiter=' ')
    #调用 writer的 writerow方法将 test_writer_data写入 test_writer.csv文件
    writer.writerow(test_writer_data_1)
    writer.writerow(test_writer_data_2)


#通过 DictWriter类写入数据
#待写入的数据 注意到待写入的数据类型为 dict 且第二个字典没有 lastname
test_dict_writer_data_1 = {'firstname': 'Tom', 'lastname': 'Loya'}
test_dict_writer_data_2 = {'firstname': 'Tom', 'lastname': 'Loya'}

#创建并打开文件
with open('test_dict_writer.csv', 'w', newline='', encoding='utf-8') as csvfile:
    #设置表头
    fieldnames=['firstname', 'lastname']
    # 获得 DictWriter对象 delimiter是分隔符 默认为 "," 表头为 'firstname' 'lastname'
    dict_writer = csv.DictWriter(csvfile, delimiter=' ', fieldnames=fieldnames)
    #第一次写入数据先写入表头
    dict_writer.writeheader()
    #调用 DictWriter的 writerow方法将 test_dict_writer_data写入 test_dict_writer.csv文件
    dict_writer.writerow(test_dict_writer_data_1)
    dict_writer.writerow(test_dict_writer_data_2)




前面讲到,csv没有统一的标准,通过上面的例子我们可以发现,csv对写入的数据不做任何检查,也就是说几乎没有任何标准可言。

我们发现 writerow方法不会对数据进行检查,即使前后两句 writerow语句写入的数据的格式不同也不会报错。

所以在用 csv写入数据时要特别注意数据的格式问题!!!

也可以用 writerows(list) 一次写入多行,例如:

with open('test_writer.csv', 'w', newline='', encoding='utf-8') as csvfile:
    #获得 writer对象 delimiter是分隔符 默认为 ","
    writer = csv.writer(csvfile, delimiter=' ')
    #调用 writer的 writerows方法将 test_writer_data写入 test_writer.csv文件
    writer.writerows([test_writer_data_1, test_writer_data_2])

with open('test_dict_writer.csv', 'w', newline='', encoding='utf-8') as csvfile:
    #设置表头
    fieldnames=['firstname', 'lastname']
    # 获得 DictWriter对象 delimiter是分隔符 默认为 "," 表头为 'firstname' 'lastname'
    dict_writer = csv.DictWriter(csvfile, delimiter=' ', fieldnames=fieldnames)
    #第一次写入数据先写入表头
    dict_writer.writeheader()
    #调用 DictWriter的 writerows方法将 test_dict_writer_data写入 test_dict_writer.csv文件
    dict_writer.writerows([test_dict_writer_data_1, test_dict_writer_data_2])

2、csv从文件读取数据

#-*- coding: utf-8 -*
import csv


#通过 reader读取文件内容 注意到之前我们设置了 delimiter为空格,这里也要继续设置为空格
with open('test_writer.csv', 'r', newline='', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile, delimiter=' ')
    for row in reader:
        print(row)


with open('test_dict_writer.csv', 'r', newline='', encoding='utf-8') as csvfile:
    dict_reader = csv.DictReader(csvfile, delimiter=' ')
    for row in dict_reader:
        print(row)

打印结果:

 

观察打印出的结果我们发现,reader读取的内容打印出来后还是列表格式,而 DictReader读取的内容却变为了列表加元组的格式,显然和我们刚开时传入的字典格式很不同。

而我们总是希望输入和输出能够一致,但是 csv模块并没有提供这样的方法,所以我们需要自己将 csv模块再进行一次封装,封装后的包应该满足下面的标准:

  1. 统一的分隔符 delimiter
  2. 统一的编码
  3. 统一的打开文件的方式
  4. 能够自己判断文件是否存在并且选择合适的方式打开文件
  5. 输入格式和输出格式保持一致
  6. 强制检查格式,格式错误禁止插入并报错

封装后的包的源码会在完成后贴出( ̄▽ ̄)"

最后让我们来总结一下使用 csv库的注意事项:

  1. 打开文件时要 注意模式 读用 r,写用 w
  2. 打开文件时要设置 newline=''(空字符)
  3. 打开文件时要指定编码打开,写入时也一样
  4. 如果设置过分隔符就要一直保持,读写时的分隔符必须一致
  5. csv不会检查格式(虽然有个 strict模式,但 strict模式下也不会对格式进行检查),写入文件时一定要注意格式

以上就是 csv库的使用方法和注意事项,觉得不错就点个赞吧(●ˇ∀ˇ●)

上一篇:python爬虫系列之数据的存储(一):json库的使用

© 著作权归作者所有

西伯利亚大尾巴狼

西伯利亚大尾巴狼

粉丝 16
博文 7
码字总数 19909
作品 0
珠海
程序员
私信 提问
Python爬虫|Python爬虫入门(四):储存 - 知乎

系列专栏目录: 第一讲:Python爬虫|Python爬虫入门(一):爬虫基本结构&简单实例 第二讲:Python爬虫|Python爬虫入门(二):请求 第三讲:Python爬虫|Python爬虫入门(三):解析 第四讲:...

China's Prices Project (量潮科技)
2019/10/21
0
0
数据挖掘敲门砖--Python爬虫入门

WHAT 数据挖掘是一门综合的技术,随着Ai的兴起,在国内的需求日渐增大。 数据挖掘的职业方向通常有三个,顺便概要地提一下所需的技能(不仅于此) 数据分析方向:需要数理知识支撑,比如概率...

fesoncn
2018/01/02
0
0
【python数据挖掘课程】二十六.基于SnowNLP的豆瓣评论情感分析

版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步~ https://blog.csdn.net/Eastmount/article/details/85118818 这是《Python数据挖掘课程》系列文章,前面很多...

Eastmount
2018/12/21
0
0
[雪峰磁针石博客]python数据分析快速入门教程2-pandas数据结构

Title: python数据分析快速入门教程2-pandas数据结构 Date: 2018-03-31 9:20 Category: 数据分析 Slug: pythonpandascrash_tutorial2 [雪峰磁针石博客]python数据分析快速入门教程1-开胃菜 ...

Python测试开发人工智能
2018/07/10
0
0
Python处理CSV、JSON和XML数据的简便方法

Python的卓越灵活性和易用性使其成为最受欢迎的编程语言之一,尤其是对于数据处理和机器学习方面来说,其强大的数据处理库和算法库使得python成为入门数据科学的首选语言。在日常使用中,CSV...

急速奔跑中的蜗牛
2019/06/13
0
0

没有更多内容

加载失败,请刷新页面

加载更多

WPF中的StaticResource和DynamicResource有什么区别?

在WPF中使用画笔,模板和样式等资源时,可以将它们指定为StaticResources <Rectangle Fill="{StaticResource MyBrush}" /> 或者作为DynamicResource <ItemsControl ItemTemplate="{DynamicR......

javail
29分钟前
49
0
Day07继承中的面试题 答案

1. 每一个构造方法的第一条语句默认都是:super() Object类最顶层的父类。 class Zi extends Fu{ public int num = 20; public Zi(){ //super(); System.out.println("zi"); } 2.class Test......

Lao鹰
34分钟前
42
0
每天AC系列(四):四数之和

1 题目 Leetcode第18题,给定一个数组与一个target,找出数组中的四个数之和为target的不重复的所有四个数. 2 暴力 List<List<Integer>> result = new ArrayList<>();if (nums.length == 4 &......

Blueeeeeee
44分钟前
54
0
git clone --mirror和git clone --bare有什么区别

git clone帮助页面上有关于--mirror : 设置远程存储库的镜像。 这意味着--bare 。 但没有详细介绍--mirror克隆与--bare克隆--mirror不同。 #1楼 克隆将从远程服务器复制参考,并将其填充到名...

技术盛宴
今天
72
0
代码生成器技术乱弹二十六,未来之野望,未实现的功能:动态Controller名字后缀

现在,光1.5.0的Controller后缀是固定的。比如:UserController, PrivilegeController之类的。而动态Controller名字后缀功能实现后,您只需要定义 controllernamingsuffix:Adaoter Control...

火箭船
今天
53
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部