文档章节

复合数据类型,英文词频统计

o
 osc_fmg49rzg
发布于 2019/03/22 11:57
字数 787
阅读 0
收藏 0
mu

精选30+云产品,助力企业轻松上云!>>>

1.列表,元组,字典,集合分别如何增删改查及遍历。

1.列表:

list=['jin','mu','shui','huo','tu']
list.append('qi')
list

list=['jin','mu','shui','huo','tu']
list.pop(1)
list

list=['jin','mu','shui','huo','tu']
list[2]='bing'
list

list=['jin','mu','shui','huo','tu']
list[0]

遍历

list=['jin','mu','shui','huo','tu']
for i in range(len(list)):
    print('下标:',i,'  值:',list[i])

2.元组

tup1=('jin','mu','shui','huo','tu')
tup2=('qi','guang')
tup3=tup1+tup2
tup3

tup1=('jin','mu','shui','huo','tu')
del tup1
tup1

tup1=('jin','mu','shui','huo','tu')
tup1[2]

遍历

tup1=('jin','mu','shui','huo','tu','qi')
for i in range(len(tup1)):
    print('下标:',i,'  值:',tup1[i])

3.字典

dis={'1':'jin','2':'mu','3':'shui'}
dis['4']='huo'
dis

dis={'1':'jin','2':'mu','3':'shui'}
del dis['2']
dis

dis={'1':'jin','2':'mu','3':'shui'}
dis['3']='tu'
dis

dis={'1':'jin','2':'mu','3':'shui'}
dis['3']

遍历

dis={'1':'jin','2':'mu','3':'shui'}
for i in dis:
    print('key:',i,'  键值:',dis[i])

4.集合

s=set(('jin','mu','shui','huo','tu'))
s.add('qi')
s

s=set(('jin','mu','shui','huo','tu'))
s.remove('huo')
s

s=set(('jin','mu','shui','huo','tu'))
s.update(['guang'])
s

 

 

 

2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面:

  • 括号
  • 有序无序
  • 可变不可变
  • 重复不可重复
  • 存储与查找方式

列表:

  • 括号:有括号:[]
  • 有序无序:有序
  • 可变不可变:可变
  • 重复不可重复:可重复
  • 存储与查找方式:顺序查找和根据下标查找,存储根据对应下标存储

元组:

  • 括号:有括号:()
  • 有序无序:有序
  • 可变不可变:不可变
  • 重复不可重复:可重复
  • 存储与查找方式:顺序查找和根据下标查找,存储根据对应下标存储

字典:

  • 括号:有括号:{}
  • 有序无序:无序
  • 可变不可变:可变,根据key改变键值
  • 重复不可重复:key不可重复,键值可重复
  • 存储与查找方式:根据key存储和查找所对应的键值

集合:

  • 括号:有括号:()
  • 有序无序:无序
  • 可变不可变:可变
  • 重复不可重复:不可重复
  • 存储与查找方式:顺序查找和根据下标查找,存储根据对应下标存储

3.词频统计

  • 1.下载一长篇小说,存成utf-8编码的文本文件 file

    2.通过文件读取字符串 str

    3.对文本进行预处理

    4.分解提取单词 list

    5.单词计数字典 set , dict

    6.按词频排序 list.sort(key=lambda),turple

    7.排除语法型词汇,代词、冠词、连词等无语义词

    • 自定义停用词表
    • 或用stops.txt

  8.输出TOP(20)

  • 9.可视化:词云

 排序好的单词列表word保存成csv文件

def getNumber(x):
    y=x[1]
    return y

file = open('F:\gril.txt','r',encoding='UTF-8').read().lower()
s = "'"
for i in s:
    file = file.replace(s,' ')
song = file.split()
exclude = {'a','the','i','you','and','in','but','not','it','s','if','do','m'}
cun = set(song)-exclude
dis = {}
for i in cun:
    dis[i] = song.count(i)
words = list(dis.items())
words.sort(key=getNumber,reverse=True)
#输出前20
for j in range(20):
    print(words[j])
#保存为csv文件
pd.DataFrame(data=words).to_csv(r'F:\bigbig.csv',encoding='UTF-8')

 

import pandas as pd
pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')

线上工具生成词云:
https://wordart.com/create
词云:

o
粉丝 0
博文 500
码字总数 0
作品 0
私信 提问
加载中
请先登录后再评论。

暂无文章

hbase2.1.9 centos7 完全分布式 搭建随记

hbase2.1.9 centos7 完全分布式 搭建随记 这里是当初在三个ECS节点上搭建hadoop+zookeeper+hbase+solr的主要步骤,文章内容未经过润色,请参考的同学搭配其他博客一同使用,并记得根据实际情...

osc_4tfw1dxv
35分钟前
11
0
zookeeper3.5.5 centos7 完全分布式 搭建随记

zookeeper3.5.5 centos7 完全分布式 搭建随记 这里是当初在三个ECS节点上搭建hadoop+zookeeper+hbase+solr的主要步骤,文章内容未经过润色,请参考的同学搭配其他博客一同使用,并记得根据实...

osc_6jhxf9ab
37分钟前
19
0
steam夏日促销悄然开始,用Python爬取排行榜上的游戏打折信息

前言 很多人学习python,不知道从何学起。 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。 很多已经做案例的人,却不知道如何去学习更加高深的知识。 那么针对这三类人,...

osc_ur9mmbck
38分钟前
16
0
python 里 certifi 库的作用

python 里 certifi 库的作用 安装了certifi之后,和requests库一样也有一个cacert.pem,可以用编辑器打开cacert.pem,里面包含了很多可信任知名公司的证书/公钥 库的路径,我这里是python2.7...

osc_1x6ycmfm
39分钟前
11
0
干掉"ZooKeeper",阿里为什么不用ZK做服务发现?

  20大进阶架构专题每日送达   链接:yq.aliyun.com/articles/601745   2020年Java面试题库连载中   !   正文   站在未来的路口,回望历史的迷途,常常会很有意思,因为我们会不...

osc_q5m9dzk0
41分钟前
17
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部