文档章节

AWK,Python 统计文本

jastme
 jastme
发布于 2014/06/26 09:12
字数 356
阅读 44
收藏 0
点赞 0
评论 0
需求,读一个文件,在遇到某个字符后退出,然后统计前面每个字符串出现的次数


root@ubuntu001:~# cat test
1 2 3 4 5 6 7 8
2 3 4 5 6 7 8 9
1 3 5 6 7 8 9 1
2 3 5 6 7 8 9 1
1 2 4 5 6 8 9 d
12 33 55 667 999 4242 

awk历遍文本到指定字符串退出,统计

root@ubuntu001:~# awk '{for(i=1;i<=NF;i++){if( $i=="d" ){exit}else{a[$i]++}}}END{for(i in a){print i,a[i]}}' test
1 5
2 4
3 4
4 3
5 5
6 5
7 4
8 5
9 4

python统计;注释的地方为去重部分--》写入字典,再读字典,有点不科学了;

#!/usr/bin/python
# -*- coding:utf-8 -*-
f=open('/root/test','r')
a=''
b={}
for i in f.read():
    if 'd' in i:
        a=a+i[:i.index('d')]
        break
    else:
        a=a+i
m=list(set(list(a)))                             ###########    set可以对列表去重,好用
for n in m:
    print '%s Appeared %s number of times' %(n,a.count(n))
#for k in a:
#    if k==' ':
#        pass
#    elif k=='\n':
#        pass
#    else:
#        b[k]=a.count(k)
#for key,vaule in b.items():        
#    print '%s Appeared %s number of times' %(key,vaule[1])

root@ubuntu001:~# ./douniwan.py 
1 Appeared 5 number of times
3 Appeared 4 number of times
2 Appeared 4 number of times
5 Appeared 5 number of times
4 Appeared 3 number of times
7 Appeared 4 number of times
6 Appeared 5 number of times
9 Appeared 4 number of times
8 Appeared 5 number of times


© 著作权归作者所有

共有 人打赏支持
jastme
粉丝 35
博文 122
码字总数 59358
作品 0
成都
程序员
Python文本挖掘-PDF和脚本见附件

课程要点 •分词以及词权重 •文本分类算法 •文本检索和LDA 常国珍《Python数据科学:全栈技术详解》 3 课程大纲 1)文本挖掘介绍 2)中文分词 3)文本特征提取与相关性的度量 4)文本分类 5)主...

Ben_Chang ⋅ 05/01 ⋅ 0

Python数据可视化之Wordcloud

文章起始,先跟大家说声抱歉。因为距离我上一篇帖子turtle更新已经将近过去了一个月,相信粉丝们已经等不及了,还有很多氢粉在后台跟我留言说“在很早之前就想接触wordcloud这个库,但是万事...

氢立方 ⋅ 前天 ⋅ 0

最新阿里巴巴面试题(附带面试标准答案)

在上一节中,我们已经介绍了关于阿里巴巴的任职要求,这节我就详细的介绍一下关于阿里巴巴的面试题(涉及到标准代码部分不予以出现,如果想要可以加群:725479218,里面可以进行技术分享、技术...

柯西带你学编程 ⋅ 06/02 ⋅ 0

156个Python网络爬虫资源,妈妈再也不用担心你找不到资源了

本列表包含Python网页抓取和数据处理相关的库。 前几天有私信小编要Python的学习资料,小编整理了一些有深度的Python教程和参考资料,从入门到高级的都有,文件已经打包好了,正在学习Pytho...

雁横 ⋅ 05/02 ⋅ 0

如何用 Python 可视化《三国》人物与兵器出现频率?(视频教程)

咱们以《三国演义》人名和兵器谱为例,尝试读取不同结构的文本文件,并且对其中的信息进行统计分析和可视化。 入门 如何帮助学生高效入门 Python ,一直是困扰我的问题。 总结经验后,我写下...

王树义 ⋅ 06/03 ⋅ 0

Python数据科学(八)- 资料探索与资料视觉化

传送门: Python数据科学(一)- python与数据科学应用(Ⅰ) Python数据科学(二)- python与数据科学应用(Ⅱ) Python数据科学(三)- python与数据科学应用(Ⅲ) Python数据科学(四)- 数据收...

_知几 ⋅ 05/22 ⋅ 0

caffe训练打印log分析train loss和test loss并绘制变化曲线

其实很简单,将屏幕输出先保存到文件中,然后使用shell的文本分析命令处理,得到train loss,然后再保存到文件中,利用matlab或者python进行曲线绘制 一条命令,包含多个shell命令假设caffe...

joshuaxx316 ⋅ 2016/09/17 ⋅ 0

Python 2 和 Python 3 主要区别有哪些(一)?

Guido(Python之父,仁慈的独裁者)在设计 Python3 的过程中,受一篇文章 “Python warts” 的影响,决定不向后兼容,否则无法修复大多数缺陷。---摘录自《流畅的Python》 你可能从来没有听说...

liuzhijun ⋅ 2017/08/02 ⋅ 0

rpy2:在python中调用R函数的一个实例

python与R是当前数据科学计算的两大支柱,就我个人的使用经验而言,R更直观、简单和上手一些。很多专业的统计分析Python并没有提供R中的对应体,而你想要使用Python做数据分析,这时候就需要...

王诗翔 ⋅ 05/30 ⋅ 0

Python VS R,哪个更适合开发者?

21CTO社区导读:Python和R同时出现在20世纪九十年代。它为数据科学家提供了大量的数据模型操作的能力。在发展了30年后,Python与R开始出现不同的爱好者阵营。 90年代出现了互联网,这一事物永...

21CTO ⋅ 04/28 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

IDEA创建SpringMVC+Mybatis+Maven项目

视频如下(加载有点慢请见谅,服务器不太好): 视频

影狼 ⋅ 28分钟前 ⋅ 0

前阿里P8架构师:精准定制Java架构师学习计划!

可以说,Java是现阶段中国互联网公司中,覆盖度最广的研发语言,掌握了Java技术体系,不管在成熟的大公司,快速发展的公司,还是创业阶段的公司,都能有立足之地。 有不少朋友问,除了掌握J...

java高级架构牛人 ⋅ 31分钟前 ⋅ 0

zookeper学习

https://blog.csdn.net/u012152619/article/category/6470028

~少司命~ ⋅ 32分钟前 ⋅ 0

Spring MVC ,JSON,JQuery,不懂JQuery,跳过了

/spring-mvc-study/src/main/webapp/course_json.jsp <%@ page language="java" contentType="text/html; charset=UTF-8"pageEncoding="UTF-8"%><!DOCTYPE html PUBLIC "-//W3C//DTD ......

颖伙虫 ⋅ 32分钟前 ⋅ 0

2018上海云栖大会workshop-日志数据采集与分析对接

摘要: 日志数据采集与分析对接 课程描述 通过日志服务采集用户、数据库、业务等访问数据。演示对于业务日志分析与处理,程序日志查询与监控,打通日志与数据仓库对接案例。 日志种类 网站访...

阿里云云栖社区 ⋅ 33分钟前 ⋅ 0

mahout demo

package com.datamine.CollaborativeFiltering.mysql; import org.apache.mahout.cf.taste.impl.neighborhood.NearestNUserNeighborhood; import org.apache.mahout.cf.taste.impl.recommend......

xiaomin0322 ⋅ 35分钟前 ⋅ 0

red hat openstack 12配置要求

安装 openstack 之前,一般要规划整个系统中,到底要多少台机器来参与openstack, 根据rhosp12的官方文档: 最低要求是3台物理机,1台作为director,一台作为 controller ,一台作为computer....

tututu_jiang ⋅ 36分钟前 ⋅ 0

Rocket-Chip在GitHub上的各个源码

在github上通过搜索Rocket-chip可以得到36个结果:其中 https://github.com/freechipsproject/rocket-chip https://github.com/ucb-bar/riscv-boom https://github.com/ucb-bar/fpga-zynq (......

whoisliang ⋅ 41分钟前 ⋅ 0

【HAVENT原创】CentOS 6.5 下 Nginx 的安装与配置

nginx是轻量级的Web服务器、反向代理服务器及邮件服务器,具有占用内存少,并发能力强的优点,已被广泛应用。本文介绍目前最新版本 1.12.2 的安装。 各版本nginx下载地址:http://nginx.org/...

HAVENT ⋅ 47分钟前 ⋅ 0

查看linux系统重启之前的log -- last_kmsg

当 Linux Kernel 出现 BUG 的时候,后走入 panic flow,这个时候由于 Kernel 出现了严重的问题,adbd 也无法响应 adb 连接请求,这个时候想透过读取 Kernel Log Buffer 来看 Kernel Log 是不...

zyzzu ⋅ 48分钟前 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部