文档章节

python 实现两个文本文件内容去重

o
 osc_fmg49rzg
发布于 2019/03/18 22:25
字数 430
阅读 32
收藏 0

精选30+云产品,助力企业轻松上云!>>>

实现两个文本内容去重,输出两个文本不重复的结果

两个测试文本内容如下

    1.txt中内容为 1 2 3 4 5 6 7 8
    2.txt中内容为 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 

分别读取两个文本的内容

读取1.txt的内容,具体实现如下:

	str1 = []
    file_1 = open("1.txt","r",encoding="utf-8")
    for line in file_1.readlines():
        str1.append(line.replace("\n",""))

读取2.txt的内容,具体实现如下:

	str2 = []
    file_2 = open("2.txt", "r", encoding="utf-8")
    for line in file_2.readlines():
        str2.append(line.replace("\n", ""))   

取出重复的内容

创建一个空列表,将两个文件中重复的内容取出来,具体实现如下:

	str_dump = []
    for line in str1:
        if line in str2:
            str_dump.append(line)    #将两个文件重复的内容取出来

去掉重复内容

将两个文本的内容合并,去除重复的内容

	str_all = set(str1 + str2)      #将两个文件放到集合里,过滤掉重复内容
    for i in str_dump:              
        if i in str_all:
            str_all.remove(i)       #去掉重复的文件

完整代码如下

	#!/usr/bin/env python 
# -*- coding:utf-8 -*-

def file_qc():
    str1 = []
    file_1 = open("1.txt","r",encoding="utf-8")
    for line in file_1.readlines():
        str1.append(line.replace("\n",""))

    str2 = []
    file_2 = open("2.txt", "r", encoding="utf-8")
    for line in file_2.readlines():
        str2.append(line.replace("\n", ""))

    str_dump = []
    for line in str1:
        if line in str2:
            str_dump.append(line)    #将两个文件重复的内容取出来

    str_all = set(str1 + str2)      #将两个文件放到集合里,过滤掉重复内容

    for i in str_dump:              
        if i in str_all:
            str_all.remove(i)		#去掉重复的文件

    for str in str_all:             #去重后的结果写入文件
        print(str)
        with open("qc_V.txt","a+",encoding="utf-8") as f:
            f.write(str + "\n")

if __name__=="__main__":
    file_qc()

输出结果为

在这里插入图片描述

o
粉丝 0
博文 500
码字总数 0
作品 0
私信 提问
加载中
请先登录后再评论。
用Python写了个检测文章抄袭,详谈去重算法原理

在互联网出现之前,“抄”很不方便,一是“源”少,而是发布渠道少;而在互联网出现之后,“抄”变得很简单,铺天盖地的“源”源源不断,发布渠道也数不胜数,博客论坛甚至是自建网站,而爬虫...

python派森
2019/06/10
8
0
腾讯等公司python工程师面试题曝光!涨知识了

作为Python开发工程师,进入大公司是开启职业新起点的关键,今天给小伙伴特别分享了其在腾讯等一些公司面试Python工程师的题目和经历,希望对广大Python工程师的求职者有一个帮助。 python2和...

osc_n6euf5h6
2019/03/19
15
0
Python3写爬虫(四)多线程实现数据爬取

前段时间阅读了一篇名为《 [Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新) 》的博客,基于Python2.7编写,我用Python3将其重构,在前几篇内容的基础上加入了多线程...

巴鲁
2015/04/18
337
0
我用 Python 处理3万多条数据,只要几秒钟……

本文分享自微信公众号 - Python爬虫与数据挖掘(crawlerpython)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。...

Python进阶者
01/31
0
0
simhash算法:海量千万级的数据去重

simhash算法:海量千万级的数据去重 simhash算法及原理参考: 简单易懂讲解simhash算法 hash 哈希:https://blog.csdn.net/lele_name/article/details/51615931 simhash算法及原理简介:htt...

osc_1khxb2l2
2019/07/08
32
0

没有更多内容

加载失败,请刷新页面

加载更多

038. RocketMQ 高性能最佳实践

1. 最佳实践之 Producer 1. 一个应用尽可能用一个 Topic,消息子类型用 tags 来标识,tags 可以由应用自由设置。 只有发送消息设置了 tags,消费方在订阅消息时,才可以利用 tags 在 broker...

华夏紫穹
今天
34
0
QQ音乐Android客户端Web页面通用性能优化实践

QQ音乐 Android 客户端的 Web 页面日均 PV 达到千万量级,然而页面的打开耗时与 Native 页面相距甚远,需要系统性优化。本文将介绍 QQ 音乐 Android 客户端在进行 Web 页面通用性能优化过程中...

腾讯云开发者社区
今天
36
0
rabbitmq+sleuth+zinkip 分布式链路追踪

我们都知道,微服务之间通过feign传递,在复杂的微服务架构系统中,几乎每一个前端请求都会形成一个复杂的分布式服务调用链路,在每条链路中任何一个依赖服务出现延迟超时或者错误都有可能引...

良许Linux
今天
25
0
5分钟搭建属于你的视频会议系统

前言 在疫情的推动下视频会议和线上办公大力发展,如果你也想了解视频会议,看看这篇文章吧 准备工作 一台Ubuntu18.04拥有公网IP的服务器 一个域名提前解析到这台服务器上 安全组设置规则tcp...

死磕音视频
今天
20
0
从文本JavaScript中删除HTML - Strip HTML from Text JavaScript

问题: 有没有一种简单的方法可以在JavaScript中获取html字符串并去除html? 解决方案: 参考一: https://stackoom.com/question/3RxM/从文本JavaScript中删除HTML 参考二: https://oldbug...

fyin1314
今天
19
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部