文档章节

python 去除文本中的URL

岁月留痕
 岁月留痕
发布于 2015/12/17 15:34
字数 152
阅读 1506
收藏 6

一、获取文本中的URL

    文本内容:

挺好!http://qiye.tianya.cn//blog/infoReader3.aspx?blogID=1776&ComID=129956&infoID=9724&infoType=1有空我也去听听!

放在test.txt文本中

    代码实现:

import re
f=open('test.txt','r')
s=f.read()
bb=re.findall(r'http://[a-zA-Z0-9.?/&=:]*',s)
f.closed
print bb

    结果为:

['http://qiye.tianya.cn//blog/infoReader3.aspx?blogID=1776&ComID=129956&infoID=9724&infoType=1']

二、去除文本中的url

    代码实现:

#利用python的正则去解决
import re
f=open('test.txt','r')
s=f.read()
results=re.compile(r'http://[a-zA-Z0-9.?/&=:]*',re.S)
dd=results.sub("",s)
f.closed
d=open('test.txt','w')
d.write(cc)
d.closed

    重新打开test.txt,会出现:

挺好!有空我也去听听!

    url去除了

© 著作权归作者所有

岁月留痕
粉丝 3
博文 25
码字总数 25341
作品 0
郑州
私信 提问
加载中

评论(2)

trytore
trytore
那句d.write(cc)是什么意思?谢谢
laojiadingxi
laojiadingxi
13
从Python安装到语法基础,这才是初学者都能懂的爬虫教程

Python和PyCharm的安装:学会Python和PyCharm的安装方法 变量和字符串:学会使用变量和字符串的基本用法 函数与控制语句:学会Python循环、判断语句、循环语句和函数的使用 Python数据结构:...

糖宝lsh
03/29
28
0
156个Python网络爬虫资源,妈妈再也不用担心你找不到资源了

本列表包含Python网页抓取和数据处理相关的库。 前几天有私信小编要Python的学习资料,小编整理了一些有深度的Python教程和参考资料,从入门到高级的都有,文件已经打包好了,正在学习Pytho...

雁横
2018/05/02
0
0
理解 Python 中的多线程

我们将会看到一些在 Python 中使用线程的实例和如何避免线程之间的竞争。 你应当将下边的例子运行多次,以便可以注意到线程是不可预测的和线程每次运行出的不同结果。声明:从这里开始忘掉你...

大数据之路
2013/11/27
11.4K
0
python开源工具列表【持续更新】

以下是个人在工作中整理的一些python wheel,供参考。 这个列表包含与网页抓取和数据处理的Python库 网络 通用urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库(基于pycurl)。...

武耀文
2018/04/25
0
0
Python 爬虫的工具列表 附Github代码下载链接

这个列表包含与网页抓取和数据处理的Python库 1、网络 通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库(基于pycurl)。 pycurl – 网络库(绑定libcurl)。 urllib3 – ...

大数据之路
2012/07/07
2.5K
0

没有更多内容

加载失败,请刷新页面

加载更多

OpenStack 简介和几种安装方式总结

OpenStack :是一个由NASA和Rackspace合作研发并发起的,以Apache许可证授权的自由软件和开放源代码项目。项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。OpenSta...

小海bug
昨天
5
0
DDD(五)

1、引言 之前学习了解了DDD中实体这一概念,那么接下来需要了解的就是值对象、唯一标识。值对象,值就是数字1、2、3,字符串“1”,“2”,“3”,值时对象的特征,对象是一个事物的具体描述...

MrYuZixian
昨天
6
0
数据库中间件MyCat

什么是MyCat? 查看官网的介绍是这样说的 一个彻底开源的,面向企业应用开发的大数据库集群 支持事务、ACID、可以替代MySQL的加强版数据库 一个可以视为MySQL集群的企业级数据库,用来替代昂贵...

沉浮_
昨天
6
0
解决Mac下VSCode打开zsh乱码

1.乱码问题 iTerm2终端使用Zsh,并且配置Zsh主题,该主题主题需要安装字体来支持箭头效果,在iTerm2中设置这个字体,但是VSCode里这个箭头还是显示乱码。 iTerm2展示如下: VSCode展示如下: 2...

HelloDeveloper
昨天
7
0
常用物流快递单号查询接口种类及对接方法

目前快递查询接口有两种方式可以对接,一是和顺丰、圆通、中通、天天、韵达、德邦这些快递公司一一对接接口,二是和快递鸟这样第三方集成接口一次性对接多家常用快递。第一种耗费时间长,但是...

程序的小猿
昨天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部