文档章节

python-字符串处理

阿dai学长
 阿dai学长
发布于 07/03 20:55
字数 1150
阅读 11
收藏 0

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>>

本文要点

  • 字符串拼接
  • 拆分含有多种分隔符的字符串
  • 判读字符串 a 是否以字符串 b 开头或结尾
  • 调整字符串中文本的格式
  • 对字符串进行左,右,居中对齐
  • 删除字符串中不需要的字符

字符串拼接

场景:把列表中的数据拼接成一个字符串

In [1]: li = [3, 'cxk', 'kk', 'caibi']                                                        

In [2]: ''.join([str(i) for i in li])                                                         
Out[2]: '3cxkkkcaibi'

推荐使用生成器表达式,如果列表很大,可以节省很多内存空间

In [3]: ''.join(str(i) for i in li)                                                           
Out[3]: '3cxkkkcaibi'

拆分含有多种分隔符的字符串

场景:把某个字符串依据分割符号拆分不同的字段,该字符串包含多种不同的分隔符

s = "ab;fd/ft|fs,f\tdf.fss*dfd;fs:uu}fsd"
  • 使用Python中的split()方法,由于split 一次处理一个分隔符,例如:

    >>> res = s.split(';')
    >>> res
    ['ab', 'fd/ft|fs,f\tdf.fss*dfd', 'fs:uu}fsd']
    

    所以我们需要根据字符串中的分隔符,依次分割,可以是 map 函数!

    >>> list(map(lambda x: x.split("|"), res))
    [['ab'], ['fd/ft', 'fs,f\tdf.fss*dfd'], ['fs:uu}fsd']]
    

    结果变成了一个二维列表,而我们想要的结果是一维列表,怎么办?

    创建一个临时列表保存结果。

    >>> t = []
    >>> list(map(lambda x: t.extend(x.split("|")), res))
    [None, None, None]
    >>> t
    ['ab', 'fd/ft', 'fs,f\tdf.fss*dfd', 'fs:uu}fsd']
    

    结果符合我们的预期!接下来继续处理剩余的分隔符,重复动作,用 for 循环搞定!

    最终代码如下:

    def my_split(s, ds):
        res = [s]
    
        for d in ds:
            t = []
            list(map(lambda x: t.extend(x.split(d)), res))
            res = t   
        return res
    

    将字符串和字符串中所有的分隔符传入,结果如下:

    s = "ab;fd/ft|fs,f\tdf.fss*dfd;fs:uu}fsd"
    print(my_split(s, ";/|,.}:*\t"))
    

    运行结果:['ab', 'fd', 'ft', 'fs', 'f', 'df', 'fss', 'dfd', 'fs', 'uu', 'fsd']

  • 使用 re 模块的中 split() 方法 re() 也给我们提供了 split() 方法,可以一次性分隔字符串!

    import re
    
    s = "ab;fd/ft|fs,f\tdf.fss*dfd;fs:uu}fsd"
    print(re.split('[;/|,.}:*\t]', s))
    

    结果一致,是不是很简单粗暴!

判读字符串 a 是否以字符串 b 开头或结尾

场景:比如某目录下有一系列文件:

20190703156215820670632.png

编写程序给其中所有 .txt 文件和 .py 文件加上用户可执行权限

解决方案:

使用字符串 str.startswith() 和 str.endswith()

找出以 .txt 和 .py 结尾的文件,其接受一个元组

>>> import os
>>> os.listdir(".")
['app', 'config', 'requirements.txt', 'run.py', '__pycache__', 'gunicorn.conf.py', 'chromedriver', 'login_after2.png', 'readme.txt', 'slide.png', 'test.py', 'logs', 'chrome-linux.zip', 'gunicorn.pid', 'asgi.py', 'chrome-linux']

>>> [name for name in os.listdir(".") if name.endswith((".txt", ".py"))]
['requirements.txt', 'run.py', 'gunicorn.conf.py', 'readme.txt', 'test.py', 'asgi.py']

调整字符串中文本的格式

实际案列:例如在日志文件中,其中日期格式为'yyyy-mm-dd':

20190703156215830825303.png

我们想把其中的日期改为美国日期格式'mm/dd/yyyy'.比如 2019-06-12 改成 06/12/2019 格式

解决方案:使用 re 中的 sub() 方法做字符串替换

利用正则表达式中的捕获组,捕获每个部分的内容,然后在替换在替换的字符串中调整各个捕获组的顺序!

代码如下:

import re

with open("info.log", "r", encoding="utf-8") as f:
    file = f.read()

print(re.sub('(\d{4})-(\d{2})-(\d{2})', r'\2/\3/\1', file))

捕获组中每组需要用括号括起来,然后默认从左至右分为组1, 组2…

下一个参数是我们要替换的格式,用 1,2,3 分别表示组1, 组2…

运行结果如下:

20190703156215836674555.png

对字符串进行左,右,居中对齐

解决方案:

  • 使用字符串中的 str.ljust(), str.rjust(), str.center() 进行左右居中对齐!以上三种方法的基本用法:

    >>> s = 'abc'
    >>> s.ljust(20, '=')
    'abc================='
    >>> s.ljust(20)
    'abc 
    
  • 使用内置的 format() 方法

    >>> format(s, ">20")
    '                 abc'
    >>> format(s, "<20")
    'abc                 '
    >>> format(s, "^20")
    '        abc   
    

删除字符串中不需要的字符

实际案例

  1. 过滤掉用户输入中前后多余的空白字符:“ nick2008@gmail.com
  2. 过滤掉某 windows 下编辑文本中的 “\r” :“hello world \r\n”
  3. 去掉文本中的 unicode 组合符号(音调):nǐ hǎo mā

解决方案

  • 使用 str.strip(), str.lstrip(), str.rstrip() 方法去掉字符串两端字符
  • 使用 str.replace() 或者正则中的 re.sub()
  • 使用字符串中 str.translate() 方法,可以同时删除多个不同的字符

本文转载自:https://mp.weixin.qq.com/s/21Xrl7WsnMPyMwIILUl4fw

阿dai学长
粉丝 76
博文 263
码字总数 337363
作品 0
朝阳
运维
私信 提问
Python内置的字符串处理函数整理

Python内置的字符串处理函数整理 27 May 2011 16:30 Friday by 小屋标签: 函数 字符串 Python 字符串处理 收集常用的Python 内置的各种字符串处理 函数的使用方法 str='python String funct...

行者深蓝
2014/02/14
167
0
详解 python 中文编码与处理

注意:本文只是针对 python 2,在 python 3 中,编码方式与处理技巧有些许变化,具体请参考: Python 2 与 Python 3 的差异对比: http://my.oschina.net/leejun2005/blog/173553 一、使用中...

大数据之路
2012/08/24
35.5K
0
Python基础——内置hashlib、IO、Json、codecs模块(0426)

一、hashlib 加密模块:提供了很多加密的算法 常见的加密方式:MD5 RSA,加密之后不可逆。没法破解。 1、以MD5的方式加密字符串(Python 3) 示例 结果 2、以MD5的方式加密字符串(Python 2)...

python初雪之路
2018/04/27
125
0
python学习11.01:Python字符串拼接(包含字符串拼接数字)

前面我们见过书写字符串的一种特殊方式,即直接将两个字符串紧挨着写在一起,这样的话 Python 就会自动拼接它们,比如说: 上面代码将会输出: 其实,这种写法只是书写字符串的一种特殊方法,...

太空堡垒185
10/18
16
0
6 个 Python 的日期时间库

在 Python 中有许多库可以很容易地测试、转换和读取日期和时间信息。 这篇文章是与 Jeff Triplett 一起合写的。 曾几何时,我们中的一个人(Lacey)盯了一个多小时的 Python 文档中描述日期和...

16%
2018/05/22
0
0

没有更多内容

加载失败,请刷新页面

加载更多

交换机switch 的shutdown 与 no shutdown

shutdown是关闭接口(端口),接口状态会变为DOWN,no shutdown是激活接口(端口),状态变为UP,一般在给vlan或者端口配置管理ip或者端口ip后使用。 有时候我们配置某个端口前会需要把端口关闭到...

刘日辉
56分钟前
5
0
AOP底层源码分析

思维导图 AOP AOP: 面向切面编程[底层就是动态代理] 指程序在运行期间动态的将某段代码切入到指定方法位置进行运行的编程方式。 AOP通知方式 前置通知: logStart(),在目标方法(div)运行之前运...

volc1612
今天
5
0
OSChina 周六乱弹 —— 别听他们的,你不胖你只是毛茸茸的

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @且无需多言 :分享Rise Against的单曲《Audience Of One (Ghost Note Symphonies)》: 硬核朋克不插电版本,隐藏在喧嚣下的柔情! 《Audienc...

小小编辑
今天
76
3
apache httpClient实现代理发送Post请求

CredentialsProvider credsProvider = new BasicCredentialsProvider(); credsProvider.setCredentials( new AuthScope("host", port), new UsernamePasswordCredentials(username, password......

huangkejie
今天
6
0
SpringCloud

单体应用存在的问题 ● 随着业务的发展,开发变得越来越复杂。 ● 修改、新增某个功能,需要对整个系统进行测试,重新部署。 ● 一个模块出现问题,很可能导致整个系统崩溃。 ● 多个开发团队...

Star永恒
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部