Python——迭代器的几个高级用法

2019/04/10 10:10
阅读数 8

本文始发于个人公众号:TechFlow,原创不易,求个关注

<br>

<section id="nice" data-tool="mdnice编辑器" data-website="https://www.mdnice.com" style="font-size: 16px; color: black; padding: 0 10px; line-height: 1.6; word-spacing: 0px; letter-spacing: 0px; word-break: break-word; word-wrap: break-word; text-align: left; font-family: Optima-Regular, Optima, PingFangSC-light, PingFangTC-light, 'PingFang SC', Cambria, Cochin, Georgia, Times, 'Times New Roman', serif; margin-top: -10px;"><p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">今天是<strong style="font-weight: bold; color: rgb(71, 193, 168);">Python专题的第8篇</strong>文章。</p> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">今天我们依然介绍的是迭代器,不过介绍的是几个比较常用的<strong style="font-weight: bold; color: rgb(71, 193, 168);">高级用法</strong>,在实际场景当中非常实用,可以帮助我们大大简化代码的复杂度。</p> <h2 data-tool="mdnice编辑器" style="margin-top: 30px; font-weight: bold; font-size: 22px; border-bottom: 2px solid rgb(89,89,89); margin-bottom: 30px; color: rgb(89,89,89);"><span class="prefix" style="display: none;"></span><span class="content" style="font-size: 22px; display: inline-block; border-bottom: 2px solid rgb(89,89,89);">跳过开头</span><span class="suffix"></span></h2> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">首先是跳过开始部分,这个在我们读取文本的时候最常用。在实际的应用当中,比如记录的日志或者是代码等等,一般来说<strong style="font-weight: bold; color: rgb(71, 193, 168);">头部都会附上一段说明</strong>,或者用注释标注或者是用特殊的符号标记。这些信息是给用到数据的程序员看的,当我们通过代码获取数据的时候,显然是希望可以过滤掉这些信息的。</p> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">比如我们有一段数据,它的开头用#做了一些注释:</p> <pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px;"><code class="hljs" style="overflow-x: auto; padding: 16px; color: #333; background: #f8f8f8; display: -webkit-box; font-family: Operator Mono, Consolas, Monaco, Menlo, monospace; border-radius: 0px; font-size: 12px; -webkit-overflow-scrolling: touch;"><span class="hljs-comment" style="color: #998; font-style: italic; line-height: 26px;"># This is a data for student</span><br><span class="hljs-comment" style="color: #998; font-style: italic; line-height: 26px;"># Rows 100</span><br><br>xiaoming, <span class="hljs-number" style="color: #008080; line-height: 26px;">17</span>, <span class="hljs-number" style="color: #008080; line-height: 26px;">99</span>;<br>xiaoli, <span class="hljs-number" style="color: #008080; line-height: 26px;">18</span>, <span class="hljs-number" style="color: #008080; line-height: 26px;">98</span>;<br>...<br></code></pre> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">常规操作当中,我们会创建一个打开文件的迭代器,我们通过遍历这个迭代器去获取文件当中的数据:</p> <pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px;"><code class="hljs" style="overflow-x: auto; padding: 16px; color: #333; background: #f8f8f8; display: -webkit-box; font-family: Operator Mono, Consolas, Monaco, Menlo, monospace; border-radius: 0px; font-size: 12px; -webkit-overflow-scrolling: touch;"><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">with</span> open(<span class="hljs-string" style="color: #d14; line-height: 26px;">'xxxx.txt'</span>) <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">as</span> f:<br> <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">for</span> line <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">in</span> f:<br> print(line)<br></code></pre> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">如果只是用来输出还好,如果我们需要加工文件当中的数据,那么头部的注释信息就会干扰我们代码的运行。我们当然可以手动加入一些判断,但是这会比较麻烦,代码也不够美观。针对这个问题,一个比较好的解决方案是<strong style="font-weight: bold; color: rgb(71, 193, 168);">dropwhile</strong>。</p> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">dropwhile是itemtools当中的一个函数,它可以<strong style="font-weight: bold; color: rgb(71, 193, 168);">接收一个我们自定义的过滤函数和迭代器重新生成一个新的迭代器</strong>,这个新的迭代器当中会过滤掉之前迭代器头部不符合我们要求的数据:</p> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">在刚才的例子当中我们想要过滤掉头部加了#注释的部分,我们可以这么操作:</p> <pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px;"><code class="hljs" style="overflow-x: auto; padding: 16px; color: #333; background: #f8f8f8; display: -webkit-box; font-family: Operator Mono, Consolas, Monaco, Menlo, monospace; border-radius: 0px; font-size: 12px; -webkit-overflow-scrolling: touch;"><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">from</span> itertools <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">import</span> dropwhile<br><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">with</span> open(<span class="hljs-string" style="color: #d14; line-height: 26px;">'xxxx.txt'</span>) <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">as</span> f:<br> <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">for</span> line <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">in</span> dropwhile(<span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">lambda</span> line: line.startswith(<span class="hljs-string" style="color: #d14; line-height: 26px;">'#'</span>), f):<br> print(line)<br></code></pre> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">这样出来的结果就没有头部我们不需要的内容了。</p> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">当我们知道头部不符合情况的数据的格式的时候,可以使用dropwhile来规定过滤的格式。如果我们<strong style="font-weight: bold; color: rgb(71, 193, 168);">知道需要过滤的条数</strong>,则可以使用另外一个工具,叫做islice,它的本质是一个切片函数,就像是Python当中数组的切片功能一样,可以切出迭代器当中指定片段的数据。</p> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">举个例子:</p> <pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px;"><code class="hljs" style="overflow-x: auto; padding: 16px; color: #333; background: #f8f8f8; display: -webkit-box; font-family: Operator Mono, Consolas, Monaco, Menlo, monospace; border-radius: 0px; font-size: 12px; -webkit-overflow-scrolling: touch;"><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">from</span> itertools <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">import</span> dropwhile<br><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">with</span> open(<span class="hljs-string" style="color: #d14; line-height: 26px;">'xxxx.txt'</span>) <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">as</span> f:<br> <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">for</span> line <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">in</span> islice(f, <span class="hljs-number" style="color: #008080; line-height: 26px;">3</span>, <span class="hljs-literal" style="color: #008080; line-height: 26px;">None</span>):<br> print(line)<br></code></pre> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">这样我们就会从第三行开始获取,之前的数据会被过滤掉。它其实就代表着数组当中[3: ]的切片操作。</p> <h2 data-tool="mdnice编辑器" style="margin-top: 30px; font-weight: bold; font-size: 22px; border-bottom: 2px solid rgb(89,89,89); margin-bottom: 30px; color: rgb(89,89,89);"><span class="prefix" style="display: none;"></span><span class="content" style="font-size: 22px; display: inline-block; border-bottom: 2px solid rgb(89,89,89);">迭代排列组合</span><span class="suffix"></span></h2> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">我们都知道在C++当中有一个叫做next_permutation的函数,可以传入一个数组,返回下一个字典序的排列。在Python当中也有同样的功能,但是是以迭代器的形式使用的。</p> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">举个简单的例子,比如我们有a, b, c三个元素,我们希望求出它的所有排列:</p> <pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px;"><code class="hljs" style="overflow-x: auto; padding: 16px; color: #333; background: #f8f8f8; display: -webkit-box; font-family: Operator Mono, Consolas, Monaco, Menlo, monospace; border-radius: 0px; font-size: 12px; -webkit-overflow-scrolling: touch;">items = [<span class="hljs-string" style="color: #d14; line-height: 26px;">'a'</span>, <span class="hljs-string" style="color: #d14; line-height: 26px;">'b'</span>, <span class="hljs-string" style="color: #d14; line-height: 26px;">'c'</span>]<br><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">from</span> itertools <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">import</span> permutations<br><br><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">for</span> p <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">in</span> permutations(items):<br> print(p)<br></code></pre> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">permutations还支持多传一个参数,比如上述的排列当中我们希望只保留前两个元素,除了切片之外,我们只需要多传一个参数就好了,like this:</p> <pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px;"><code class="hljs" style="overflow-x: auto; padding: 16px; color: #333; background: #f8f8f8; display: -webkit-box; font-family: Operator Mono, Consolas, Monaco, Menlo, monospace; border-radius: 0px; font-size: 12px; -webkit-overflow-scrolling: touch;"><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">for</span> p <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">in</span> permutations(items, <span class="hljs-number" style="color: #008080; line-height: 26px;">2</span>):<br> print(p)<br></code></pre> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">除了排列之外,itertools当中还支持组合,用法还是一样,只是把函数名称换成是combinations而已:</p> <pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px;"><code class="hljs" style="overflow-x: auto; padding: 16px; color: #333; background: #f8f8f8; display: -webkit-box; font-family: Operator Mono, Consolas, Monaco, Menlo, monospace; border-radius: 0px; font-size: 12px; -webkit-overflow-scrolling: touch;"><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">from</span> itertools <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">import</span> combindations<br><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">for</span> c <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">in</span> combinations(items):<br> print(c)<br></code></pre> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">在一般的组合当中,一个元素一旦被选中那么它接下来就会从候选集当中移除,再也不会被选中。如果我们希望获得有放回的组合,我们可以再换一个函数,这个函数名称有点长,但是名字倒也直观叫做combinations_with_replacement。但既然是有放回的抽样,我们<strong style="font-weight: bold; color: rgb(71, 193, 168);">需要设定元素的数量</strong>,否则抽样可以无限进行下去。</p> <pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px;"><code class="hljs" style="overflow-x: auto; padding: 16px; color: #333; background: #f8f8f8; display: -webkit-box; font-family: Operator Mono, Consolas, Monaco, Menlo, monospace; border-radius: 0px; font-size: 12px; -webkit-overflow-scrolling: touch;"><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">for</span> c <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">in</span> combinations_with_replacement(items, <span class="hljs-number" style="color: #008080; line-height: 26px;">3</span>):<br> print(c)<br></code></pre> <h2 data-tool="mdnice编辑器" style="margin-top: 30px; font-weight: bold; font-size: 22px; border-bottom: 2px solid rgb(89,89,89); margin-bottom: 30px; color: rgb(89,89,89);"><span class="prefix" style="display: none;"></span><span class="content" style="font-size: 22px; display: inline-block; border-bottom: 2px solid rgb(89,89,89);">迭代合并后的序列</span><span class="suffix"></span></h2> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">上一篇文章当中我们介绍了zip可以同时迭代多个迭代器,除此之外还有一种情况是我们需要<strong style="font-weight: bold; color: rgb(71, 193, 168);">把多个迭代器串起来迭代</strong>。比如系统的日志打在了多个文件当中,我们希望找出其中有error的日志来分析。这个时候,我们希望的不是同时读取多个迭代器,而是希望能够有办法将多个迭代器的内容串联起来。这个功能就是itertools当中的<strong style="font-weight: bold; color: rgb(71, 193, 168);">chain</strong>方法,它接受多个迭代器,当我们遍历的时候,会自动将多个迭代器的内容串联起来,我们可以无缝迭代。</p> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">举个例子:</p> <pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px;"><code class="hljs" style="overflow-x: auto; padding: 16px; color: #333; background: #f8f8f8; display: -webkit-box; font-family: Operator Mono, Consolas, Monaco, Menlo, monospace; border-radius: 0px; font-size: 12px; -webkit-overflow-scrolling: touch;"><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">from</span> itertools <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">import</span> chain<br>nums = [<span class="hljs-number" style="color: #008080; line-height: 26px;">1</span>, <span class="hljs-number" style="color: #008080; line-height: 26px;">2</span>, <span class="hljs-number" style="color: #008080; line-height: 26px;">3</span>]<br>chars = [<span class="hljs-string" style="color: #d14; line-height: 26px;">'a'</span>, <span class="hljs-string" style="color: #d14; line-height: 26px;">'b'</span>, <span class="hljs-string" style="color: #d14; line-height: 26px;">'c'</span>]<br><br><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">for</span> i <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">in</span> chain(nums, chars):<br> print(i)<br></code></pre> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">这样我们会把nums和chars当中的内容一起输出出来,<strong style="font-weight: bold; color: rgb(71, 193, 168);">就好像从头到尾只执行了一个迭代器一样</strong>。</p> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">你可能会说我们不用chain也可以实现啊,我们可以这样:</p> <pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px;"><code class="hljs" style="overflow-x: auto; padding: 16px; color: #333; background: #f8f8f8; display: -webkit-box; font-family: Operator Mono, Consolas, Monaco, Menlo, monospace; border-radius: 0px; font-size: 12px; -webkit-overflow-scrolling: touch;"><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">for</span> i <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">in</span> nums + chars:<br> print(i)<br></code></pre> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">的确,从结果上来看这样也是行得通的。但是如果我们分析一下内部执行的时候的中间变量,会发现当我们执行nums+chars的时候,实际上是<strong style="font-weight: bold; color: rgb(71, 193, 168);">先创建了一个新的临时list</strong>。然后在这个list当中存储nums和chars的数据,也就是说我们迭代的其实是这个新的list。这带来的结果是我们<strong style="font-weight: bold; color: rgb(71, 193, 168);">额外开辟了一段内存</strong>,并且花费了一些时间。如果我们使用chain,它并不会有这样的中间变量,完全是通过迭代器来执行的迭代,非常节省内存,这也是chain的优点。</p> <h2 data-tool="mdnice编辑器" style="margin-top: 30px; font-weight: bold; font-size: 22px; border-bottom: 2px solid rgb(89,89,89); margin-bottom: 30px; color: rgb(89,89,89);"><span class="prefix" style="display: none;"></span><span class="content" style="font-size: 22px; display: inline-block; border-bottom: 2px solid rgb(89,89,89);">归并迭代的内容</span><span class="suffix"></span></h2> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">对于归并操作我们应该都不陌生,在之前的归并排序以及一些题解的文章当中我们见过很多次。同样,我们在使用工具合并多个迭代器内容的时候,如果迭代器当中的内容有序,我们也可以<strong style="font-weight: bold; color: rgb(71, 193, 168);">对多个迭代器当中的元素进行归并</strong>,而不再需要我们自己手动操作。</p> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">使用我们之前介绍的heapq的库可以非常轻松地做到这一点,我们一起来看一个例子:</p> <pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px;"><code class="hljs" style="overflow-x: auto; padding: 16px; color: #333; background: #f8f8f8; display: -webkit-box; font-family: Operator Mono, Consolas, Monaco, Menlo, monospace; border-radius: 0px; font-size: 12px; -webkit-overflow-scrolling: touch;">a = [<span class="hljs-number" style="color: #008080; line-height: 26px;">1</span>, <span class="hljs-number" style="color: #008080; line-height: 26px;">3</span>, <span class="hljs-number" style="color: #008080; line-height: 26px;">5</span>]<br>b = [<span class="hljs-number" style="color: #008080; line-height: 26px;">2</span>, <span class="hljs-number" style="color: #008080; line-height: 26px;">4</span>, <span class="hljs-number" style="color: #008080; line-height: 26px;">6</span>]<br><br><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">import</span> heapq<br><br><span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">for</span> c <span class="hljs-keyword" style="color: #333; font-weight: bold; line-height: 26px;">in</span> heapq.merge(a, b):<br> print(c)<br></code></pre> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">执行之后,我们会得到[1, 2, 3, 4, 5, 6]的结果。也就是说通过heapq.merge操作,我们把多个有序的迭代器合并到了一起。当然我们也可以自己合并,但如果我们只是需要利用当中的数据的话,使用merge操作可以节省内存空间。</p> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">到这里内容就结束了,本文和之前的文章基本上列举完了常用的迭代器用法。当然,除了上述讲到的内容之外,Python当中的迭代器还有一些其他的用法,不过相对不太常用,感兴趣的同学可以私下了解。</p> <p data-tool="mdnice编辑器" style="font-size: 16px; padding-top: 8px; padding-bottom: 8px; margin: 0; line-height: 26px; color: rgb(89,89,89);">今天的文章就是这些,如果觉得有所收获,请顺手点个<strong style="font-weight: bold; color: rgb(71, 193, 168);">关注或者转发</strong>吧,你们的举手之劳对我来说很重要。</p> </section>

原文出处:https://www.cnblogs.com/techflow/p/12602970.html

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部