文档章节

(2017)新版爱站关键词采集Python脚本

w
 wsdingzi17
发布于 2017/08/31 16:23
字数 243
阅读 18
收藏 0
点赞 0
评论 0

爱站(aizhan)进入2017年经历了一次大改版,此前的采集脚本无法获取数据了,现在重新更新针对2017年新版爱站关键词采集工具。
python环境:python3.5

'''
@ 2017新版爱站采集
@ laoding
'''
import requests
from bs4 import BeautifulSoup
import csv

def getHtml(url):
    try:
        # 替换成自己的agent
        headers = {
            "Use-Agent":""
        }
        r = requests.get(url,headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def writeToCsv(filepath,sj):
    with open(filepath,"a+",newline="") as f:
        f_csv = csv.writer(f)
        f_csv.writerow(tuple(sj))

def getSJ(url,filepath):
    html = getHtml(url)
    soup = BeautifulSoup(html,"html.parser")
    ls = soup.select("body > div.baidurank-wrap > div.tabs-content > div.baidurank-list > table > tbody")[0].find_all("tr")
    n = len(ls)
    for m in range(0,n):
        tr = ls[m]
        keyword = tr.find_all(class_="title")[0].get_text().strip()
        sj =[ele.get_text().strip() for ele in tr.find_all(class_="center")]
        sj.insert(0, keyword)
        writeToCsv(filepath,sj)
        print("%s done" %m)

def main():
    filepath = "F:/test.csv" # 替换成自己的导出结果的文件路径
    for n in range(1,51): 
        url = "http://baidurank.aizhan.com/baidu/xxx.com/-1/0/{}/".format(n) # xxx.com 替换成查询的地址
        getSJ(url,filepath)
        print("%s finish" %n)

if __name__ == '__main__':
    main()

结果如下:

© 著作权归作者所有

共有 人打赏支持
w
粉丝 0
博文 1
码字总数 243
作品 0
程序员
连 00 后学 Python 了,身为程序员的我慌了

2018 年 1 月 16 日,教育部召开新闻发布会,正式将人工智能、物联网、大数据处理划入高中新课标,并于今年秋季开始执行。这意味着,现在 16 岁的学生就要开始学习编程了! 本次核心目标:修...

dqcfkyqdxym3f8rb0 ⋅ 05/06 ⋅ 0

谁说小白不能做项目?Python大咖手把手教你采集拉勾网!

全文简介 本文是先采集拉勾网上面的数据,采集的是Python岗位的数据,然后用Python进行可视化。主要涉及的是爬虫&数据可视化的知识。 爬虫部分 先用Python来抓取拉勾网上面的数据,采用的是简...

Python学习 ⋅ 03/08 ⋅ 0

Python Fire试用体验

之前用Python写过一些CLI的小工具,在CLI命令行传参处理上,一般都是用argparse,最近看到Google开源的Python Fire(2017-3-2就开源了), 把argparse包装了,可以自动将代码转变成 CLI,开发...

ahlfors ⋅ 05/24 ⋅ 0

PyQT5速成教程-1 简介与环境搭建

PyQt简介 一个良好的界面是人机交互中十分重要的一环。 Python作为脚本语言,起初并未拥有GUI开发的部分。但随着其开放的扩展性,使得Python不断壮大,有PyQt、Tkinter,PyGUI等GUI Toolkit...

养薛定谔的猫 ⋅ 06/02 ⋅ 0

Python文本挖掘-PDF和脚本见附件

课程要点 •分词以及词权重 •文本分类算法 •文本检索和LDA 常国珍《Python数据科学:全栈技术详解》 3 课程大纲 1)文本挖掘介绍 2)中文分词 3)文本特征提取与相关性的度量 4)文本分类 5)主...

Ben_Chang ⋅ 05/01 ⋅ 0

centos7上安装或升级python3版本

centos7上安装python3.6.5 从官网上下载,目前最新版本是3.6.5 https://www.python.org/downloads/ 然后解压: tar zxvf Python-3.6.5.tgz 然后新建待安装目录: mkdir -p /opt/server/pytho...

bawenmao ⋅ 05/06 ⋅ 0

Python3分析sitemap.xml抓取导出全站链接

最近网站从HTTPS转为HTTP,更换了网址,旧网址做了301重定向,折腾有点大,于是在百度站长平台提交网址,不管是主动推送还是手动提交,前提都是要整理网站的链接,手动添加太麻烦,效率低,于...

it1000001001 ⋅ 2017/06/28 ⋅ 1

Python能让你上天?(附代码)

Python当然能让你上天! 没试过?别担心,我来教你。和Python里的其他东西一样,它非常简单。你只需要敲入下面这行反重力代码 这是啥? 这是个彩蛋。import antigravity将打开一个指向经典X...

技术小能手 ⋅ 04/24 ⋅ 0

为什么Python可以代替shell?python开发

  Shell的功能Python均可实现,而且代码量更少、结构更优、可阅读性更好,而Python可实现的功能Shell却不一定能,如运维中会用到的用于网络通信的Socket模块、用于WEB的Django框架、用于性...

老男孩Linux培训 ⋅ 06/07 ⋅ 0

你真的了解Python吗?这篇文章让你了解90%

  【IT168 评论】人们为什么使用Python?   之所以选择Python的主要因素有以下几个方面:   软件质量:在很大程度上,Python更注重可读性、一致性和软件质量,从而与脚本语言世界中的其...

博客园 ⋅ 05/21 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

MySQL 数据库设计总结

规则1:一般情况可以选择MyISAM存储引擎,如果需要事务支持必须使用InnoDB存储引擎。 注意:MyISAM存储引擎 B-tree索引有一个很大的限制:参与一个索引的所有字段的长度之和不能超过1000字节...

OSC_cnhwTY ⋅ 57分钟前 ⋅ 0

多线程(四)

线程池和Exector框架 什么是线程池? 降低资源的消耗 提高响应速度,任务:T1创建线程时间,T2任务执行时间,T3线程销毁时间,线程池没有或者减少T1和T3 提高线程的可管理性。 线程池要做些什...

这很耳东先生 ⋅ 今天 ⋅ 0

使用SpringMVC的@Validated注解验证

1、SpringMVC验证@Validated的使用 第一步:编写国际化消息资源文件 编写国际化消息资源ValidatedMessage.properties文件主要是用来显示错误的消息定制 [java] view plain copy edit.userna...

瑟青豆 ⋅ 今天 ⋅ 0

19.压缩工具gzip bzip2 xz

6月22日任务 6.1 压缩打包介绍 6.2 gzip压缩工具 6.3 bzip2压缩工具 6.4 xz压缩工具 6.1 压缩打包介绍: linux中常见的一些压缩文件 .zip .gz .bz2 .xz .tar .gz .tar .bz2 .tar.xz 建立一些文...

王鑫linux ⋅ 今天 ⋅ 0

6. Shell 函数 和 定向输出

Shell 常用函数 简洁:目前没怎么在Shell 脚本中使用过函数,哈哈,不过,以后可能会用。就像java8的函数式编程,以后获取会用吧,行吧,那咱们简单的看一下具体的使用 Shell函数格式 linux ...

AHUSKY ⋅ 今天 ⋅ 0

单片机软件定时器

之前写了一个软件定时器,发现不够优化,和友好,现在重写了 soft_timer.h #ifndef _SOFT_TIMER_H_#define _SOFT_TIMER_H_#include "sys.h"typedef void (*timer_callback_function)(vo...

猎人嘻嘻哈哈的 ⋅ 今天 ⋅ 0

好的资料搜说引擎

鸠摩搜书 简介:鸠摩搜书是一个电子书搜索引擎。它汇集了多个网盘和电子书平台的资源,真所谓大而全。而且它还支持筛选txt,pdf,mobi,epub、azw3格式文件。还显示来自不同网站的资源。对了,...

乔三爷 ⋅ 今天 ⋅ 0

Debian下安装PostgreSQL的表分区插件pg_pathman

先安装基础的编译环境 apt-get install build-essential libssl1.0-dev libkrb5-dev 将pg的bin目录加入环境变量,主要是要使用 pg_config export PATH=$PATH:/usr/lib/postgresql/10/bin 进......

玛雅牛 ⋅ 今天 ⋅ 0

inno安装

#define MyAppName "HoldChipEngin" #define MyAppVersion "1.0" #define MyAppPublisher "Hold Chip, Inc." #define MyAppURL "http://www.holdchip.com/" #define MyAppExeName "HoldChipE......

backtrackx ⋅ 今天 ⋅ 0

Linux(CentOS)下配置php运行环境及nginx解析php

【part1:搭建php环境】 1.选在自己需要安装的安装包版本,wget命令下载到服务器响应目录 http://php.net/releases/ 2.解压安装包 tar zxf php-x.x.x 3.cd到解压目录执行如下操作 cd ../php-...

硅谷课堂 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部