文档章节

(2017)新版爱站关键词采集Python脚本

w
 wsdingzi17
发布于 2017/08/31 16:23
字数 243
阅读 31
收藏 0

爱站(aizhan)进入2017年经历了一次大改版,此前的采集脚本无法获取数据了,现在重新更新针对2017年新版爱站关键词采集工具。
python环境:python3.5

'''
@ 2017新版爱站采集
@ laoding
'''
import requests
from bs4 import BeautifulSoup
import csv

def getHtml(url):
    try:
        # 替换成自己的agent
        headers = {
            "Use-Agent":""
        }
        r = requests.get(url,headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def writeToCsv(filepath,sj):
    with open(filepath,"a+",newline="") as f:
        f_csv = csv.writer(f)
        f_csv.writerow(tuple(sj))

def getSJ(url,filepath):
    html = getHtml(url)
    soup = BeautifulSoup(html,"html.parser")
    ls = soup.select("body > div.baidurank-wrap > div.tabs-content > div.baidurank-list > table > tbody")[0].find_all("tr")
    n = len(ls)
    for m in range(0,n):
        tr = ls[m]
        keyword = tr.find_all(class_="title")[0].get_text().strip()
        sj =[ele.get_text().strip() for ele in tr.find_all(class_="center")]
        sj.insert(0, keyword)
        writeToCsv(filepath,sj)
        print("%s done" %m)

def main():
    filepath = "F:/test.csv" # 替换成自己的导出结果的文件路径
    for n in range(1,51): 
        url = "http://baidurank.aizhan.com/baidu/xxx.com/-1/0/{}/".format(n) # xxx.com 替换成查询的地址
        getSJ(url,filepath)
        print("%s finish" %n)

if __name__ == '__main__':
    main()

结果如下:

© 著作权归作者所有

共有 人打赏支持
w
粉丝 0
博文 1
码字总数 243
作品 0
程序员
Python性能分析 (Profiling)

性能分析(Profiling)可用于分析程序的运行时间主要消耗在何处,以便有效优化程序的运行效率。 Profiling可分为两步,一是运行程序收集程序不同部分运行时间的数据,二是数据的可视化和分析...

索隆
2012/05/02
0
0
python中文分词,使用结巴分词对python进行分词

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法. 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点: 基于Trie树结构实现...

yangjiyue0520
2017/11/04
0
0
连 00 后学 Python 了,身为程序员的我慌了

2018 年 1 月 16 日,教育部召开新闻发布会,正式将人工智能、物联网、大数据处理划入高中新课标,并于今年秋季开始执行。这意味着,现在 16 岁的学生就要开始学习编程了! 本次核心目标:修...

dqcfkyqdxym3f8rb0
05/06
0
0
使用python进行数据的采集 编辑 删除

搞了十多年的程序,最近转行做网站,经过一番的调查研究,最终选择了美女图片站http://www.gg4493.cn。 这就带来了一个问题,必须要到网站各大美女站点进行图片采集,之前都是采用java进行数...

yangjiyue0520
2017/11/02
0
0
谁说小白不能做项目?Python大咖手把手教你采集拉勾网!

全文简介 本文是先采集拉勾网上面的数据,采集的是Python岗位的数据,然后用Python进行可视化。主要涉及的是爬虫&数据可视化的知识。 爬虫部分 先用Python来抓取拉勾网上面的数据,采用的是简...

Python学习
03/08
0
0

没有更多内容

加载失败,请刷新页面

加载更多

数字转换为字符的L受哪个参数影响

我们知道,如果想把金额带上本位币,一般加上L, 比如: select to_char(salary,'L99,9999.00') from employees; 下面显示如下: SALARY TO_CHAR(SALARY,'L99, 2900 ¥2,900.00 2500 ¥2,500.00 ...

tututu_jiang
4分钟前
0
0
shell编程(告警系统主脚本、告警系统配置文件、告警系统监控项目)

告警系统主脚本 先定义监控系统的各个目录,然后再去定义主脚本,因为是分布式的,所以需要每台机器都这样做,如果事先有创建好各个目录和各个脚本,那么就可以把这些目录和脚本copy到其他机...

蛋黄_Yolks
5分钟前
0
0
SAP HANA Backup and Recovery

SAP HANA Backup and Recovery Skip to end of metadata Created by Paul Power, last modified on Nov 23, 2017 Go to start of metadata Purpose System Privileges How to Perform a Back......

rootliu
6分钟前
0
0
JVM的持久代——何去何从?

本文会介绍一些JVM内存结构的基本概念,然后很快会讲到持久代,来看下Java SE 8发布后它究竟到哪去了。 基础知识 JVM只不过是运行在你系统上的另一个进程而已,这一切的魔法始于一个java命令...

java知识分子
23分钟前
0
0
Hive和HBase的区别

hive是文件的视图,hbase是建了索引的key-value表。 先放结论:Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。...

飓风2000
30分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部