文档章节

(2017)新版爱站关键词采集Python脚本

w
 wsdingzi17
发布于 2017/08/31 16:23
字数 243
阅读 33
收藏 0

爱站(aizhan)进入2017年经历了一次大改版,此前的采集脚本无法获取数据了,现在重新更新针对2017年新版爱站关键词采集工具。
python环境:python3.5

'''
@ 2017新版爱站采集
@ laoding
'''
import requests
from bs4 import BeautifulSoup
import csv

def getHtml(url):
    try:
        # 替换成自己的agent
        headers = {
            "Use-Agent":""
        }
        r = requests.get(url,headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def writeToCsv(filepath,sj):
    with open(filepath,"a+",newline="") as f:
        f_csv = csv.writer(f)
        f_csv.writerow(tuple(sj))

def getSJ(url,filepath):
    html = getHtml(url)
    soup = BeautifulSoup(html,"html.parser")
    ls = soup.select("body > div.baidurank-wrap > div.tabs-content > div.baidurank-list > table > tbody")[0].find_all("tr")
    n = len(ls)
    for m in range(0,n):
        tr = ls[m]
        keyword = tr.find_all(class_="title")[0].get_text().strip()
        sj =[ele.get_text().strip() for ele in tr.find_all(class_="center")]
        sj.insert(0, keyword)
        writeToCsv(filepath,sj)
        print("%s done" %m)

def main():
    filepath = "F:/test.csv" # 替换成自己的导出结果的文件路径
    for n in range(1,51): 
        url = "http://baidurank.aizhan.com/baidu/xxx.com/-1/0/{}/".format(n) # xxx.com 替换成查询的地址
        getSJ(url,filepath)
        print("%s finish" %n)

if __name__ == '__main__':
    main()

结果如下:

© 著作权归作者所有

共有 人打赏支持
w
粉丝 0
博文 1
码字总数 243
作品 0
程序员
私信 提问
python中文分词,使用结巴分词对python进行分词

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法. 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点: 基于Trie树结构实现...

yangjiyue0520
2017/11/04
0
0
Python性能分析 (Profiling)

性能分析(Profiling)可用于分析程序的运行时间主要消耗在何处,以便有效优化程序的运行效率。 Profiling可分为两步,一是运行程序收集程序不同部分运行时间的数据,二是数据的可视化和分析...

索隆
2012/05/02
0
0
文章内容提取库 goose 简介

爬虫抓取数据有两个头疼的点,写过爬虫的小伙伴们一定都深有体会: 网站的防抓取机制。你要尽可能将自己伪装成“一个人”,骗过对方的服务器反爬验证。 网站的内容提取。每个网站都需要你做不...

crossin
10/13
0
0
使用python进行数据的采集 编辑 删除

搞了十多年的程序,最近转行做网站,经过一番的调查研究,最终选择了美女图片站http://www.gg4493.cn。 这就带来了一个问题,必须要到网站各大美女站点进行图片采集,之前都是采用java进行数...

yangjiyue0520
2017/11/02
0
0
识别User Agent屏蔽一些Web爬虫防采集

识别User Agent屏蔽一些Web爬虫防采集 祁劲松的博客2017-12-042 阅读 采集web识别AgentUser爬虫 自从做网站以来,大量自动抓取我们内容的爬虫一直是个问题,防范采集是个长期任务,这篇是我5...

祁劲松的博客
2017/12/04
0
0

没有更多内容

加载失败,请刷新页面

加载更多

node安装cnpm

npm install -g cnpm --registry=https://registry.npm.taobao.org

笑丶笑
38分钟前
3
0
OSChina 周三乱弹 —— 夜半回家,推门不动

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @胖达panda :分享陶晶莹/张雨生的单曲《我期待》 《我期待》- 陶晶莹/张雨生 手机党少年们想听歌,请使劲儿戳(这里) @cc_z :熬夜一时爽,...

小小编辑
50分钟前
514
11
验证码

response生成验证码 验证码的作用:防止恶意注册、攻击等 网站上看到的验证码,实际上都是一些图片,而这些图片都是程序(Servlet)生成的! package day19.test; import java.awt.Color; i...

码农屌丝
今天
1
0
day147-2018-11-14-英语流利阅读-待学习

《毒液》刚刚上映,创造漫威宇宙的人却走了 雪梨 2018-11-14 1.今日导读 中国的金庸创造了侠义英雄和江湖传奇,而大洋彼岸的斯坦·李也同样创造了一个绚烂璀璨的漫威宇宙,他构思的每个超级英...

飞鱼说编程
今天
18
0
CentOS 安装PHP5和PHP7

安装PHP5 下载解压二进制包 [root@test-a src]# cd /usr/local/src/[root@test-a src]# wget http://cn2.php.net/distributions/php-5.6.32.tar.bz2[root@test-a src]# tar jxvf php-5.6......

野雪球
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部