文档章节

python爬取拉钩网招聘信息

南寻
 南寻
发布于 2017/02/28 23:12
字数 232
阅读 115
收藏 1
#!/usr/bin/python3
#coding:utf8
import re
from bs4 import BeautifulSoup
import requests
from threading import Thread
class main(object):
	def __init__(self):
		self.url='https://www.lagou.com/zhaopin/Java/1/'
		self.w=open('Java','w')
		self.headers={
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language':'zh-CN,zh;q=0.8',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Host':'www.lagou.com',
'Referer':'https://www.lagou.com/',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
		}
	def getpage(self):
		page=requests.get(self.url,headers=self.headers)

		pattern=re.compile(
			u'<div.*?class="list_item_top">.*?'+
			u'<a class="position_link" href="//(.*?)".*?'+
			u'<h2>(.*?)</h2>.*?'+
			u'<em>(.*?)</em>.*?'+
			u'<span class="format-time">(.*?)</span>.*?'+
			u'<div class="li_b_l">.*?'+
			u'<span class="money">(.*?)</span>.*?<!--<i></i>-->(.*?)</div>.*?'+
			u'<div class="company">.*?'+
			u'<div class="company_name">.*?<a.*?>(.*?)</a>.*?'+
			u'<div class="industry">(.*?)</div>.*?'
			,re.S)
		l=re.findall(pattern,page.text)
		for s in l:
			self.w.write(str(s[0]+"\t,"+s[1]+"\t,"+s[2]+"\t,"+s[3]+"\t,"+s[4]+"\t,"+s[5]+"\t,"+s[6]+"\t,"+s[7])+"\n")
if __name__=="__main__":
	m=main()
	t=[]

	for n in range(1,30):
		m.url='https://www.lagou.com/zhaopin/Java/'
		m.url+=str(n)
		T=Thread(target=m.getpage)
		T.start()
		t.append(T)

	for tt in t:
		tt.join()

	m.w.close()

 

© 著作权归作者所有

共有 人打赏支持
南寻
粉丝 63
博文 90
码字总数 35772
作品 0
朝阳
程序员
2个月精通Python爬虫——3大爬虫框架+6场实战+分布式爬虫,包教包会

阿里云大学在线工作坊上线,原理精讲+实操演练,让你真正掌握云计算、大数据技能。 在第一批上线的课程中,有一个Python爬虫的课程,畅销书《精通Python网络爬虫》作者韦玮,带你两个月从入门...

云木西
06/27
0
0
Python 起薪和均资都高于 Java?!

作者 | Don Lex 责编 | 郭芮 本文爬取了某直聘网站上Python和Java的招聘信息,比较了两个方向的发展前(钱)途 ,为本科生的就业方向给一个小小的建议。 爬取 在招聘网站上直接以”本科生”和...

CSDN资讯
09/14
0
0
Python or Java?Boss直聘告诉你该如何选择

点击上方“程序人生”,选择“置顶公众号” 第一时间关注程序猿(媛)身边的故事 作者 Don Lex 已获原作者授权,如需转载,请联系原作者。 前言 “人生苦短,我用 Python”,Python 的经典 ...

CSDN程序人生
09/11
0
0
分分钟几万上下!用Python爬取包图网视频(附代码)切勿商用!

分析网页数据结构 目标抓取全站视频数据保存在本地, 并以网站视频名命名视频文件。 经分析我们可以发现总站数据 我们可以从这四这选项下手 分析网页数据格式 网页数据为静态 抓取下一页链接...

Python新世界
07/24
0
0
[增强可拓展性]Scrapy博客爬虫

前言 最近赶毕业论文也是心力憔悴,现在写一篇文章谈谈我的毕业设计。 在最初学习Python的时候,爬虫是个不错的练手项目,但是几乎所有的爬虫教程都是教我们如何如何爬一个网站。 比如我写的...

3inchtime
06/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Shell特殊符号总结以及cut,sort,wc,uniq,tee,tr,split命令

特殊符号总结一 * 任意个任意字符 ? 任意一个字符 # 注释字符 \ 脱义字符 | 管道符 # #号后的备注被忽略[root@centos01 ~]# ls a.txt # 备注 a.txt[root@centos01 ~]# a=1[root@centos01...

野雪球
33分钟前
1
0
OSChina 周二乱弹 —— 程序员圣衣

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @达尔文:分享Skeeter Davis的单曲《The End of the World》 《The End of the World》- Skeeter Davis 手机党少年们想听歌,请使劲儿戳(这里...

小小编辑
49分钟前
4
0
[ python import module ] 导入模块

import moudle_name ----> import module_name.py ---> import module_name.py文件路径 -----> sys.path (这里进行查找文件) # from app.web import Personimport app.web.Person as Pe......

_______-
昨天
3
0
Redis性能问题排查解决手册

一、性能相关的数据指标 通过Redis-cli命令行界面访问到Redis服务器,然后使用info命令获取所有与Redis服务相关的信息。通过这些信息来分析文章后面提到的一些性能指标。 nfo命令输出的数据可...

IT--小哥
昨天
1
0
mixin混入

①新建mixin.js文件 const mixin = { methods: { /** * 分页公共方法 */ handleSizeChange(val) { this.pageData.size = val; this.query(); }, hand......

不负好时光
昨天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部