文档章节

python爬取拉钩网招聘信息

南寻
 南寻
发布于 2017/02/28 23:12
字数 232
阅读 118
收藏 1
#!/usr/bin/python3
#coding:utf8
import re
from bs4 import BeautifulSoup
import requests
from threading import Thread
class main(object):
	def __init__(self):
		self.url='https://www.lagou.com/zhaopin/Java/1/'
		self.w=open('Java','w')
		self.headers={
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language':'zh-CN,zh;q=0.8',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Host':'www.lagou.com',
'Referer':'https://www.lagou.com/',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
		}
	def getpage(self):
		page=requests.get(self.url,headers=self.headers)

		pattern=re.compile(
			u'<div.*?class="list_item_top">.*?'+
			u'<a class="position_link" href="//(.*?)".*?'+
			u'<h2>(.*?)</h2>.*?'+
			u'<em>(.*?)</em>.*?'+
			u'<span class="format-time">(.*?)</span>.*?'+
			u'<div class="li_b_l">.*?'+
			u'<span class="money">(.*?)</span>.*?<!--<i></i>-->(.*?)</div>.*?'+
			u'<div class="company">.*?'+
			u'<div class="company_name">.*?<a.*?>(.*?)</a>.*?'+
			u'<div class="industry">(.*?)</div>.*?'
			,re.S)
		l=re.findall(pattern,page.text)
		for s in l:
			self.w.write(str(s[0]+"\t,"+s[1]+"\t,"+s[2]+"\t,"+s[3]+"\t,"+s[4]+"\t,"+s[5]+"\t,"+s[6]+"\t,"+s[7])+"\n")
if __name__=="__main__":
	m=main()
	t=[]

	for n in range(1,30):
		m.url='https://www.lagou.com/zhaopin/Java/'
		m.url+=str(n)
		T=Thread(target=m.getpage)
		T.start()
		t.append(T)

	for tt in t:
		tt.join()

	m.w.close()

 

© 著作权归作者所有

共有 人打赏支持
上一篇: Redis学习笔记
南寻
粉丝 63
博文 90
码字总数 35772
作品 0
朝阳
程序员
私信 提问
JAVA招聘数据概览—— 哪有什么互联网寒冬,你穿的少而已?

引子:哪有什么互联网寒冬,你穿的少而已!,看了这篇文章,有感而发,写下了如下内容! 说明 此处不讨论代码,为了数据不被滥用,我也不打算公布源码,但是对爬虫感兴趣,又有好学心的小伙伴可...

qnloft
11/05
0
0
Python 起薪和均资都高于 Java?!

作者 | Don Lex 责编 | 郭芮 本文爬取了某直聘网站上Python和Java的招聘信息,比较了两个方向的发展前(钱)途 ,为本科生的就业方向给一个小小的建议。 爬取 在招聘网站上直接以”本科生”和...

CSDN资讯
09/14
0
0
Python or Java?Boss直聘告诉你该如何选择

点击上方“程序人生”,选择“置顶公众号” 第一时间关注程序猿(媛)身边的故事 作者 Don Lex 已获原作者授权,如需转载,请联系原作者。 前言 “人生苦短,我用 Python”,Python 的经典 ...

CSDN程序人生
09/11
0
0
2个月精通Python爬虫——3大爬虫框架+6场实战+分布式爬虫,包教包会

阿里云大学在线工作坊上线,原理精讲+实操演练,让你真正掌握云计算、大数据技能。 在第一批上线的课程中,有一个Python爬虫的课程,畅销书《精通Python网络爬虫》作者韦玮,带你两个月从入门...

云木西
06/27
0
0
[增强可拓展性]Scrapy博客爬虫

前言 最近赶毕业论文也是心力憔悴,现在写一篇文章谈谈我的毕业设计。 在最初学习Python的时候,爬虫是个不错的练手项目,但是几乎所有的爬虫教程都是教我们如何如何爬一个网站。 比如我写的...

3inchtime
06/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

大数据教程(9.5)用MR实现sql中的jion逻辑

上一篇博客讲解了使用jar -jar的方式来运行提交MR程序,以及通过修改YarnRunner的源码来实现MR的windows开发环境提交到集群的方式。本篇博主将分享sql中常见的join操作。 一、需求 订单数据表...

em_aaron
20分钟前
1
0
十万个为什么之什么是resultful规范

起源 越来越多的人开始意识到,网站即软件,而且是一种新型的软件。这种"互联网软件"采用客户端/服务器模式,建立在分布式体系上,通过互联网通信,具有高延时(high latency)、高并发等特点...

尾生
26分钟前
1
0
《告诉你真实的美国教育》的读后感3900字

《告诉你真实的美国教育》的读后感3900字: 文章的开篇分析了我们耳熟能详的关于美国教育的小故事,就是那个因为幼儿园的老师教了“0”这个字母,然后妈妈告老师剥夺了孩子的想象力,再然后幼...

原创小博客
34分钟前
0
0
Terraform配置文件(Terraform configuration)

Terraform配置文件 翻译自Terraform Configuration Terraform用文本文件来描述设备、设置变量。这些文件被称为Terraform配置文件,以.tf结尾。这一部分将讲述Terraform配置文件的加载与格式。...

buddie
49分钟前
2
0
exportfs命令, vsftp搭建ftp服务

exportfs命令 当修改/etc/exports文件后,更改的内容是不会立即生效的。如果重启nfs服务,会导致客户端重启期间的请求是挂起等待的,可以把客户端的挂载umount进行卸载后,再重启nfs服务,但...

野雪球
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部