文档章节

python爬取拉钩网招聘信息

南寻
 南寻
发布于 2017/02/28 23:12
字数 232
阅读 113
收藏 1
点赞 1
评论 0
#!/usr/bin/python3
#coding:utf8
import re
from bs4 import BeautifulSoup
import requests
from threading import Thread
class main(object):
	def __init__(self):
		self.url='https://www.lagou.com/zhaopin/Java/1/'
		self.w=open('Java','w')
		self.headers={
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language':'zh-CN,zh;q=0.8',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Host':'www.lagou.com',
'Referer':'https://www.lagou.com/',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
		}
	def getpage(self):
		page=requests.get(self.url,headers=self.headers)

		pattern=re.compile(
			u'<div.*?class="list_item_top">.*?'+
			u'<a class="position_link" href="//(.*?)".*?'+
			u'<h2>(.*?)</h2>.*?'+
			u'<em>(.*?)</em>.*?'+
			u'<span class="format-time">(.*?)</span>.*?'+
			u'<div class="li_b_l">.*?'+
			u'<span class="money">(.*?)</span>.*?<!--<i></i>-->(.*?)</div>.*?'+
			u'<div class="company">.*?'+
			u'<div class="company_name">.*?<a.*?>(.*?)</a>.*?'+
			u'<div class="industry">(.*?)</div>.*?'
			,re.S)
		l=re.findall(pattern,page.text)
		for s in l:
			self.w.write(str(s[0]+"\t,"+s[1]+"\t,"+s[2]+"\t,"+s[3]+"\t,"+s[4]+"\t,"+s[5]+"\t,"+s[6]+"\t,"+s[7])+"\n")
if __name__=="__main__":
	m=main()
	t=[]

	for n in range(1,30):
		m.url='https://www.lagou.com/zhaopin/Java/'
		m.url+=str(n)
		T=Thread(target=m.getpage)
		T.start()
		t.append(T)

	for tt in t:
		tt.join()

	m.w.close()

 

© 著作权归作者所有

共有 人打赏支持
南寻
粉丝 60
博文 90
码字总数 35772
作品 0
朝阳
程序员
使用Python爬取网络数据并使用SSAS进行数据分析

主要内容 使用Python分别爬取百度搜索页面结果和智联招聘的6大类职业信息,数据主要使用SQLServer SSAS进行分析,并有少量的使用Python分析结果。 对于百度搜索的数据和智联招聘的页面数据是...

python达人 ⋅ 05/12 ⋅ 0

[增强可拓展性]Scrapy博客爬虫

前言 最近赶毕业论文也是心力憔悴,现在写一篇文章谈谈我的毕业设计。 在最初学习Python的时候,爬虫是个不错的练手项目,但是几乎所有的爬虫教程都是教我们如何如何爬一个网站。 比如我写的...

3inchtime ⋅ 06/07 ⋅ 0

一个月入门Python爬虫,快速获取大规模数据

数据是创造和决策的原材料,高质量的数据都价值不菲。而利用爬虫,我们可以获取大量的价值数据,经分析可以发挥巨大的价值,比如: 豆瓣、知乎:爬取优质答案,筛选出各话题下热门内容,探索...

Python开发者 ⋅ 04/25 ⋅ 0

Python爬虫入门并不难,甚至进阶也很简单

互联网的数据爆炸式的增长,而利用 Python 爬虫我们可以获取大量有价值的数据: 1.爬取数据,进行市场调研和商业分析 爬取知乎优质答案,筛选各话题下最优质的内容; 抓取房产网站买卖信息,...

菜鸟学python ⋅ 06/07 ⋅ 0

python3 scrapy爬取智联招聘存mongodb

写在前面,这次写智联招聘的爬虫是其次,主要的是通过智联招聘上的数据信息弄一个数据挖掘的小项目,这一篇主要是如何一气呵成的将智联招聘上的招聘信息给爬下来 (一)scrapy框架的使用 sc...

徐代龙 ⋅ 05/01 ⋅ 0

[python应用案例] 一.BeautifulSoup爬取天气信息并发送至QQ邮箱

前面作者写了很多Python系列文章,包括: Python基础知识系列:Python基础知识学习与提升 Python网络爬虫系列:Python爬虫之Selenium+Phantomjs+CasperJS Python数据分析系列:知识图谱、web...

eastmount ⋅ 05/03 ⋅ 0

Python爬取拉勾网数据分析职位

python文件打开方式详解——a、a+、r+、w+区别 Python模块学习 - openpyxl 1.信息获取,所需工具:拉勾网、Python3。 原来课程地址:python拉勾网爬虫 反爬:伪造浏览器请求 'User-Agent':'...

sinat_23880167 ⋅ 05/27 ⋅ 0

手把手教你写网络爬虫(2):迷你爬虫架构

原文出处:拓海 介绍 大家好!回顾上一期,我们在介绍了爬虫的基本概念之后,就利用各种工具横冲直撞的完成了一个小爬虫,目的就是猛、糙、快,方便初学者上手,建立信心。对于有一定基础的读...

拓海 ⋅ 04/27 ⋅ 0

python爬虫:爬取拉勾网职位并分析

点击上方“程序人生”,选择“置顶公众号” 第一时间关注程序猿(媛)身边的故事 作者 闲庭信步 原文 https://blog.csdn.net/danspace1/article/details/80197106 如需转载,请联系原作者。 ...

csdnsevenn ⋅ 05/29 ⋅ 0

谁说小白不能做项目?Python大咖手把手教你采集拉勾网!

全文简介 本文是先采集拉勾网上面的数据,采集的是Python岗位的数据,然后用Python进行可视化。主要涉及的是爬虫&数据可视化的知识。 爬虫部分 先用Python来抓取拉勾网上面的数据,采用的是简...

Python学习 ⋅ 03/08 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Boost库编译应用

版本:Boost 1.66.0 Windows库编译 官网指南:直接执行bootstrap.bat处理文件即可,可以我却遇到一堆的问题。 环境:Windows 10 + Visual Studio 2017 Boost编译出来库命名 boost库生成文件命...

水海云 ⋅ 15分钟前 ⋅ 0

解决Eclipse发布到Tomcat丢失依赖jar包的问题

如果jar文件是以外部依赖的形式导入的。Eclipse将web项目发布到Tomcat时,是不会自动发布这些依赖的。 可以通过Eclipse在项目上右击 - Propertics - Deployment Assembly,添加“Java Build ...

ArlenXu ⋅ 15分钟前 ⋅ 0

iview tree组件层级过多时可左右滚动

使用vue+iview的tree组件,iview官网iview的tree树形控件 问题描述:tree层级过多时左右不可滚动 问题解决:修改overflow属性值 .el-tree-node>.el-tree-node_children { overflow: vi...

YXMBetter ⋅ 17分钟前 ⋅ 0

分布式锁

1.通过数据库实现 http://www.weizijun.cn/2016/03/17/%E8%81%8A%E4%B8%80%E8%81%8A%E5%88%86%E5%B8%83%E5%BC%8F%E9%94%81%E7%9A%84%E8%AE%BE%E8%AE%A1/ 2.ZK实现:curator-recipes分布式锁的......

素雷 ⋅ 25分钟前 ⋅ 0

Sublime Text3 快捷键

选择类 Ctrl+D 选中光标所占的文本,继续操作则会选中下一个相同的文本。 Alt+F3 选中文本按下快捷键,即可一次性选择全部的相同文本进行同时编辑。举个栗子:快速选中并更改所有相同的变量名...

AndyZhouX ⋅ 32分钟前 ⋅ 0

XamarinAndroid组件教程RecylerView自定义适配器动画

XamarinAndroid组件教程RecylerView自定义适配器动画 如果RecyclerViewAnimators.Adapters命名空间中没有所需要的适配器动画,开发者可以自定义动画。此时,需要让自定义的动画继承Animation...

大学霸 ⋅ 32分钟前 ⋅ 0

eureka 基础(二)

使用Eureka服务器进行身份验证 如果其中一个eureka.client.serviceUrl.defaultZone网址中包含一个凭据(如http://user:password@localhost:8761/eureka)),HTTP基本身份验证将自动添加到您...

明理萝 ⋅ 35分钟前 ⋅ 1

Kubernetes(五) - Service

Kubernetes解决的另外一个痛点就是服务发现,服务发现机制和容器开放访问都是通过Service来实现的,把Deployment和Service关联起来只需要Label标签相同就可以关联起来形成负载均衡,基于kuberne...

喵了_个咪 ⋅ 35分钟前 ⋅ 0

更新队友POM文件后报错

打开报错的地方的pom及其引用方法所在文件的pom,观察其版本号是否一致,不一致进行更改

森火 ⋅ 48分钟前 ⋅ 0

IDEA使用sonarLint

一、IDEA如何安装SonarLint插件 1.打开 Idea 2.点击【File】 3.点击【Settings】 4.点击【Plugins】 5.在搜索栏中输入“sonarlint”关键字 6.点击【Install】进行安装 7.重启Idea 二、IDEA如...

开源中国成都区源花 ⋅ 54分钟前 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部