文档章节

go语言实现爬虫采集联想词

黄哥Python培训
 黄哥Python培训
发布于 2015/02/28 21:49
字数 248
阅读 699
收藏 7

/****************************************************

go语言实现爬虫_联想词 咨询:qq:1465376564

黄哥python培训班所写

python北京周末培训班

https://github.com/pythonpeixun/article/blob/master/beijing_weekend.md

python

上海周末培训班

https://github.com/pythonpeixun/article/blob/master/shanghai_weekend.md


*****************************************************/


package main


import (

"fmt"

"io/ioutil"

"net/http"

"regexp"

)


//定义新的数据类型

type Spider struct {

url    string

header map[string]string

}


//定义 Spider的方法

func (keyword Spider) get_html_header() string {


client := &http.Client{}


req, err := http.NewRequest("GET", keyword.url, nil)

if err != nil {

}


for key, value := range keyword.header {


req.Header.Add(key, value)

}


resp, err := client.Do(req)

if err != nil {

}

defer resp.Body.Close()

body, err := ioutil.ReadAll(resp.Body)

if err != nil {

}

return string(body)


}


func main() {

header := map[string]string{"Host": "sug.so.360.cn",

"Referer":    "http://www.so.com/",

"DNT":        "1",

"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36",

"Cookie":     "__huid=104rl%2B0HjG2YltBarbPPIz2w7HTbLrv43gETLeVtBdIEI%3D",

}

keyword := "科技"

url := "http://sug.so.360.cn/suggest?callback=suggest_so&encodein=utf-8&encodeout=utf-8&format=json&fields=word,obdata&word=" + keyword


spider := &Spider{url, header}


html := spider.get_html_header()

rp1 := regexp.MustCompile("{(.*?)}")

find_txt := rp1.FindAllString(html, -1)

fmt.Println(find_txt)

}


© 著作权归作者所有

共有 人打赏支持
黄哥Python培训
粉丝 39
博文 21
码字总数 14219
作品 0
海淀
python3简单爬虫实现代码

分享一个python实现的网络爬虫代码。转自:http://www.cnblogs.com/yes123/p/3761388.html 写了个python3的。代码非常简单就不解释了,直接贴代码。 #test rdp import urllib.request import...

mysoftsky
2014/05/30
191
0
Python数据科学(五)- 数据处理和数据采集

传送门: Python数据科学(一)- python与数据科学应用(Ⅰ) Python数据科学(二)- python与数据科学应用(Ⅱ) Python数据科学(三)- python与数据科学应用(Ⅲ) Python数据科学(四)- 数据收...

_知几
2017/11/14
0
0
Python采集微博热评进行情感分析祝你狗年脱单

Ps: 重要的事情说三遍!!! 结尾有彩蛋,结尾有彩蛋,结尾有彩蛋。 如果自己需要爬(cai)虫(ji)的数据量比较大,为了防止被网站封Ip,可以分时段爬取,另外对于爬到的数据一般是用来存储数据...

_知几
01/10
0
0
33款可用来抓数据的开源爬虫软件工具

要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫...

Airship
2015/11/09
0
1
chinese-poetry:最懂唐诗宋词的数据库

题图:by click_vision from Instagram.jpg 世间最美的风景,是山水草木,是诗酒琴茶。清凉夏日,每日闲居梅庄,摘花煮茗,杯盏里,亦是满满的宋唐。 宋词之美,美在清理淡雅,婉约多情。唐诗...

猴哥Yuri
03/24
0
0

没有更多内容

加载失败,请刷新页面

加载更多

linux使用ntfs-3g操作ntfs格式硬盘

Linux内核目前只支持对微软NTFS文件系统的读取。 NTFS-3G 是微软 NTFS 文件系统的一个开源实现,同时支持读和写。NTFS-3G 开发者使用 FUSE 文件系统来辅助开发,同时对可移植性有益。 安装 ...

linuxprobe16
今天
1
0
kubeadm部署kubernetes集群

一、环境要求 这里使用RHEL7.5 master、etcd:192.168.10.101,主机名:master node1:192.168.10.103,主机名:node1 node2:192.168.10.104,主机名:node2 所有机子能基于主机名通信,编辑...

人在艹木中
今天
7
0
Shell特殊符号总结以及cut,sort,wc,uniq,tee,tr,split命令

特殊符号总结一 * 任意个任意字符 ? 任意一个字符 # 注释字符 \ 脱义字符 | 管道符 # #号后的备注被忽略[root@centos01 ~]# ls a.txt # 备注 a.txt[root@centos01 ~]# a=1[root@centos01...

野雪球
今天
3
0
OSChina 周二乱弹 —— 程序员圣衣

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @达尔文:分享Skeeter Davis的单曲《The End of the World》 《The End of the World》- Skeeter Davis 手机党少年们想听歌,请使劲儿戳(这里...

小小编辑
今天
18
0
[ python import module ] 导入模块

import moudle_name ----> import module_name.py ---> import module_name.py文件路径 -----> sys.path (这里进行查找文件) # from app.web import Personimport app.web.Person as Pe......

_______-
昨天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部