文档章节

go语言实现爬虫采集联想词

黄哥Python培训
 黄哥Python培训
发布于 2015/02/28 21:49
字数 248
阅读 777
收藏 7

码上生花,ECharts 作品展示赛正式启动!>>>

/****************************************************

go语言实现爬虫_联想词 咨询:qq:1465376564

黄哥python培训班所写

python北京周末培训班

https://github.com/pythonpeixun/article/blob/master/beijing_weekend.md

python

上海周末培训班

https://github.com/pythonpeixun/article/blob/master/shanghai_weekend.md


*****************************************************/


package main


import (

"fmt"

"io/ioutil"

"net/http"

"regexp"

)


//定义新的数据类型

type Spider struct {

url    string

header map[string]string

}


//定义 Spider的方法

func (keyword Spider) get_html_header() string {


client := &http.Client{}


req, err := http.NewRequest("GET", keyword.url, nil)

if err != nil {

}


for key, value := range keyword.header {


req.Header.Add(key, value)

}


resp, err := client.Do(req)

if err != nil {

}

defer resp.Body.Close()

body, err := ioutil.ReadAll(resp.Body)

if err != nil {

}

return string(body)


}


func main() {

header := map[string]string{"Host": "sug.so.360.cn",

"Referer":    "http://www.so.com/",

"DNT":        "1",

"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36",

"Cookie":     "__huid=104rl%2B0HjG2YltBarbPPIz2w7HTbLrv43gETLeVtBdIEI%3D",

}

keyword := "科技"

url := "http://sug.so.360.cn/suggest?callback=suggest_so&encodein=utf-8&encodeout=utf-8&format=json&fields=word,obdata&word=" + keyword


spider := &Spider{url, header}


html := spider.get_html_header()

rp1 := regexp.MustCompile("{(.*?)}")

find_txt := rp1.FindAllString(html, -1)

fmt.Println(find_txt)

}


© 著作权归作者所有

黄哥Python培训
粉丝 39
博文 21
码字总数 14219
作品 0
海淀
私信 提问
加载中
请先登录后再评论。
python3简单爬虫实现代码

分享一个python实现的网络爬虫代码。转自:http://www.cnblogs.com/yes123/p/3761388.html 写了个python3的。代码非常简单就不解释了,直接贴代码。 #test rdp import urllib.request import...

mysoftsky
2014/05/30
394
0
用NodeJS实现一个网络爬虫小应用-爬取博客园首页文章列表

前言   网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁...

osc_7dhd4ad7
04/16
6
0
Python 爬虫介绍,什么是爬虫,如何学习爬虫?

作为程序员,相信大家对“爬虫”这个词并不陌生,身边常常会有人提这个词,在不了解它的人眼中,会觉得这个技术很高端很神秘。不用着急,我们的爬虫系列就是带你去揭开它的神秘面纱,探寻它真...

osc_tj3vajy0
2019/12/03
8
0
java网络爬虫基础学习(一)

  刚开始接触java爬虫,在这里是搜索网上做一些理论知识的总结   主要参考文章:gitchat 的java 网络爬虫基础入门,好像要付费,也不贵,感觉内容对新手很友好。   一、爬虫介绍   网...

osc_mlkyurh7
2019/04/20
3
0
chinese-poetry:最懂唐诗宋词的数据库

题图:by click_vision from Instagram.jpg 世间最美的风景,是山水草木,是诗酒琴茶。清凉夏日,每日闲居梅庄,摘花煮茗,杯盏里,亦是满满的宋唐。 宋词之美,美在清理淡雅,婉约多情。唐诗...

猴哥Yuri
2018/03/24
0
0

没有更多内容

加载失败,请刷新页面

加载更多

硬核揭露:350美元的反5G量子设备,竟只是128M的U盘

   “5G 信号一传播,正在飞的鸟儿立刻掉地上死了。”    “5G 基站会致癌,还会提升自杀率,甚至能传播新冠病毒。”    这些耸人听闻的言论,是 5G 技术阴谋论宣扬者经常挂在嘴边的话...

osc_91g5cdgs
11分钟前
10
0
微服务海量日志监控平台

前面几章蜻蜓点水的介绍了elasticsearch、apm相关的内容。本片主要介绍怎么使用ELK Stack帮助我们打造一个支撑起日产TB级的日志监控系统 背景 在企业级的微服务环境中,跑着成百上千个服务都...

osc_sejhgcp0
12分钟前
15
0
如何监控 Linux 服务器状态?

Linux 服务器我们天天打交道,特别是 Linux 工程师更是如此。为了保证服务器的安全与性能,我们经常需要监控服务器的一些状态,以保证工作能顺利开展。 本文介绍的几个命令,不仅仅适用于服务...

osc_3ytpwpyb
14分钟前
10
0
在已经编译安装好php7场景下 安装php openssl扩展

在已经编译安装好php7场景下 安装php openssl扩展 yum install openssl-devel #要安装这个,否则报错configure: error: Cannot find OpenSSL's <evp.h> centos cd /root/php7/php-7.2.31/ext......

osc_4isxawz4
14分钟前
23
0
在已经编译安装好php7场景下安装curl扩展

在已经编译安装好php7场景下安装curl扩展 cd /root/php7/php-7.2.31/ext/curl #从php官网下载php源码安装包 /usr/local/php746/bin/phpize #已经安装好的phpize的路径 yum install libcurl-...

osc_h6vn1kqs
16分钟前
23
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部