文档章节

Rstudio 实现 爬虫 文本分词 个性化词云设计--我爱中国我爱党

o
 osc_x4h57ch8
发布于 2018/04/24 14:08
字数 244
阅读 0
收藏 0

精选30+云产品,助力企业轻松上云!>>>

Rstudio 爬虫 文本分词个性化词云设计

  • 目录

  1、环境准备,加载依赖

  2、rvest 爬虫,数据爬取

  3、jiebaR用于分词,词频统计

  4、wordcloud2 结果可视化

===============================================================================================================================================

1、环境准备,加载依赖

2、数据爬取

3、数据清洗

4、词云设计

install.packages("wordcloud2")
install.packages("rvest")
install.packages("jiebaR")
library(wordcloud2)
library(rvest)
library(jiebaR)


# 开始爬虫
url<-'http://www.gov.cn/premier/2017-03/16/content_5177940.htm'
#读取数据,规定编码
web<-read_html(url,encoding="utf-8") 
position<-web %>% html_nodes("div.pages_content") %>% html_text()

# jieba分词,词频统计
#初始化分词引擎并加载停用词。
engine_s<-worker(stop_word = "stopwords.txt")
#分词
seg<-segment(position,engine_s)
#统计词频
f<-freq(seg)
#根据词频降序排列
f<-f[order(f[2],decreasing=TRUE),]

#基于wordcloud2包进行可视化
#总共有2000多个词,为了显示效果,我只提取前150个字
f2<-f2[1:150,]    
#形状设置为一颗五角星
wordcloud2(f2, size = 0.8 ,shape='star')

 

上一篇: JSONModel的使用
下一篇: 2018.4.24 回溯法
o
粉丝 0
博文 500
码字总数 0
作品 0
私信 提问
加载中
请先登录后再评论。

暂无文章

pyhon

cython 相关的帖子. http://blog.behnel.de/categories/cython.html https://www.nexedi.com/ 我们追求的价值观 家 多核Python HTTP服务器(比Go更快)(破坏者:Cython) 价值观 当让-保罗·...

MtrS
12分钟前
9
0
多处理与线程Python - Multiprocessing vs Threading Python

问题: I am trying to understand the advantages of multiprocessing over threading . 我试图了解多处理优于线程的优势。 I know that multiprocessing gets around the Global Interpret......

法国红酒甜
17分钟前
9
0
格式编号始终显示2个小数位 - Format number to always show 2 decimal places

问题: I would like to format my numbers to always display 2 decimal places, rounding where applicable. 我想将数字格式化为始终显示2个小数位,并在适用的情况下四舍五入。 Examples...

富含淀粉
今天
22
0
Docker可视化工具Portainer

1 前言 从没想到Docker也有可视化的工具,因为它的命令还是非常清晰简单的。无聊搜了一下,原来已经有很多Docker可视化工具了。如DockerUI、Shipyard、Rancher、Portainer等。查看对比了一番...

南瓜慢说
今天
20
0
日志系统新贵 Loki,真香!!

最近,在对公司容器云的日志方案进行设计的时候,发现主流的ELK或者EFK比较重,再加上现阶段对于ES复杂的搜索功能很多都用不上最终选择了Grafana开源的Loki日志系统,下面介绍下Loki的背景。...

庞陆阳
今天
14
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部