文档章节

爬取网页内容并将其存放到word文档-----详述问题分析方法及百度使用策略(具体实现过程后续补充)

jane_wj
 jane_wj
发布于 2015/07/27 19:28
字数 746
阅读 81
收藏 0

这里具体解决的问题是----需要爬取3000条左右的新闻(新闻属于图文混排)将其存放到word文档。

以下我从如何分析问题,如何使用百度解决问题进行详细论述。具体的实现过程,我将在后续博客中进行补充,同时附上源码。

一、问题分析:

  这里的分析方式我们称之为---原型分析法(收取核心过程)


红色框标出的是核心步骤(如果将html内容存放到word文档)。我们应该以怎样的步骤和方式解决这个问题,将其概括为  宏观搜索--筛选信息--细化搜素--深入了解,逐一解决--项目整合--后期容错

1.宏观搜索

   这个时候没有问题的解决方向,所有只能宏观搜素,确定问题的解决方向。具体的操作从大方向百度如:html到word,这个时候不要指望百度现有的代码能够解决你的问题,你应该参考和筛选的是方向信息如:比如可以用哪些技术、哪些jar包、哪些开源项目。

2.筛选信息

  经过 宏观搜索 以后我们似乎有很多的解决策略(如 htmlunit、jacob、httpclient、itext),似乎看上去都能解决问题。那么接下来就是要进行筛选。具体操作:从官网查询每个项目的具体介绍,确定它能做什么,是否符合你的需求。

3.细化搜索

  经过信息筛选后,下来需要做的就是克服你的懒惰扎实的查看官网上的get started,然后找到相应的demo,学习demo时配合官方的api和项目的源文件。(就本程序而言,我们确定了poi可以对word进行操作,那么我们需要学习的就是怎样创建文档、怎样向文档里插入文本,图片、怎样控制文本格式等等)

4.深入了解,逐一解决

   这一步之所以单独拿出来说明,就是需要强调--逐一攻克技术难点,不要同时进行两个及其以上的技术难题。

5.项目整合

  这一步就是将上边逐一攻克的难点进行整合得到初期的项目。

6.容错处理

  针对项目中的个别现象或者某些特殊情况进行处理,俗称打补丁。


  这些内容都是经过实践提取出的经验,希望在以后的学习中,可以应用这套理论,完善这套理论,最后形成自己的理论。

  感谢 cg。

© 著作权归作者所有

jane_wj
粉丝 1
博文 1
码字总数 746
作品 0
保定
私信 提问
简单爬虫(urllib+BeautifulSoup)

爬虫是怎么实现的? 简单介绍 爬虫:一段自动抓取互联网信息的程序 从一个url出发,然后访问和这个url相关的各种url,并提取相关的价值数据。 URL:Uniform Resource Location的缩写,译为“...

廖少少
2017/10/31
0
0
一个月入门Python爬虫,快速获取大规模数据

数据是创造和决策的原材料,高质量的数据都价值不菲。而利用爬虫,我们可以获取大量的价值数据,经分析可以发挥巨大的价值,比如: 豆瓣、知乎:爬取优质答案,筛选出各话题下热门内容,探索...

Python开发者
2018/04/25
0
0
什么是网络爬虫?有什么用?怎么爬?一篇文章带你领略python爬虫的魅力

网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会...

急速奔跑中的蜗牛
05/18
0
0
dySE:一个 Java 搜索引擎的实现,第 1 部分: 网络爬虫

自己动手写一个搜索引擎,想想这有多 cool:在界面上输入关键词,点击搜索,得到自己想要的结果;那么它还可以做什么呢?也许是自己的网站需要一个站内搜索功能,抑或是对于硬盘中文档的搜索...

yaraja
2012/02/02
594
2
SuperSpider——打造功能强大的爬虫利器

1.爬虫的介绍 图1-1 爬虫(spider) 网络爬虫(web spider)是一个自动的通过网络抓取互联网上的网页的程序,在当今互联网中得到越来越广泛的使用。这种技术一般用来爬取网页中链接,资源等,当...

云栖希望。
2017/12/04
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Android 图片加载带进度条的ImageView

https://blog.csdn.net/shu_quan/article/details/79975578

shzwork
12分钟前
2
0
关于XAMPP默认端口80 和443被占用的问题

本文转载于:专业的前端网站➩关于XAMPP默认端口80 和443被占用的问题 关于安装xampp-win32-1.8.1-VC9-installer.zip后启动时候报端口80和443被占用的问题解决 xampp-win32-1.8.1-VC9-instal...

前端老手
14分钟前
4
0
错误Setting the parent of a transform which resides in a Prefab Asset is...

错误日志 Setting the parent of a transform which resides in a Prefab Asset is disabled to prevent data corruption 原因1 用Resouce.Load加载一个prefab,没有实例化直接设置parent ......

XBlock
15分钟前
4
0
Spring boot 配置mybatis

当然任何模式都需要首先引入mybatis-spring-boot-starter的pom文件,现在最新版本是1.1.1(刚好快到双11了 :)) <dependency>    <groupId>org.mybatis.spring.boot</groupId>    <......

雷开你的门
16分钟前
5
0
云栖干货回顾 | 更强大的实时数仓构建能力!分析型数据库PostgreSQL 6.0新特性解读

阿里云 AnalyticDB for PostgreSQL 为采用MPP架构的分布式集群数据库,完备支持SQL 2003,部分兼容Oracle语法,支持PL/SQL存储过程,触发器,支持标准数据库事务ACID。AnalyticDB PG通过行存...

开源中国小二
28分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部