互联网情报系统实践-01:我所认为的情报系统

原创
2017/02/17 08:51
阅读数 396

作者:吴亮弟

链接:https://zhuanlan.zhihu.com/p/24900305

来源:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

输入图片说明

近期需要搭建数据中心,其中涉及到采集系统和数据分析系统的建设,借此机会把自己多年的对互联网的信息采集系统建设的一些想法整理一下,形成一次“互联网情报系统”的实践,借助各种开源系统,结合自己的需求,希望能行程一个准方案,能为大家所用。 这里有点标题党嫌疑,“互联网情报系统”,无非就是采集互联网的数据,经过清洗分析,得到自己想要的结果,或者得到的结果对自己有所用处,仅此而以。

既然需要建设互联网情报系统,那就要先定义这个情报系统,第一篇文章就以此为主题,同时也能罗列出整个系统的大纲了。

情报系统,关键字在情报两个字,我们需要收集情报,分析情报,并且利用情报带来的价值,而情报系统就是一个能满足以上基本需求的IT系统。而我们的主题又把信息源限定在了互联网。

所以简化的一套情报系统分为了以下几个模块/步骤:

以下每一步的工作量和涉及到的知识面都很大,本篇文章仅以自己的知识和经验去理解和分析,欢迎各位看官拍砖。

一、数据源查找/分析/管理

数据源的查找和分析在情报收集里面很重要,现在有人人都在谈大数据,但是很多情况下,绝大部分比例的数据都是垃圾数据,真正能为己所用的不多,所以准确的找到你所需的数据源,分析里面其中的数据,并且使用系统维护好这批数据源是数据采集之前的前置工作,这一部分会分为以下几篇(暂定)文章:

  1. 情报无处不在:确定你的数据源的分布

  2. 我要收集什么数据:确定你要搜集情报的维度

  3. 数据源定义和管理:简单的数据源维护系统

二、数据采集/清洗/入库

有了数据源,我们需要一套采集工具将所需的数据采集下来并保存到我们的数据库中,这一部分主要就围绕相关的IT系统展开,过程中将会利用一些开源系统编写简单的采集系统和数据清洗系统。

  1. 工欲善其事:寻找合适的采集系统

  2. 必先利其器:定制自己的采集系统

  3. 取其精华,去其糟粕:怎么样清洗数据

三、情报策略/分析/报告

信息大爆炸时代,获取信息的成本愈发增高,如何更准确的收集信息是本篇幅的重点之一,关键字如何选取,范围如何缩减,如果寻找关联关系等,同时我们将以开发一个以表格和图表展示系统的模块,更加直观的展示我们收集到的情报,在最后的内容,结合几个案例,探讨如何使用专业的分析工具分析我们的情报数据。

  1. 精挑细选:如何更有效的收集到有效的情报/信息

  2. 用数据说话:使用数据图表展示情报

  3. 知其所以然:使用专业分析工具分析情报

以上内容将在2017年陆续撰写,同时相应的系统也会开发,但是会滞后于文章,同时在系统开发过程中也可能会更新原有的文章,这些工作都将以业余时间为主,周期将会拉长。

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部