互联网情报系统实践-03确定你要搜集情报的维度

原创
2017/02/17 09:08
阅读数 373

作者:吴亮弟
链接:https://zhuanlan.zhihu.com/p/25010531
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 

当我们需求去收集情报的时候,需要先确定这次收集情报的目的是什么,为了方便工作的推进,我把每次的情报收集工作都归纳为一次案例 (Case) , 每个“案例” 包含一下方面的内容:

研究对象

研究对象就是我们这次案例收集情报的主体对象,比如“商业动向” 这个案例根据需要的数据可以细分两种研究对象:行业和公司。

基于互联网,我们通常使用关键字去收集数据,因此每一类研究对象都需要确定相关的关键字,比如使用“VR”,“头戴设备”,“VR视频”等为“VR行业”的关键字,使用公司名称和产品名称以及相关标签作为公司对象的关键字。

通过关键字检索,或者对数据源的过滤,我们得到了最终的网页内容(情报数据),但是需要对这个数据进行加工处理,获取到我们的数据模型所需的内容,才有价值,这些我们定义为数据维度。

比如行业的维度:新闻数量,新闻热度(浏览器,转载量,评论量),行业参与度(公司数量,论文数量,投资数量),用户参与度(微博相关数量,评论,社交讨论)等。

维度的确定是贯穿整个案例的执行过程中的,需要根据数据源的采集情况,模型的情况,以及评估结果的情况进行调整,是一个动态变化的过程。

数据源

确定了研究对象以及相关维度,我们就可以着手寻找数据源,方法很简单,使用常规数据源列表中的搜索功能,按照研究对象的关键字去搜索,根据搜索结果确定是否为数据源,依据可以是内容相关性,维度数据等。

数据源我一般为其分为两类:列表类,详情类。列表类表现为罗列出一些列表,可以根据列表得到其他的数据,详情类一般为一个信息的最终节点,可以在详情类中获取你所需要的维度信息。这里的数据源是广义的数据源,比如某某网站是数据源,某某API接口也是数据源,搜索引擎是列表类的,新闻网站既是列表类也是详情类的。

数据源的管理和维护工作量庞大,也需要一个过程,所以我们的系统搭建过程中,数据源管理模块也是必不可少的功能模块,对数据源按照分类,标签进行管理。

关联关系

关联关系是通过现有数据(关键字,信息),通过一些模型计算推演出的新的数据源,关键字,研究对象等信息。比如“相关关键字”,“相关网站”,“相关新闻”,“相关产品”等等。通常使用模型进行推演。因此需要大量的数据支持,在整个情报系统运转的过程中,关联关系的内容的产生应该也是自动化完成的,人工干预应该只在模型选择的业务逻辑层面。

时间维度

最后一个是时间维度,情报通常有时效性,而其大多的维度分析通常会和时间因素相关,所以时间维度的选取也是很重要,对时间的控制,一般为定义一个起始日期,以及各个数据源的更新周期,这样时间维度的定义就完成,剩下的工作需要系统其他模块自行完成,比如历史数据的权重数据,时间维度上各维度的呈现和使用等等。

这一个案例 (Case) 的第一步,而后面的步骤又和这一步紧密关联,所以 案例的管理需要通过系统完成,以便更高效的管理和决策。

以后的文章,将会简单的完成一个 ”案例管理“模块的需求分析和实现。

 

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部