互联网情报系统实践-02:确定你的数据源的分布

原创
2017/02/17 09:01
阅读数 43

作者:吴亮弟
链接:https://zhuanlan.zhihu.com/p/24910432
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

浩瀚网络,信息海洋,如何找到你想要的数据是个大难题,而且也不是数据越多越好,而是要根据自己的需求,请准的确定所需的数据,然后定向寻找数据源,才能最大程度的提高效率。

本文以我自己的一个实际需求来做个演练,我的需求就是:收集国内新的商业领域/创业相关的动向,了解最近什么行业火,什么产品受关注等。再分解一下可以细化如下:新公司的投融资情况 ,新闻报道情况,新产品相关的资讯,行业相关的一些新闻动态,社交网络对相关公司,产品的讨论。这样一细分就大致圈定了数据源的网站类型范围,接下去我们就要做减法,从该范围内筛选出代表性的一些目标数据源网站即可。

上面的数据源细分,限定了我们数据源在网络上的宽度和深度,而从我们自身需求“商业动向”来看,这也是一个不可量化的东西,所以我们也要做减法,一般的做法就是限定一些关键字和数据的关联(根据已有数据计算关联的新的数据)范围。比如我们限定 3 个行业的关键字,10 家代表性公司以及其产品,以及限定 10 个相关行业,限定 100 家相关公司以及其产品,因为关联是可以无限加深,我们可以限定在 2 级或者 3 级,这一部分操作的更具体的内容,将在后续的文章完成。

根据我们对需求的细化,就可以进行数据源的分布梳理。可能的情况如下:

一、新公司的投融资情况

1. 36kr:公司报道,产品报道,投融资公司列表,投融资情况

2. IT桔子:创业公司,投融资情况

二、新闻资讯

1. 50家新闻网站

2. 百度新闻,360新闻:提供搜索入口

三、社交网络

1. 新浪微博:社交舆情

2. 知乎:行业讨论

以上就初步限定了目标网站,具体需要抓取哪些内容,建立哪些关联,将是后面的工作,而且一次需求也可以作为一个项目,数据源也可以迭代更新,在过程中发现新的合适的数据,也可以追加进来,而不合适的也可以剔除,这是通过后面设计的数据源管理模块实现。

要高效的完成数据源的分布确定,对用户要求比较高,需要对需求相关的网站比较了解,这一步骤可以联合一些行业人士以头脑风暴的方式完成。

下一篇,我们就针对这个需求进行数据维度的分析和拆解确定工作。

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部