作者:吴亮弟
链接:https://zhuanlan.zhihu.com/p/24910432
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
浩瀚网络,信息海洋,如何找到你想要的数据是个大难题,而且也不是数据越多越好,而是要根据自己的需求,请准的确定所需的数据,然后定向寻找数据源,才能最大程度的提高效率。
本文以我自己的一个实际需求来做个演练,我的需求就是:收集国内新的商业领域/创业相关的动向,了解最近什么行业火,什么产品受关注等。再分解一下可以细化如下:新公司的投融资情况 ,新闻报道情况,新产品相关的资讯,行业相关的一些新闻动态,社交网络对相关公司,产品的讨论。这样一细分就大致圈定了数据源的网站类型范围,接下去我们就要做减法,从该范围内筛选出代表性的一些目标数据源网站即可。
上面的数据源细分,限定了我们数据源在网络上的宽度和深度,而从我们自身需求“商业动向”来看,这也是一个不可量化的东西,所以我们也要做减法,一般的做法就是限定一些关键字和数据的关联(根据已有数据计算关联的新的数据)范围。比如我们限定 3 个行业的关键字,10 家代表性公司以及其产品,以及限定 10 个相关行业,限定 100 家相关公司以及其产品,因为关联是可以无限加深,我们可以限定在 2 级或者 3 级,这一部分操作的更具体的内容,将在后续的文章完成。
根据我们对需求的细化,就可以进行数据源的分布梳理。可能的情况如下:
一、新公司的投融资情况
1. 36kr:公司报道,产品报道,投融资公司列表,投融资情况
2. IT桔子:创业公司,投融资情况
二、新闻资讯
1. 50家新闻网站
2. 百度新闻,360新闻:提供搜索入口
三、社交网络
1. 新浪微博:社交舆情
2. 知乎:行业讨论
以上就初步限定了目标网站,具体需要抓取哪些内容,建立哪些关联,将是后面的工作,而且一次需求也可以作为一个项目,数据源也可以迭代更新,在过程中发现新的合适的数据,也可以追加进来,而不合适的也可以剔除,这是通过后面设计的数据源管理模块实现。
要高效的完成数据源的分布确定,对用户要求比较高,需要对需求相关的网站比较了解,这一步骤可以联合一些行业人士以头脑风暴的方式完成。
下一篇,我们就针对这个需求进行数据维度的分析和拆解确定工作。