文档章节

对Nutch2.1抽象存储层的一些看法

杨尚川
 杨尚川
发布于 2015/04/04 21:09
字数 441
阅读 146
收藏 0

    Nutch2.1通过gora对存储层进行了扩展,可以选择使用HBase、Accumulo、Cassandra 、MySQL 、DataFileAvroStore、AvroStore中任何一种来存储数据,但其中一些并不成熟。在我的反复测试中发现,整体来说,Nutch2.1比起Nutch1.6的性能要差得多,最重要的是不能长期稳定运行。Nutch1.6使用Hadoop Distributed File System (HDFS)来作为存储,稳定可靠。下面分别说说每一种存储方式的情况:
    HBase(column stores),支持输入分割,以
Region为最小分割单位。随着数据规模的增大,并行处理的优势就体现出来了,所以适合大数据应用。不过对HBase集群的维护是一大问题,比HDFS复杂得多,内存消耗也很恐怖。
    Accumulo(key/value store )抓取3轮之后就异常退出,提示UnsupportedOperationException。
    Cassandra(column stores),需要注意的是/etc/hostslocalhost不能映射到127.0.0.1。Cassandra最大的问题在于不支持输入分割,就算数据规模再大也只有一个map,完全失去了并行性。
    MySQL (RDBMS),只有一台服务器作为数据源,那么随着数据规模的增大,MySQL 要怎么面对呢?所以MySQL对于小规模的简单的垂直搜索之类的应用比较合适。     
    DataFileAvroStore(data serialization system ),Injection job throws NullPointerException,见https://issues.apache.org/jira/browse/NUTCH-1477 
    AvroStore(data serialization system ),和DataFileAvroStore同样的问题。
    
    从上面的分析来看,目前gora还亟待改进。对于追求性能极致的朋友来说,nutch2.1还不稳定,建议使用nutch1.6,利用HDFS和MapReduce的数据本地化及天然的并行性,可以优化到非常快的速度。

 

 

 


© 著作权归作者所有

杨尚川

杨尚川

粉丝 1103
博文 220
码字总数 1624053
作品 12
东城
架构师
私信 提问
加载中

评论(1)

zhangnew
zhangnew
感谢分享。
深度学习与TensorFlow:FCN论文学习笔记

这篇文章陆陆续续看了快两周,其中也遇到了自己很多的知识的漏洞,踩了很多坑,这里希望能够和大家说一说,也希望大家可以分享一下自己的看法. 1:FCN基本思路 自从CNN成功之后,很多人都在尝试使用...

云时之间
2018/06/29
0
0
被误解的MVC和被神化的MVVM

被误解的 MVCMVC 的历史 MVC,全称是 Model View Controller,是模型 (model)-视图 (view)-控制器 (controller) 的缩写。它表示的是一种常见的客户端软件开发框架。 MVC 的概念最早出现在二...

刘波100
2016/08/22
13
0
【选择恐惧症】需不需要通用设计?

症前兆 经常会遇到这样的问题:一份需求下来,在做设计的时候就会开始纠结了:到底需不需要先抽象公共元素进行通用设计,再来进行功能的细化设计呢?还是直接根据需求为每个功能进行设计? ...

杰嗒嗒的阿杰
2017/06/08
0
0
通俗易懂的Android应用架构思想

算算日子,工作刚好三年了。这篇开始,鄙人就要向着各种以前想起来就头大的方向努力前进了。作为在Android应用层搬砖多年的民工,首篇我想谈谈自己对架构思想的一些看法。如有不妥,还请拍砖...

技术小能手
2018/06/22
0
0
扩展用户置备工具箱--OpenPTK

无论用户信息是否储存在目录服务中或 XML 文件中,OpenPTK 都允许开发人员为用户置备提供统一的 API。 通过使用 OpenPTK,开发人员将不必深入到每个用户信息存储库,而是集中利用API 定义完善...

匿名
2008/10/29
1K
0

没有更多内容

加载失败,请刷新页面

加载更多

巨杉Tech | Hbase迁移至SequoiaDB 实战

背景 在传统银行 IT 架构中,联机交易与统计分析系统往往采用不同的技术与物理设备,通过定期执行的 ETL 将联机交易数据向分析系统中迁移。而作为数据服务资源池,同一份数据可能被不同类型的...

巨杉数据库
32分钟前
5
0
关于快速开发框架:网红妹纸,给了我一个idea!

我是一名软件公司的员工,从事撸码事业也有一段时间了。码代码已经成为我生活的一部分,我的撸码的生活几乎一成不变。直到有一天,写字楼搬来了一家网络红公司! 网红公司,什么是网红公司,...

我想造火箭
34分钟前
8
0
Java操作栈-表达式求值

package stack.demo;import java.io.IOException;import java.util.Scanner;import java.util.Stack;/** * 表达式求值 算符优先法 * 3*(5-2)# #在这里表示结尾 * ...

FeanLau
44分钟前
5
0
Java内功心法,Set集合的详解

本人免费整理了Java高级资料,涵盖了Java、Redis、MongoDB、MySQL、Zookeeper、Spring Cloud、Dubbo高并发分布式等教程,一共30G,需要自己领取。 传送门:https://mp.weixin.qq.com/s/Jzdd...

李红欧巴
45分钟前
23
0
微博 2 亿日活背后,广告系统不掉线的全景运维大法

https://www.infoq.cn/article/wfHffPqV2f4Y5M1y6Mf2

perofu
49分钟前
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部