加载中
浅谈Lucene中的DocValues

前言: 在Lucene4.x之后,出现一个重大的特性,就是索引支持DocValues,这对于广大的solr和elasticsearch用户,无疑来说是一个福音,这玩意的出现通过牺牲一定的磁盘空间带来的好处主要有两个...

2016/05/10 19:33
2.3K
开源大数据索引项目hive-solr

github地址:https://github.com/qindongliang/hive-solr 欢迎大家fork和使用 关于这个项目的介绍,请参考散仙前面的文章: http://qindongliang.iteye.com/blog/2283862 最新更新: (1)添...

2016/05/06 16:28
412
健康债你欠不起

看完这个新闻之后,深表悲痛,心里有一种淡淡的忧伤,可能对这方面了解少的人并不知道,得了肿瘤(癌症)的患者,会是怎样一种生活状态,会面对多大癌细胞和放疗,化疗对人心理,精神,和身体...

2016/05/01 23:47
439
浅谈Solr和ElasticSearch建索引性能优化策略

由于Solr和ElasticSearch都是基于Lucene构建的,所以他们之间有很大程度的相似性,故而他们的一些优化策略基本也是通用的,面对越来越多的海量数据,如何优化全量索引的写入性能呢? 散仙简单...

Nodejs笔记(三)

本篇主要介绍nodejs+redis的使用例子: (一)安装: Java代码 npm install redis (二)一些比较常使用例子 Java代码 //建立连接 var redis=require("redis"); var client=redis.createCli...

2016/04/26 15:32
315
如何使用Hive集成Solr?

(一)Hive+Solr简介 Hive作为Hadoop生态系统里面离线的数据仓库,可以非常方便的使用SQL的方式来离线分析海量的历史数据,并根据分析的结果,来干一些其他的事情,如报表统计查询等。 Solr...

2016/03/17 15:15
575
大数据日志收集框架之Flume入门

Flume是Cloudrea公司开源的一款优秀的日志收集框架,主要经历了两个大的版本,分别是 Flume-OG Flume-NG OG是0.9.x的版本,依赖zookeeper,角色职责不够单一, NG是新版本指1.x的版本,官网解...

如何使用Spark大规模并行构建索引

使用Spark构建索引非常简单,因为spark提供了更高级的抽象rdd分布式弹性数据集,相比以前的使用Hadoop的MapReduce来构建大规模索引,Spark具有更灵活的api操作,性能更高,语法更简洁等一系列...

一次bug死磕经历之Hbase堆内存小导致regionserver频繁挂掉

环境如下: Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Zookeeper3.4.6 JDK1.7 Ant1.9.5 Maven3.0.5 最近在测Hbase的压缩,Hadoop安装了lzo和snappy,插入50条文本数据,每条...

2016/01/06 10:09
739
ElasticSearch中分词器组件配置详解

首先要明确一点,ElasticSearch是基于Lucene的,它的很多基础性组件,都是由Apache Lucene提供的,而es则提供了更高层次的封装以及分布式方面的增强与扩展。 所以要想熟练的掌握的关于es中分...

Hadoop2.7.1配置NameNode+ResourceManager高可用原理分析

关于NameNode高可靠需要配置的文件有core-site.xml和hdfs-site.xml 关于ResourceManager高可靠需要配置的文件有yarn-site.xml 逻辑结构: NameNode-HA工作原理: 在一个典型的HA集群中,最好...

2015/11/11 19:54
1.1K
分布式日志收集之Logstash 笔记(一)

(一)logstash是什么? logstash是一种分布式日志收集框架,开发语言是JRuby,当然是为了与Java平台对接,不过与Ruby语法兼容良好,非常简洁强大,经常与ElasticSearch,Kibana配置,组成著...

设置Hadoop+Hbase集群pid文件存储位置

有时候,我们对运行几天或者几个月的hadoop或者hbase集群做停止操作,会发现,停止命令不管用了,为什么呢? 因为基于java开发的程序,想要停止程序,必须通过进程pid来确定,而hadoop和hba...

2015/10/20 13:47
365
在Lucene或Solr中实现高亮的策略

一:功能背景 最近要做个高亮的搜索需求,以前也搞过,所以没啥难度,只不过原来用的是Lucene,现在要换成Solr而已,在Lucene4.x的时候,散仙在以前的文章中也分析过如何在搜索的时候实现高亮...

2015/07/29 20:48
344
Intellj IDEA14.0.2启动异常之3分钟修复

今天是周一,刚到公司启动心爱的IDEA,,突然启动到一半,就抛异常了,直接弹窗,报如下的异常: Java代码 java.lang.RuntimeException: com.intellij.ide.plugins.PluginManager$StartupAb...

2015/07/20 11:04
3.3K
使用shell分页读取600万+的MySQL数据脚本

shell-mysql (1)脚本背景: 由于要在Linux上,远程读取mysql的表的数据,然后做一定清洗后,把数据上传至Hadoop集群中,使用Java写吧,感觉太麻烦了,得在Win上开发好,还得打成jar包, 上传...

2015/07/15 13:08
628
驭象者之Apache Oozie

(1)Apache Oozie是什么? Oozie在英语中的释义指的是:驯象人,驭象者(多指缅甸那边的俗称),这个比喻相对与它的功能来说,还是很恰当的。 Apache Oozie是一个用来管理Hadoop任务的工作流...

Spring Boot开发之流水无情(二)

上篇散仙写了一个很简单的入门级的Spring Boot的例子,没啥技术含量,不过,其实学任何东西只要找到第一个突破口,接下来的事情就好办了,人最怕什么? 我想莫过于干一件事情,没有下手的地方...

Spring Boot入门开发之明月千城(一)

最近数据分析的项目也即将告一段落了,中间也积累了很多知识,特此记录一下。其中用的最爽的Web组合开发就是Intellij IDEA + Maven + Spring Boot + Velocity + Boostrap + jQuery了,关于后...

2015/04/24 10:28
8.4K
Hadoop进阶之输入路径如何正则通配?

在hadoop的编程中,如果你是手写MapReduce来处理一些数据,那么就避免不了输入输出参数路径的设定,hadoop里文件基类FileInputFormat提供了如下几种api来制定: 如上图,里面有 (1)addInpu...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部