加载中
y000n520 2016/09/19 17:32 回答了问题: Flume 实时收集nginx的日志放到hadoop去

目前是这样的 

agent1.sources=source1

agent1.sinks=sink1

agent1.channels=channel1

#Spooling Directory是监控指定文件夹中新文件的变化,一旦新文件出现,就解析该文件内容,然后写入到channle。写入完成后,标记该文件已完成或者删除该文件。

#配置source1

agent1.sources.source1.type=exec

agent1.sources.source1.command=tail -F /usr/local/nginx/logs/access.log

agent1.sources.source1.channels=channel1

agent1.sources.source1.fileHeader = true

agent1.sources.source1.deserializer.outputCharset=UTF-8

agent1.sources.source1.interceptors = i1 i2 

agent1.sources.source1.interceptors.i1.regex=POST([\\s\\S]*) 

agent1.sources.source1.interceptors.i1.type=regex_filter

agent1.sources.source1.interceptors.i2.type = timestamp

#配置channel1

agent1.channels.channel1.type=file

agent1.channels.channel1.checkpointDir=/usr/flume_temp/flume_tmp123

agent1.channels.channel1.dataDirs=/usr/flume_temp/flume_tmp

#配置sink1

agent1.sinks.sink1.type=hdfs

agent1.sinks.sink1.hdfs.path=hdfs://xxxx/nginx/%y-%m-%d

agent1.sinks.sink1.hdfs.filePrefix=%H%M

agent1.sinks.sink1.hdfs.fileSuffix=.log

#agent1.sinks.sink1.hdfs.path=hdfs://xxxx/nginx/%Y/%m/%d

agent1.sinks.sink1.hdfs.fileType=DataStream

agent1.sinks.sink1.hdfs.writeFormat=TEXT

agent1.sinks.sink1.hdfs.rollInterval=600

agent1.sinks.sink1.hdfs.batchSize=100

#agent1.sinks.sink1.hdfs.rollInterval = 600

# File size to trigger roll, in bytes (0: never roll based on file size)

#agent1.sinks.sink1.hdfs.rollSize = 128000000

#agent1.sinks.sink1.hdfs.rollCount = 0

#agent1.sinks.sink1.hdfs.batchSize = 1000

agent1.sinks.sink1.hdfs.threadsPoolSize = 10

agent1.sinks.sink1.hdfs.idleTimeout = 0

#agent1.sinks.sink1.hdfs.round=true

#agent1.sinks.sink1.hdfs.roundValue=10

#agent1.sinks.sink1.hdfs.roundUnit=minute

#agent1.sinks.sink1.hdfs.rollSize=0

#agent1.sinks.sink1.hdfs.rollCount=0

#agent1.sinks.sink1.hdfs.rollInterval=0

#agent1.sinks.sink1.hdfs.threadsPoolSize=4

agent1.sinks.sink1.hdfs.callTimeout=60000

agent1.sinks.sink1.hdfs.minBlockReplicas=1

agent1.sinks.sink1.channel=channel1

但生成的文件还是这么多 什么情况啊

@y000n520
agent1.sources=source1 agent1.sinks=sink1 agent1.channels...
y000n520 2016/09/18 14:43 回答了问题: Flume 实时收集nginx的日志放到hadoop去
那为什么有时候是1份文件呢 
@y000n520
agent1.sources=source1 agent1.sinks=sink1 agent1.channels...
坑爹公司
@Liberxue
//技术股,目前在职三个月,没签任何股东协议/合同,公司他们三个股东注册.公司刚发展点业务,由于目标不一致,我选择...
y000n520 2016/06/03 17:15 回答了问题: CAT 监控部署错误 错误如下
为什么要jdk1.7以下啊
@y000n520
org.apache.catalina.core.ApplicationContext logjava.lang....
车流量和公共交通的次数从哪里来呢
@y000n520
想分析某一个位置的人口流量 对这个地方的住房需求,现在已经可以拿到周边实时房态,现在就是不知道周边的人口流量数据
现在在哪里做大数据啊 
航班管家可以啊 
y000n520 2014/11/10 10:19 回答了问题: 卧槽 能不装比 ??
大数据是从大数据中去挖掘有用的信息
@13123123
妈的 天天看群里面说云计算 大数据 我想问到底啥是大数据?我是农村的请问啥是大数据?我只会mysql 能搞起来的大...
y000n520 2014/11/10 10:13 回答了问题: 卧槽 能不装比 ??
嗯 说的太对呢 不能因为你的圈子没有弄大数据 就怀疑这个世界弄大数据的是装逼 只有当你去了解了这个 才能怀疑大数据是不是装逼,懂了才知道是否有用,楼主你的圈子太小了
@13123123
妈的 天天看群里面说云计算 大数据 我想问到底啥是大数据?我是农村的请问啥是大数据?我只会mysql 能搞起来的大...
y000n520 2014/11/03 10:18 回答了问题: Mahout 频繁模式挖掘
那怎么得到 支持度和置信度  能给一个代码给我看哈嘛
@y000n520
大家好 我用mahout 0,6关联规则推荐算法 代码如下: int minSupport = 2; int ma...
y000n520 2014/11/02 21:19 回答了问题: Mahout 频繁模式挖掘

应该输出的前面一个是物品的ID 而不应该是一个购物篮的所有物品ID啊

@y000n520
大家好 我用mahout 0,6关联规则推荐算法 代码如下: int minSupport = 2; int ma...
这个用LDA+语义分析
@y000n520
我看淘宝里面的评价,会抽出一个智能的标签 放在“大家都写到”,这是怎么实现的,用了什么技术,我现在有海量数据 如“...
y000n520 2014/10/31 16:30 回答了问题: Mahout 频繁模式挖掘
怎么没有人回答啊  
@y000n520
大家好 我用mahout 0,6关联规则推荐算法 代码如下: int minSupport = 2; int ma...

我用的是java写代码啊 算法用MAhout ,也会用到Hadoop Hive Hbase

@Leo進城務工
有童鞋做大数据方向(python)的么?我现在主要开发语言是python,想涉及大数据,python也有相应的类库...
y000n520 2014/10/30 15:49 发布了问题:

没有更多内容

加载失败,请刷新页面

返回顶部
顶部