加载中
统计一个时间段内的文件总行数

1.问题原因 现在很多以VIO_VIOLATION开头的小文件,需要将这些文件总行数统计出来,但是不合并小文件 2.问题解决思路 2.1 执行以下命令按照修改时间排序,并将文件名输出到一个新的文件名中 ls...

09/04 14:58
48
Oracle全表抽取到HDFS中字段中换行符的处理

问题处理,我们在抽取数据时利用/x02作为换行符,接着利用sed命令来将文件中/n替换成空格 sed -i ':a;N;s/\n/ /g' file_name 处理时发现文件过大,一次处理并不能将/n处理干净,因此利用脚本多次...

Elasticsearch删除数据之_delete_by_query

_delete_by_query会删除所有query语句匹配上的文档,用法如下: curl -X POST "localhost:9200/twitter/_delete_by_query" -H 'Content-Type: application/json' -d' { "query": { "match":...

05/08 08:59
69
Java操作hadoop文件

package com.fiberhome.sxjg; import java.io.InputStream; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apac...

04/28 16:36
14
Kafka高低版本基本操作差异分析

1.低版本的kafka 启动kafka sh kafka-server-start.sh -daemon ../config/server.properties topics列表 sh kafka-topics.sh --zookeeper 172.16.44.10:2191 --list 创建topic sh kafka-topi...

不同版本hadoop集群的批量文件复制方案

如果试图在两个运行不同HDFS版本的集群上使用distcp复制数据并使用hdfs协议,会导致复制作业失败,因为两个系统版本的RPC是不兼容的。想要弥补这种情况,可以基于只读HTTP协议的HFTP文件系统并...

04/27 19:04
37
基于kerberos认证的hadoop连接问题

编写java程序连接hadoop,程序一直报server has invalid kerberros principal:hdfs/hm61@dc1.fh.com 通过排查修改本地的host配置,配置文件所在路径为 C:\Windows\System32\drivers\etc\host...

基于mrjob的MR程序在-r Hadoop模式无法引用第三方模块

建议读者可以采用以下方法,将编译后的python模块上传到hadoop集群 python SecondTask.py -r hadoop hdfs:///nebula_datacenter/data/FK_HERO/JOB_FK_HERO_COLLECT_NEW/input/plane/20180510...

Hadoop面试和参考答案

1.Hadoop集群可以运行的3个模式? 单机(本地)模式 伪分布式模式 全分布式模式 2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。...

用户评分设计与实现

用户评分设计与实现 维度 == 标签,泛指描述恶意行为的一类合集,不必纠结文中用词,看官就当做一回事, 就是你理解的那回事就行。 不区分维度 不管你是IP维度、设备维度、xxx维度,只要能描...

2019/06/06 15:32
93
DataFrames中的reindex用法

from pandas import DataFrame frame = DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['Ohio','Texas','California'] states = ['Texas','Utah','California'] frame...

2018/11/20 16:10
85
shell统计当前目录所有指定后缀文件名的行数

源目录路径 cd /home/app sum=0 for file in `ls *.py` do i=`cat $file|wc -l` sum=$[$i+$sum] done 输出最终和为echo $sum......

2018/11/19 15:27
345
mrjob报SyntaxError:invalid syntax

在公司采用mrjob模块编写MR,mrjob安装好后,执行相应的mr;程序报File "mr_job.py",line 1 in module for k,v in unfiltered_jobconf.items() if v is not None ^ syntaxError:invalid syntax...

2018/11/14 15:50
88
新安装的python2.7无法加载error while loading shared libraries: libpython2.7.so.1.0

1.修改/etc/ld.so.conf配置 加载python2.7的lib库路径 echo "/opt/FUDE-1.1/python/lib">>/etc/ld.so.conf 2.执行 /sbin/ldconfig -vi 默认情况下,编译器只会使用/lib和/usr/lib这两个目录下...

2018/11/14 15:49
378
constant模块安装方式选择

1.从python官网下载安装包constant-0.0.2.zip解压以后执行 python setup.py install 报 valueerror bad marshal data unknown type code; 遇到这种错误请用pip install constant安装......

2018/11/12 10:43
130
mrjob运行-r hadoop模式中的bug修复

问题描述: /bin/sh:run_prestart: line 1:syntax error:unexpected end of file 解决方案: 在MRJob的配置文件中添加如下信息vim /etc/mrjob.conf runners: hadoop: setup: - 'set -e' sh_bin...

2018/11/06 15:24
93
爬虫解析页面

sel =response.xpath('//div[@class="info-item"]/a/@href').extract() name =response.xpath('//div[@class="info-item"]/h2/a/text()').extract() url =response.xpath('//div[@class="inf...

H2
2018/08/12 16:40
35
mrjob报语法错误

在公司采用mrjob模块编写MR,mrjob安装好后,执行相应的mr;程序报File "mr_job.py",line 1 in module for k,v in unfiltered_jobconf.items() if v is not None ^ syntaxError:invalid syntax...

2018/06/01 15:25
46
编辑本段查询ASCII技巧 

 方便查询ASCII码对应的字符:新建一个文本文档,按住ALT+要查询的码值(注意,这里是十进制)   松开即可显示出对应字符。例如:按住ALT+97,则会显示出‘a’。 标准ASCII表   Bin Dec ...

2018/05/03 13:56
119
关于hadoop配置hosts文件的问题

对应linux系统,修改/etc/hosts文件,在全部hadoop环境下的全部机器都增加机器名和IP地址,内容如下: 10.200.187.77 master 10.200.187.78 slave1 10.200.187.79 slave2 10.200.187.80 sla...

2018/05/03 11:23
147

没有更多内容

加载失败,请刷新页面

返回顶部
顶部