基于mrjob的MR程序在-r Hadoop模式无法引用第三方模块

原创
04/14 15:50
阅读数 67

建议读者可以采用以下方法,将编译后的python模块上传到hadoop集群

python SecondTask.py -r hadoop  hdfs:///nebula_datacenter/data/FK_HERO/JOB_FK_HERO_COLLECT_NEW/input/plane/20180510/test_fligth_5.nb --py-file='/opt/FUDE-1.1/python/lib/python2.7/site-packages/hdfs-2.1.0-py2.7.egg'

但是命令行只能上传一个模块,如果有多个模块,需在配置文件中指定引用的模块路径

Cat /etc/mrjob.conf

runners:

  local:

    py_files:

  hadoop:

    py_files:  ['/opt/FUDE-1.1/python/lib/python2.7/site-packages/fkcollect_mr-1.0.5-py2.7.egg','/opt/FUDE-1.1/python/lib/python2.7/site-packages/hdfs-2.1.0-py2.7.egg','/opt/FUDE-1.1/python/lib/python2.7/site-packages/configparser-3.5.0-py2.7.egg']

  emr:

    py_files:

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部