hadoop map reduce

hadoop 运行jar

hadoop如何分发本地的jar文件 执行hadoop jar abc.jar arg0 arg1 ...实际上时执行了java org.apache.hadoop.util.RunJar abc.jar arg0 arg1 ... 在RunJar中,会读取abc.jar文件,然后尝试从manifest中提取"Main-Class"作为mainClass,如果manifest中没有指定,则把abc.jar之后的下一个参数当成mainClass。比如hadoop jar packagename.ClassName arg0 arg1

当然你也可以像使用java -cp dependency1.jar:dependency2.jar:main.jar packagename.ClassName这样的方式来运行

export HADOOP_CALSSPATH=dependency1.jar:dependency2.jar:main.jar
hadoop packagename.ClassName arg0 arg1

依赖管理

  1. 使用hadoop 命令运行jar包时,会自动携带hadoop的依赖,因此不需要将这些依赖打入jar包。

  2. 对于hadoop之外的其他依赖包有多种方式来配置。(【转】Mapreduce部署与第三方依赖包管理 - Mr.Ming2 - 博客园

    1. 将你的job打包成一个独立的jar包,依赖全部打包到jar包之中,这是最简单的方式,但是如果依赖太多则会导致jar包太大。

    2. 配置export HADOOP_CLASSPATH=*.jar来指定依赖的jar,但是这样的话需要在每个节点机器上均要同步部署这些依赖包以及配置环境变量。

    3. 使用libjars参数。可以在使用“hadoo jar”命令时,向启动的job传递“libjars”选项参数,同时配合ToolRunner工具来解析参数并运行Job。 libjars中需要指定job依赖的所有的jar全路径,并且这些jars必须在当前本地文件系统中(并非集群中都需要有此jars)

libjars的配置

MapReduce程序调用第三方Jar包的方式 - CSDN博客 解决Hadoop jar .jar 主类名 -libjars .jar *.jar arg1 arg2 ... 中-libjars的方法 - CSDN博客

首先你的程序要使用ToolRunner的方式来运行。

adoop自带了一些辅助类。GenericOptionsParser是一个类,用来解释常用的Hadoop命令行选项,并根据需要,为Configuration对象设置相应的取值。通常不直接使用GenericOptionsParser,更方便的方式是:实现Tool接口,通过ToolRunner来运行应用程序,ToolRunner内部调用GenericOptionsParser。

使用了这种方式后就可以在你的启动命令中通过指定-libjars来指定第三方依赖了,hadoop会将依赖上传到hdfs上共享使用。 启动命令:hadoop jar main.jar packagename.ClassName -libjars a.jar,b.jar arg0 arg1 注意的是-libjars a.jar,b.jar是放在指定的类名后面和要传入的参数前面。

完整的示例代码

Last updated

Was this helpful?