hadoop运行java程序(jar包)并运行时动态指定参数

发布时间：2024/02/17

运行Java程序（JAR包）是Hadoop处理数据的一部分。在本文中，将介绍如何在Hadoop上动态指定参数以运行Java程序。

步骤 1：创建Java工程

创建一个Java工程，编写Hadoop程序，并将其打包成JAR文件。

步骤 2：编写程序的入口类

在Java工程中，我们应该有一个Main类作为程序的入口。在Main类中，需要使用Hadoop提供的ToolRunner类解析命令行参数，启动和运行MapReduce任务。

以下是一个样例Main类：

public class MyMainClass extends Configured implements Tool {

    public int run(String[] args) throws Exception {
        Job job = new Job(getConf());
        // 设置Mapper和Reducer
        // ...
        return job.waitForCompletion(true) ? 0 : 1;
    }

    public static void main( String[] args ) throws Exception {
        ToolRunner.run(new Configuration(), new MyMainClass(), args);
    }
}

在上面的代码中，我们继承了Hadoop提供的Configured和Tool两个类，并实现了run方法和main方法。

步骤 3：编写hadoop命令参数

我们创建一个hadoop命令名称为run_hadoop_job.sh的文件，并在其中以类似于以下方式编写命令行参数：

hadoop jar my-jar-file.jar com.example.MyMainClass -input input_dir -output output_dir -mapper mapperClass

在上面的命令中，我们使用hadoop jar命令来运行JAR文件。com.example.MyMainClass是程序的入口类。接下来是一组键值对，用于为程序传递参数。在上面的示例中，我们设置了输入目录，输出目录和Mapper类。

步骤 4：在执行hadoop命令时动态指定参数

我们可以使用一个bash脚本，动态指定参数来运行hadoop命令。以下是一个示例bash脚本，它从一个配置文件中读取参数：

#!/bin/bash

# 读取配置文件中的参数
source ./config

# 运行hadoop命令
hadoop jar my-jar-file.jar com.example.MyMainClass \
    -input $INPUT_DIR \
    -output $OUTPUT_DIR \
    -mapper $MAPPER_CLASS \
    -reducer $REDUCER_CLASS

在上面的示例中，我们通过source命令读取配置文件中的参数，并以变量的形式将它们传递给hadoop命令，以运行程序。

示例 1

假设我们有一个名为WordCount的Java程序，我们想要运行它以计算输入文件夹中的单词数。我们可以按照以下步骤运行程序：

创建一个Java工程，编写程序，并将其打包成名为WordCount.jar的JAR文件。
创建一个run_wordcount.sh文件，编写hadoop命令行参数。例如：

hadoop jar WordCount.jar com.example.WordCount -input /user/hadoop/input -output /user/hadoop/output -mapper com.example.WordCountMapper -reducer com.example.WordCountReducer

创建一个config文件，并设置参数。例如：

INPUT_DIR=/user/hadoop/input
OUTPUT_DIR=/user/hadoop/output
MAPPER_CLASS=com.example.WordCountMapper
REDUCER_CLASS=com.example.WordCountReducer

运行run_wordcount.sh文件。例如：

./run_wordcount.sh

示例 2

假设我们有一个Java程序，它在分析日志时需要一些附加参数。我们可以按照以下步骤运行程序：

创建Java工程并编写程序。
创建一个run_log_analyzer.sh文件，并编写hadoop命令行参数，扩展原来的命令以包括附加参数。例如：

hadoop jar LogAnalyzer.jar com.example.LogAnalyzer -input /user/hadoop/input -output /user/hadoop/output -mapper com.example.LogAnalyzerMapper -reducer com.example.LogAnalyzerReducer -debug true -verbose true

创建一个config文件，并设置参数。例如：

INPUT_DIR=/user/hadoop/input
OUTPUT_DIR=/user/hadoop/output
MAPPER_CLASS=com.example.LogAnalyzerMapper
REDUCER_CLASS=com.example.LogAnalyzerReducer
DEBUG=true
VERBOSE=true

运行run_log_analyzer.sh文件。例如：

./run_log_analyzer.sh

在上面的示例中，我们增加了两个附加参数，使程序能够以调试模式和详细模式运行。这些参数将在Java程序中解析。