语境我正在Spark集群上执行Spark工具(如果有兴趣,this是Spark工具)。该工具正在从HDFS读取输入文件,并将在HDFS中生成输出文件。我有2个AzureVM,带有一个SparkMaster容器、一个Namenode容器、两个SparkWorker容器和两个Datanode容器(还有两个容器以提供该工具所需的文件,但我认为这不重要),配备DockerSwarm。这是我用来运行Spark工具的Bash命令:/gatk/gatkBwaAndMarkDuplicatesPipelineSpark\--inputhdfs://namenode:8020/PFC_0028_SW_C