jjzjj

SparkSubmit object分析

newcoolerrise 2023-03-28 原文

org.apache.spark.deploy.SparkSubmit分析

  • Object SparkSubmit类图分析

    结合spark的log4j来说,printStream为error,log4j的配置也是System.error,导致做日志收集的时候莫名其妙。。。。 解决方案如下,采用重新构造log4j的appender:

    Logger.getRootLogger.removeAllAppenders() Logger.getRootLogger.setLevel(Level.INFO) val console = new ConsoleAppender() console.setTarget("System.out") val patternLayout = new PatternLayout() patternLayout.setConversionPattern("%c{1}: %m%n") console.setLayout(patternLayout) console.setEncoding("UTF-8") console.setName("console") console.activateOptions() Logger.getRootLogger.addAppender(console)
  • main方法执行

    1. 创建org.apache.spark.deploy.SparkSubmit类,重写parseArguments、logInfo、logWarning、doSubmit方法,执行doSubmit方法。
    2. 调用duSubmit方法,实际调用org.apache.spark.deploy.SparkSubmit类的submit对象。
  • 执行doSubmit方法

    1. 初始化log4j,查找classloader中org/apache/spark/log4j-defaults.properties,如果存在,PropertyConfigurator.configure("org/apache/spark/log4j-defaults.properties")。如果不在输出Spark was unable to load org/apache/spark/log4j-defaults.properties
    2. 解析提交参数,返回SparkSubmitArguments对象,具体实现方式如图:
    3. 如果verbose=true,输出参数信息
    4. 通过action,执行不同的启动方法,这里以SparkSubmitAction.SUBMIT为例。
    5. 执行submit方法。首先判断master.startsWith("spark://") && deployMode == "cluster",这里我们应该是false,执行doRun方法。查看是否设置了proxyUser,如果是设置hdfs的security(一些大数据平台修改了底层认证,如tbds、fi等,应该相对应在这里的源码做了处理)。执行runMain方法。
  • runMain方法

    1. 执行prepareSubmitEnvironment
    2. 设置classloader,如果设置了spark.driver.userClassPathFirst=true,创建出ChildFirstURLClassLoader,否则创建出MutableURLClassLoader。
    3. 把childClasspath加载到当前的classloader
    4. 利用反射初始化mainclass,根据mainclass的类型创建出不同的SparkApplication,scala.App的是JavaMainApplication,其他的则用SparkApplication
    5. 执行application start()方法。
  • 执行prepareSubmitEnvironment

    1. 创建SparkConf!!!,将system的spark开头的env参数加载。
    2. 根据args.master设置clusterManager=1(YARN),根据args.deployMode,如果没有填,默认是client,如果填了cluster,默认是cluster。如果master写了yarn-cluster,默认为yarn,cluster,测试org.apache.spark.deploy.yarn.YarnClusterApplication是否可以被加载。默认情况下可能找不到这个类,因为默认没有加入到maven编译内,尴尬,只能手动加入!!!
    3. args.sparkProperties加入到sparkConf
    4. 创建org.apache.hadoop.conf.Configuration,将sparkConf中以spark.hadoop.开头的参数截取,添加到configuration中,设置默认的io.file.buffer.size65536
    5. 创建临时目录,地址在System.getProperty("java.io.tmpdir"),对于linux系统一般为/tmp目录。目录名称为spark-#{UUID},添加ShutdownHookManager,当程序结束时清理目录。
    6. 设置principal,keytab。在sparkconf中存入,并且在hdfs登录。
    7. 如果deployMode是client,移动**--jars,--files,--pyFiles,--archives**到第5步创建好的目录内,并且将这些参数的地址修改为临时目录下的真是地址。
    8. 以下就是添加相关参数。
    9. childMainClass如果是client模式,最终为我们所写的main函数,如果是cluster模式,最终为org.apache.spark.deploy.yarn.YarnClusterApplication
  • sparkconf内容变化

    1. 加载系统配置,加载**spark.**开头的参数
    2. set命令行加载的参数
    3. 设置spark.yarn.keytab,spark.yarn.principal参数
    4. 加载SparkSubmit496-555行的参数,参数的具体值根据命令行设置
    5. 重复2操作,设置不存在的命令行参数??why??
    6. 将附件做文件路径解析后的路径set
  • childClasspath变化过程

    1. 如果是client模式,把提交的jar和--jars的jar加入classpath
    2. 如果是yarn模式且deploy为cluster时,把提交的jar和--jars的jar加入classpath
  • childArgs变化

    1. 如果是client模式,把提交命令行的args参数加入到childArgs
    2. 把所有的OptionAssigner加入childArgs
    3. 如果是yarn-cluster模式,加入--class参数,--jar参数,把提交命令行的args参数加入到childArgs

有关SparkSubmit object分析的更多相关文章

  1. 建模分析 | 平面2R机器人(二连杆)运动学与动力学建模(附Matlab仿真) - 2

    目录0专栏介绍1平面2R机器人概述2运动学建模2.1正运动学模型2.2逆运动学模型2.3机器人运动学仿真3动力学建模3.1计算动能3.2势能计算与动力学方程3.3动力学仿真0专栏介绍?附C++/Python/Matlab全套代码?课程设计、毕业设计、创新竞赛必备!详细介绍全局规划(图搜索、采样法、智能算法等);局部规划(DWA、APF等);曲线优化(贝塞尔曲线、B样条曲线等)。?详情:图解自动驾驶中的运动规划(MotionPlanning),附几十种规划算法1平面2R机器人概述如图1所示为本文的研究本体——平面2R机器人。对参数进行如下定义:机器人广义坐标

  2. 网站日志分析软件--让网站日志分析工作变得更简单 - 2

    网站的日志分析,是seo优化不可忽视的一门功课,但网站越大,每天产生的日志就越大,大站一天都可以产生几个G的网站日志,如果光靠肉眼去分析,那可能看到猴年马月都看不完,因此借助网站日志分析工具去分析网站日志,那将会使网站日志分析工作变得更简单。下面推荐两款网站日志分析软件。第一款:逆火网站日志分析器逆火网站日志分析器是一款功能全面的网站服务器日志分析软件。通过分析网站的日志文件,不仅能够精准的知道网站的访问量、网站的访问来源,网站的广告点击,访客的地区统计,搜索引擎关键字查询等,还能够一次性分析多个网站的日志文件,让你轻松管理网站。逆火网站日志分析器下载地址:https://pan.baidu.

  3. ABB-IRB-1200运动学分析MATLAB RVC工具分析+Simulink-Adams联合仿真 - 2

    一、机器人介绍        此处是基于MATLABRVC工具箱,对ABB-IRB-1200型号的微型机械臂进行正逆向运动学分析,并利Simulink工具实现对机械臂进行具有动力学参数的末端轨迹规划仿真,最后根据机械模型设计Simulink-Adams联合仿真。 图1.ABBIRB 1200尺寸参数示意图ABBIRB 1200提供的两种型号广泛适用于各作业,且两者间零部件通用,两种型号的工作范围分别为700 mm 和 900 mm,大有效负载分别为 7 kg 和5 kg。 IRB 1200 能够在狭小空间内能发挥其工作范围与性能优势,具有全新的设计、小型化的体积、高效的性能、易于集成、便捷的接

  4. 关于Qt程序打包后运行库依赖的常见问题分析及解决方法 - 2

    目录一.大致如下常见问题:(1)找不到程序所依赖的Qt库version`Qt_5'notfound(requiredby(2)CouldnotLoadtheQtplatformplugin"xcb"in""eventhoughitwasfound(3)打包到在不同的linux系统下,或者打包到高版本的相同系统下,运行程序时,直接提示段错误即segmentationfault,或者Illegalinstruction(coredumped)非法指令(4)ldd应用程序或者库,查看运行所依赖的库时,直接报段错误二.问题逐个分析,得出解决方法:(1)找不到程序所依赖的Qt库version`Qt_5'

  5. ruby-on-rails - 如何使用 ruby​​-prof 和 JMeter 分析 Rails - 2

    我想使用ruby​​-prof和JMeter分析Rails应用程序。我对分析特定Controller/操作/或模型方法的建议方法不感兴趣,我想分析完整堆栈,从上到下。所以我运行这样的东西:RAILS_ENV=productionruby-prof-fprof.outscript/server>/dev/null然后我在上面运行我的JMeter测试计划。然而,问题是使用CTRL+C或SIGKILL中断它也会在ruby​​-prof可以写入任何输出之前杀死它。如何在不中断ruby​​-prof的情况下停止mongrel服务器? 最佳答案

  6. 【Unity游戏破解】外挂原理分析 - 2

    文章目录认识unity打包目录结构游戏逆向流程Unity游戏攻击面可被攻击原因mono的打包建议方案锁血飞天无限金币攻击力翻倍以上统称内存挂透视自瞄压枪瞬移内购破解Unity游戏防御开发时注意数据安全接入第三方反作弊系统外挂检测思路狠人自爆实战查看目录结构用il2cppdumper例子2-森林whoishe后记认识unity打包目录结构dll一般很大,因为里面是所有的游戏功能编译成的二进制码游戏逆向流程开发人员代码被编译打包到GameAssembly.dll中使用il2ppDumper工具,并借助游戏名_Data\il2cpp_data\Metadata\global-metadata.dat

  7. 驱动开发:内核无痕隐藏自身分析 - 2

    在笔者前面有一篇文章《驱动开发:断链隐藏驱动程序自身》通过摘除驱动的链表实现了断链隐藏自身的目的,但此方法恢复时会触发PG会蓝屏,偶然间在网上找到了一个作者介绍的一种方法,觉得有必要详细分析一下他是如何实现的进程隐藏的,总体来说作者的思路是最终寻找到MiProcessLoaderEntry的入口地址,该函数的作用是将驱动信息加入链表和移除链表,运用这个函数即可动态处理驱动的添加和移除问题。MiProcessLoaderEntry(pDriverObject->DriverSection,1)添加MiProcessLoaderEntry(pDriverObject->DriverSection,

  8. 2023爱分析·流程中台市场厂商评估报告:微宏科技 - 2

     目录1. 研究范围定义2. 流程中台市场分析3. 厂商评估:微宏科技4. 入选证书 1.   研究范围定义近年来,随着外部市场环境快速变化、客户需求愈发多样,企业逐渐意识到,自身业务需要更加敏捷、高效,具备根据市场需求快速迭代的能力。业务流程的自动化能够帮助企业实现业务的敏捷高效,因此受到越来越多企业的关注。企业的“自动化武器库”品类丰富,包括低/零代码平台、RPA、BPM、AI等。企业可以使用多项自动化工具,但结果往往是各项自动化工具处于各自的“自动化烟囱”之中,仅能实现碎片式自动化。例如,某企业的IT团队可能在使用低代码平台、财务团队可能在使用RPA、呼叫中心则可能在使用聊天机器人。自动

  9. ruby - 我如何分析 1.9.2 中的 Ruby 代码? - 2

    我可以使用什么来分析1.9.2中的代码?我发现所有版本的ruby​​-prof都针对1.9.2存在段错误。例如,当我添加gem"ruby-prof"到我的Rails项目的Gemfile并运行bundlebundleexecruby-profconfig/environment.rb我遇到段错误。城里有新的分析gem吗?有没有办法让ruby​​-prof玩得很好? 最佳答案 不确定它是否有帮助,但我偶然发现了这一点,它可能会增加一点清晰度或引导您走上不同的道路:http://www.devheads.net/development/r

  10. PLUS模型和InVEST模型生态系统服务多情景模拟预测、ArcGIS空间数据处理、空间分析与制图、土地利用时空变化 - 2

    查看原文>>>基于”PLUS模型+“生态系统服务多情景模拟预测实践技术应用目录第一章、理论基础与软件讲解第二章、数据获取与制备第三章、土地利用格局模拟第四章、生态系统服务评估第五章、时空变化及驱动机制分析第六章、论文撰写技巧及案例分析基于ArcGISPro、Python、USLE、INVEST模型等多技术融合的生态系统服务构建生态安全格局基于生态系统服务(InVEST模型)的人类活动、重大工程生态成效评估、论文写作等具体应用基于ArcGISPro、R、INVEST等多技术融合下生态系统服务权衡与协同动态分析实践应用    本文从数据、方法、实践三方面对生态系统服务多情景预测进行讲解。内容涵盖多

随机推荐