jjzjj

spark-slave

全部标签

java - 如何在 Apache Spark 中为两个具有不同结构的 DataFrame 实现 NOT IN

我在我的Java应用程序中使用ApacheSpark。我有两个DataFrame小号:df1和df2.df1包含Row与email,firstName和lastName.df2包含Row与email.我想创建一个DataFrame:df3包含df1中的所有行,df2中不存在哪个电子邮件.有没有办法用ApacheSpark做到这一点?我试图创建JavaRDD来自df1和df2通过类型转换它们toJavaRDD()和过滤df1包含所有电子邮件,然后使用subtract,但我不知道如何映射新的JavaRDD至ds1得到DataFrame.基本上我需要df1中的所有行谁的邮箱不在df2.Dat

java - Spark 应用程序 - Java.lang.OutOfMemoryError : Java heap space

我用的是SparkStandalone单机,128G内存,32核。以下是我认为与我的问题相关的设置:spark.storage.memoryFraction0.35spark.default.parallelism50spark.sql.shuffle.partitions50我有一个Spark应用程序,其中有一个用于1000个设备的循环。对于每个循环(设备),它都会准备特征向量,然后调用MLLib的k-Means。在循环的第25到30次迭代(处理第25到第30个设备)时,它遇到了“Java.lang.OutOfMemoryError:Java堆空间”的错误。我尝试将memoryFra

java - 最糟糕的警告 : Slave exited abnormally due to TIMED_OUT

我应该如何摆脱这个警告并为pitest添加超时常量?我的命令是:mvnjacoco:reportorg.pitest:pitest-maven:mutationCoveragesonar:sonar-Dpitest.timeoutConst=8000但它抛出:警告:由于TIMED_OUT从站异常退出 最佳答案 您不太可能摆脱所有警告-它们是在突变创建无限循环时生成的。Pitest通过将每个测试的执行时间与不存在突变时所花费的时间进行比较来检测这些。如果测试需要更多的时间来运行,那么该进程将被终止并将突变标记为超时。pitest报告警

java - jsontostructs 到 spark 结构化流中的行

我正在使用Spark2.2,我正在尝试从Kafka读取JSON消息,将它们转换为DataFrame并将它们作为Row:spark.readStream().format("kafka").option("kafka.bootstrap.servers","localhost:9092").option("subscribe","topic").load().select(col("value").cast(StringType).as("col")).writeStream().format("console").start();有了这个我可以实现:+-----------------

java - jMeter Slave - 服务器启动失败 : java. rmi.RemoteException : Cannot start. ip-10-142-111-66 is a loopback address

我创建了一个准系统ec2ubuntu服务器,仅使用以下hte安装了jmeter..sudoapt-getinstalljmeter此服务器被设计为奴隶。当我运行sudojmeter-server时,出现以下错误。这个错误让我无处可去,因为它是一个简单的ubuntu服务器,据我所知,jmeterapt-getinstall安装了所有依赖项。我看过这篇文章,但仍然含糊其辞地解决了这个问题。JMeter-Loopbackaddresserrorwhenlaunchingjmeter-serveronLinuxsudojmeter-server[warning]/usr/bin/jmeter:

java - Spark : driver/worker configuration. 驱动程序是否在主节点上运行?

我在AWS上启动一个spark集群,有一个master和60个核心:下面是启动的命令,基本上每个核心2个executor,一共120个executor:spark-submit--deploy-modecluster--masteryarn-cluster--driver-memory180g--driver-cores26--executor-memory90g--executor-cores13--num-executors120然而,在作业跟踪器中,只有119个执行程序:我认为应该有1个驱动程序+120个工作执行程序。但是,我看到的是119个executor,其中包括1个driv

java - Spark SQL 失败,因为 "Constant pool has grown past JVM limit of 0xFFFF"

我在EMR4.6.0+Spark1.6.1上运行这段代码:valsqlContext=SQLContext.getOrCreate(sc)valinputRDD=sqlContext.read.json(input)try{inputRDD.filter("`first_field`isnotnullOR`second_field`isnotnull").toJSON.coalesce(10).saveAsTextFile(output)logger.info("DONE!")}catch{casee:Throwable=>logger.error("ERROR"+e.getMessa

java - 尝试在 Spark DataFrame 上使用 map

我最近开始尝试使用Spark和Java。我最初使用RDD完成了著名的WordCount示例,一切都按预期进行。现在我正在尝试实现我自己的示例,但使用的是DataFrames而不是RDD。所以我正在从文件中读取数据集DataFramedf=sqlContext.read().format("com.databricks.spark.csv").option("inferSchema","true").option("delimiter",";").option("header","true").load(inputFilePath);然后我尝试选择一个特定的列并对每一行应用一个简单的转换

java - 合并两个在 Apache spark 中具有不同列名的数据集

我们需要合并两个具有不同列名的数据集,数据集之间没有公共(public)列。我们尝试了几种方法,两种方法都没有产生结果。请告诉我们如何使用ApachesparkJava合并两个数据集输入数据集1"405-048011-62815","CRCIndustries","630-0746","Dixonvalue","4444-444","3MINdustries","555-55","Dixoncouplingvalve"输入数据集2"222-2222-5555","Tata","7777-88886","WestSide","22222-22224","Reliance","33333-

java - 线程主java.lang.exceptionininitializerError中的异常在没有hadoop的情况下安装spark

我正在尝试安装spark2.3.0,更具体地说,它是spark-2.3.0-bin-hadoppo2.7'D:\spark\bin'已经添加到环境变量PATH中。同时,安装了JDK-10。未安装Hadoop。但是谷歌说spark可以在没有hadoop的情况下工作。这是错误信息C:\Users\a>spark-shellExceptioninthread"main"java.lang.ExceptionInInitializerErroratorg.apache.hadoop.util.StringUtils.(StringUtils.java:80)atorg.apache.hadoo