jjzjj

Dataproc

全部标签

hadoop - 将 S3 连接器与 Cloud Dataproc 结合使用时出现 java.lang.VerifyError

我正在尝试使用S3connector与GoogleCloudDataproc我遇到了java.lang.VerifyError。这似乎发生在我没有修改过的全新集群上。这是一个例子:$hadoopfs-lss3:///Exceptioninthread"main"java.lang.VerifyError:Cannotinheritfromfinalclassatjava.lang.ClassLoader.defineClass1(NativeMethod)atjava.lang.ClassLoader.defineClass(ClassLoader.java:760)atjava.se

hadoop - 通过第三方工具的 Google Dataproc Hive 实例

这里需要你的帮助。我希望将我的GoogleDataprocHadoop/Hive实例与第三方工具连接起来,并从“ToadforHadoop”开始。这是一个好的选择吗?或者还有其他我可以使用的工具吗? 最佳答案 Dataproc默认运行HiveServer2服务器,如果您在ComputeEngine中适当设置防火墙规则(不要只对来自外部互联网的所有传入连接开放它!将它限制为您自己的IP地址'正在连接),任何第三方工具都可以正常连接。您可以通过云控制台GUI找到主主机名的外部IP地址。查看主节点上的/etc/hive/conf/hive

apache-spark - 由于 java.io.FileNotFoundException :/hadoop/yarn/nm-local-dir/usercache/root/appcache/,Google Dataproc 上的 Spark 失败

几个月来,我一直在通过Zeppelin和Dataproc控制台在Dataproc上使用Spark/Hadoop,但最近我遇到了以下错误。Causedby:java.io.FileNotFoundException:/hadoop/yarn/nm-local-dir/usercache/root/appcache/application_1530998908050_0001/blockmgr-9d6a2308-0d52-40f5-8ef3-0abce2083a9c/21/temp_shuffle_3f65e1ca-ba48-4cb0-a2ae-7a81dcdcf466(Nosuchfil

apache-spark - 具有太多可抢占节点的 Google dataproc spark 集群有时会挂起

当在只有2个不可抢占的工作节点和其他100~个可抢占节点的dataproc上运行spark集群时,我有时会得到一个完全不可用的集群,原因是太多的连接错误、数据节点错误、丢失的执行程序,但仍在跟踪心跳...总是出现这样的错误:18/08/0815:40:11WARNorg.apache.hadoop.hdfs.DataStreamer:ErrorRecoveryforBP-877400388-10.128.0.31-1533740979408:blk_1073742308_1487inpipeline[DatanodeInfoWithStorage[10.128.0.35:9866,DS

hadoop - 从 Dataproc 上的 MapReducer 映射器记录日志

我正在尝试退出在Dataproc上运行的映射器作业。遵循建议here,我简单地定义了一个log4j记录器并向它提供了信息:importorg.apache.log4j.Logger;publicclassSampleMapperextendsMapper{privateLoggerlogger=Logger.getLogger(SampleMapper.class);@Overrideprotectedvoidsetup(Contextcontext){logger.info("InitializingNoSQLConnection.")try{//logicforconnecting

hadoop - 创建dataproc集群时报告DataNodes数量不足

在使用gs://作为默认FS创建dataproc集群时,我收到“报告的DataNode数量不足”错误。下面是我正在使用dataproc集群的命令。gclouddataprocclusterscreatecluster-538f--image-version1.2\--bucketdataproc_bucket_test--subnetdefault--zoneasia-south1-b\--master-machine-typen1-standard-1--master-boot-disk-size500\--num-workers2--worker-machine-typen1-st

python-2.7 - Dataproc Pyspark 作业仅在一个节点上运行

我的问题是我的pyspark作业没有并行运行。代码和数据格式:我的PySpark看起来像这样(显然是经过简化的):classTheThing:def__init__(self,dInputData,lDataInstance):#...defdoes_the_thing(self):"""About0.01secondscalculationtimeperrow"""#...returnlProcessedData#containsinputdatapre-processedfromotherRDDs#donelikethisbecauseoneRDDcannotworkwithoth

scala - Tachyon on Dataproc Master 复制错误

我有一个在安装了Tachyon、Spark和Hadoop的Dataproc主节点上运行的简单示例。我在从Spark写入Tachyon时遇到复制错误。有没有办法指定它不需要复制?15/10/1708:45:21WARNorg.apache.hadoop.hdfs.DFSClient:DataStreamerExceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException):File/tmp/tachyon/workers/1445071000001/3/8couldonlybereplicatedto0nodesinst

hadoop - 在本地机器上运行 Dataproc BigQuery 示例

我正在尝试在本地计算机上运行连接器示例,但不断出现UnknownHostException。如何使用Hadoop连接器配置对BigQuery的访问?packagecom.mycompany.dataproc;importcom.google.cloud.hadoop.io.bigquery.BigQueryConfiguration;importcom.google.cloud.hadoop.io.bigquery.GsonBigQueryInputFormat;importcom.google.gson.JsonObject;importorg.apache.hadoop.conf.

hadoop - 在 Google Cloud Dataproc 中按顺序运行提交的作业

我使用n1-standard-4虚拟机为主节点和工作节点创建了包含2个工作节点的GoogleDataproc集群。我想在给定的集群上提交作业,所有作业都应该按顺序运行(就像在AWSEMR上一样),即,如果第一个作业处于运行状态,那么接下来的作业将进入待处理状态,在完成第一个作业后,第二个作业开始运行。我尝试在集群上提交作业,但它并行运行所有作业-没有作业进入挂起状态。是否可以在Dataproc集群中设置任何配置,以便所有作业按顺序运行?更新了以下文件:/etc/hadoop/conf/yarn-site.xmlyarn.resourcemanager.scheduler.classor