Dataproc_JJZJJ

hadoop - 如何从机器内部在 google cloud dataproc 上运行配置单元？

我刚刚创建了一个谷歌云数据处理集群。一些基本的东西对我不起作用:我正在尝试从主节点运行Hive控制台，但它无法加载除root以外的任何用户(看起来有锁，控制台只是卡住了)。但即使在使用root时，我也会看到一些奇怪的行为:“显示表格；”显示名为“输入”的表查询该表会引发一个异常，表示未找到该表。不清楚哪个用户正在通过网络用户界面创建表格。我创建了一个作业并执行了它，但随后没有通过控制台看到结果。找不到关于此的任何好的文档-有人对此有想法吗？最佳答案由于默认的Metastore配置，目前运行hive命令有些问题。我建议您使用bee

hadoop - 在 Google Cloud Dataproc 环境中使用 Hadoop 流运行 python map reduce 作业时出错

我想使用hadoop流方法在GoogleCloudDataproc中运行pythonmapreduce作业。我的mapreducepython脚本、输入文件和作业结果输出位于Google云存储中。我试着运行这个命令hadoopjar/usr/lib/hadoop-mapreduce/hadoop-streaming.jar-filegs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py-mappergs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py-filegs://buck

时出 Dataproc intro_to_mapreduce mapreduce bucket-name hadoop google-cloud-platform hadoop-streaming google-cloud-dataproc

hadoop - 无法在 Google Cloud Dataproc 上启动 Apache Flink 1.7

我使用Hadoop2.9.2启动了Dataproc集群，下载了Flink1.7.2并尝试使用以下命令启动它:./bin/yarn-session.sh-n2失败并显示以下错误消息:SettingHADOOP_CONF_DIR=/etc/hadoop/confbecausenoHADOOP_CONF_DIRwasset.2019-02-1512:56:05,679INFOorg.apache.flink.configuration.GlobalConfiguration-Loadingconfigurationproperty:jobmanager.rpc.address,localho

Dataproc hadoop java URLClassLoader ClassLoader apache-flink google-cloud-dataproc

apache-spark - 在 Google dataproc HDFS 与谷歌云存储(谷歌桶)中存储源文件

我想处理~500GB的数据，分布在64个JSON文件中，每个文件包含500万条记录。基本上，Map(Pyspark)在每条300M记录上运行。为了测试我的PySparkmap功能，我设置了一个googleDataproc集群(1master5workers只测试一个JSON文件)。此处的最佳做法是什么？我应该复制主节点中的所有文件(以便在Dataproc中使用Hadoop分布式文件系统)还是将文件保存在我的GCS存储桶中并将文件位置指向我的Pyspark中是否同样有效？我的代码还导入了相当多的外部模块，我已将这些模块复制到我的master中，并且在master中导入工作正常。将它复

歌云 apache-spark section strong 中运 hadoop pyspark google-cloud-storage google-cloud-dataproc

hadoop - 如何在使用 Google Cloud Dataproc 启动的 Spark 集群中启用 Snappy 编解码器支持？

尝试从使用GoogleCloudDataproc启动的Spark集群读取Snappy压缩序列文件时，我收到以下警告:java.lang.RuntimeException:nativesnappylibrarynotavailable:thisversionoflibhadoopwasbuiltwithoutsnappysupport.在此上下文中启用Snappy编解码器支持的最佳方法是什么？最佳答案遗憾的是，Dataproc的启动图像是在没有Snappy支持的情况下构建的。我已经打开了一个错误来为下一张图片修复这个问题。解决方法

何在 Dataproc code section snappy hadoop apache-spark google-cloud-platform google-cloud-dataproc

hadoop - 如何使用谷歌云将文件从 Dataproc 中的 GCS 存储桶复制到 HDFS？

我已将数据文件上传到我在Dataproc中的项目的GCS存储桶。现在我想将该文件复制到HDFS。我该怎么做？最佳答案对于单个“小”文件您可以使用hdfs将单个文件从Google云存储(GCS)复制到HDFS复制命令。请注意，您需要从集群中的一个节点运行它:hdfsdfs-cpgs:///这是有效的，因为hdfs://是默认的文件系统。如果需要，您可以显式指定方案和NameNode:hdfsdfs-cpgs:///hdfs:///请注意，GCS对象使用gs:方案。路径应与使用gsutil时的路径相同.对于“大”文件或大文件目录当您

歌云 Dataproc code section hdfs hadoop google-cloud-dataproc

hadoop - 如何在 dataproc 集群上重启 hadoop 服务

我可能使用了错误的术语进行搜索，但谷歌并未告诉我如何执行此操作。问题是如何在更改一些配置文件(yarn属性等)后在Dataproc上重启hadoop服务？服务必须在整个集群中按特定顺序重新启动。必须有脚本或工具，希望在Dataproc安装中，我可以调用它们来重启集群。最佳答案配置属性是一个常见且得到良好支持的用例。您可以通过clusterproperties执行此操作，不需要重启守护进程。示例:dataproc集群创建my-cluster--propertiesyarn:yarn.resourcemanager.client.t

hadoop 何在 section code hadoop-yarn google-cloud-dataproc

python-2.7 - Pyspark 应用程序仅部分利用 dataproc 集群资源

我的pyspark应用程序在106,36MB数据集(817.270条记录)上运行UDF，使用常规pythonlambda函数需要大约100小时。我生成了一个GoogleDataproc集群，其中包含20个工作节点，每个节点有8个vCPU。但是，执行时总共只使用了3个节点和3个vCPU。显然，我希望集群使用我提供的所有资源。我生成的数据帧的默认分区数是8。我尝试将其重新分区为100，但集群仍然只使用3个节点和3个vCPU。另外，当我运行一个命令来检查spark看到的执行者数量时，它只有3个。这是执行的pyspark代码:frompyspark.sql.typesimportStringT

dataproc Pyspark customer_names customer section python-2.7 apache-spark hadoop google-cloud-dataproc

hadoop - 如何在 Dataproc 集群启动时自动安装 Python 库？

如何在Dataproc集群启动时自动在我的Dataproc集群上安装Python库？这将使我省去手动登录到主节点和/或工作节点以手动安装我需要的库的麻烦。如果知道此自动安装是否可以仅在主服务器上而不是worker上安装东西，那就太好了。最佳答案初始化操作是执行此操作的最佳方式。初始化操作是在创建集群时运行的shell脚本。这将使您可以自定义集群，例如安装Python库。这些脚本必须存储在GoogleCloudStorage中，并且可以在通过GoogleCloudSDK或GoogleDevelopersConsole创建集群时使用

何在 Dataproc section strong hadoop apache-spark google-cloud-platform google-cloud-dataproc

hadoop - 自动设置 Dataproc 集群后，Yarn/Spark 的内存分配不正确

我正在尝试在Dataproc集群上运行Spark作业，但由于Yarn配置错误，Spark无法启动。从shell运行“spark-shell”时(在本地主机上)，以及通过web-GUI和本地计算机上的gcloud命令行实用程序上传作业时，我收到以下错误:15/11/0821:27:16ERRORorg.apache.spark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:Requiredexecutormemory(38281+2679MB)isabovethemaxthres

不正 Dataproc code spark executor hadoop google-cloud-platform google-cloud-dataproc