jjzjj

Dataproc

全部标签

hadoop - 如何从机器内部在 google cloud dataproc 上运行配置单元?

我刚刚创建了一个谷歌云数据处理集群。一些基本的东西对我不起作用:我正在尝试从主节点运行Hive控制台,但它无法加载除root以外的任何用户(看起来有锁,控制台只是卡住了)。但即使在使用root时,我也会看到一些奇怪的行为:“显示表格;”显示名为“输入”的表查询该表会引发一个异常,表示未找到该表。不清楚哪个用户正在通过网络用户界面创建表格。我创建了一个作业并执行了它,但随后没有通过控制台看到结果。找不到关于此的任何好的文档-有人对此有想法吗? 最佳答案 由于默认的Metastore配置,目前运行hive命令有些问题。我建议您使用bee

hadoop - 在 Google Cloud Dataproc 环境中使用 Hadoop 流运行 python map reduce 作业时出错

我想使用hadoop流方法在GoogleCloudDataproc中运行pythonmapreduce作业。我的mapreducepython脚本、输入文件和作业结果输出位于Google云存储中。我试着运行这个命令hadoopjar/usr/lib/hadoop-mapreduce/hadoop-streaming.jar-filegs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py-mappergs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py-filegs://buck

hadoop - 无法在 Google Cloud Dataproc 上启动 Apache Flink 1.7

我使用Hadoop2.9.2启动了Dataproc集群,下载了Flink1.7.2并尝试使用以下命令启动它:./bin/yarn-session.sh-n2失败并显示以下错误消息:SettingHADOOP_CONF_DIR=/etc/hadoop/confbecausenoHADOOP_CONF_DIRwasset.2019-02-1512:56:05,679INFOorg.apache.flink.configuration.GlobalConfiguration-Loadingconfigurationproperty:jobmanager.rpc.address,localho

apache-spark - 在 Google dataproc HDFS 与谷歌云存储(谷歌桶)中存储源文件

我想处理~500GB的数据,分布在64个JSON文件中,每个文件包含500万条记录。基本上,Map(Pyspark)在每条300M记录上运行。为了测试我的PySparkmap功能,我设置了一个googleDataproc集群(1master5workers只测试一个JSON文件)。此处的最佳做法是什么?我应该复制主节点中的所有文件(以便在Dataproc中使用Hadoop分布式文件系统)还是将文件保存在我的GCS存储桶中并将文件位置指向我的Pyspark中是否同样有效?我的代码还导入了​​相当多的外部模块,我已将这些模块复制到我的master中,并且在master中导入工作正常。将它复

hadoop - 如何在使用 Google Cloud Dataproc 启动的 Spark 集群中启用 Snappy 编解码器支持?

尝试从使用GoogleCloudDataproc启动的Spark集群读取Snappy压缩序列文件时,我收到以下警告:java.lang.RuntimeException:nativesnappylibrarynotavailable:thisversionoflibhadoopwasbuiltwithoutsnappysupport.在此上下文中启用Snappy编解码器支持的最佳方法是什么? 最佳答案 遗憾的是,Dataproc的启动图像是在没有Snappy支持的情况下构建的。我已经打开了一个错误来为下一张图片修复这个问题。解决方法

hadoop - 如何使用谷歌云将文件从 Dataproc 中的 GCS 存储桶复制到 HDFS?

我已将数据文件上传到我在Dataproc中的项目的GCS存储桶。现在我想将该文件复制到HDFS。我该怎么做? 最佳答案 对于单个“小”文件您可以使用hdfs将单个文件从Google云存储(GCS)复制到HDFS复制命令。请注意,您需要从集群中的一个节点运行它:hdfsdfs-cpgs:///这是有效的,因为hdfs://是默认的文件系统。如果需要,您可以显式指定方案和NameNode:hdfsdfs-cpgs:///hdfs:///请注意,GCS对象使用gs:方案。路径应与使用gsutil时的路径相同.对于“大”文件或大文件目录当您

hadoop - 如何在 dataproc 集群上重启 hadoop 服务

我可能使用了错误的术语进行搜索,但谷歌并未告诉我如何执行此操作。问题是如何在更改一些配置文件(yarn属性等)后在Dataproc上重启hadoop服务?服务必须在整个集群中按特定顺序重新启动。必须有脚本或工具,希望在Dataproc安装中,我可以调用它们来重启集群。 最佳答案 配置属性是一个常见且得到良好支持的用例。您可以通过clusterproperties执行此操作,不需要重启守护进程。示例:dataproc集群创建my-cluster--propertiesyarn:yarn.resourcemanager.client.t

python-2.7 - Pyspark 应用程序仅部分利用 dataproc 集群资源

我的pyspark应用程序在106,36MB数据集(817.270条记录)上运行UDF,使用常规pythonlambda函数需要大约100小时。我生成了一个GoogleDataproc集群,其中包含20个工作节点,每个节点有8个vCPU。但是,执行时总共只使用了3个节点和3个vCPU。显然,我希望集群使用我提供的所有资源。我生成的数据帧的默认分区数是8。我尝试将其重新分区为100,但集群仍然只使用3个节点和3个vCPU。另外,当我运行一个命令来检查spark看到的执行者数量时,它只有3个。这是执行的pyspark代码:frompyspark.sql.typesimportStringT

hadoop - 如何在 Dataproc 集群启动时自动安装 Python 库?

如何在Dataproc集群启动时自动在我的Dataproc集群上安装Python库?这将使我省去手动登录到主节点和/或工作节点以手动安装我需要的库的麻烦。如果知道此自动安装是否可以仅在主服务器上而不是worker上安装东西,那就太好了。 最佳答案 初始化操作是执行此操作的最佳方式。初始化操作是在创建集群时运行的shell脚本。这将使您可以自定义集群,例如安装Python库。这些脚本必须存储在GoogleCloudStorage中,并且可以在通过GoogleCloudSDK或GoogleDevelopersConsole创建集群时使用

hadoop - 自动设置 Dataproc 集群后,Yarn/Spark 的内存分配不正确

我正在尝试在Dataproc集群上运行Spark作业,但由于Yarn配置错误,Spark无法启动。从shell运行“spark-shell”时(在本地主机上),以及通过web-GUI和本地计算机上的gcloud命令行实用程序上传作业时,我收到以下错误:15/11/0821:27:16ERRORorg.apache.spark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:Requiredexecutormemory(38281+2679MB)isabovethemaxthres