jjzjj

hadoop - 色调配置错误 -/etc/hue/conf.empty - 检测到潜在的错误配置

您好专家,我是Hadoop、linux环境和Cloudera的新手。我在我的机器上安装了clouderavm5.7,并使用SQOOP将mysql数据导入到hdfs。我正在尝试使用impala对这些数据执行一些查询。所以,我尝试启动HUE。当我启动时,我可以看到有一些配置错误。错误:检测到潜在的错误配置。修复并重新启动Hue。我已采取的解决此问题的步骤1)我使用以下命令重新启动了HUE:sudoservicehuestopsudo服务色调启动2)我尝试查看以下目录文件./etc/hue-我可以看到有两个配置文件夹。一个是config,另一个是config.empty。我无法弄清楚问题所在

hadoop - 基于部分HBase行创建RDD

我正在尝试根据HBase表中的数据创建RDD:valtargetRDD=sparkContext.newAPIHadoopRDD(hBaseConfig,classOf[TableInputFormat],classOf[ImmutableBytesWritable],classOf[Result]).map{case(key,row)=>parse(key,row)}parse为每个表行调用,不考虑对数据的进一步操作。是否可以仅检索具有匹配某些条件(即键在某些特定范围内)的特定键的行,以便仅对它们进行操作? 最佳答案 HBase是

amazon-web-services - 使用 Scala 读取 .aws/credentials 文件以获取来自 spark 的 hadoop conf 设置

我如何才能读取位于.aws目录下的credentials文件中的不同aws配置文件?只想让我的应用程序读取访问key和secret,如下所示,但不确定如何将这一点指向凭证文件。objectS3KeyStoreextendsSerializable{privatevalkeyMap=Map(String,S3Key)defload(key:String)(implicitsc:SparkContext)=keyMap.get(key)match{caseSome(k)=>valhc=sc.hadoopConfigurationhc.set("fs.s3a.awsAccessKeyId",

hadoop - 我们应该更改所有节点中 Hadoop 集群的主从配置文件吗?

我知道我们应该将主节点的IP地址放在conf/master文件中,并将所有从节点的IP地址放在conf/slaves文件中,每行一个。我的问题是我们应该只在主节点上这样做还是我们也应该在所有从节点上更改这两个文件?另外,如果我想让master节点同时做DataNode和TaskTracker,是不是也要把master的IP地址也写到slaves文件里? 最佳答案 conf/slaves,conf/master配置文件应该只在主节点上维护而不是在从节点上。conf/masters文件是用于指定secondarynamenode主机。s

hadoop - 是否可以在驱动程序中向 conf 对象添加属性?

我的MR工作是这样获得的:Jobjob=newJob(conf,"helloWorld");在conf上设置的任何值都可以跨节点使用。但我不确定以下是否有效:在MAP中conf.set("hello","world");在驱动程序中if(job.waitForCompletion(true)){System.out.println(conf.get("hello"));}在map/reduce阶段对conf所做的修改是否会在驱动程序中可见? 最佳答案 当您提交作业时,您还提供了配置,如您所说:Jobjob=newJob(conf,"

hadoop - 从 mapreduce 读取配置单元表

我目前正在编写一个mapreduce程序来查找两个配置单元表之间的差异。我的配置单元表按一列或多列进行分区。所以文件夹名称包含分区列的值。有没有办法读取hive分区表可以在mapper中读取吗? 最佳答案 由于底层HDFS数据将默认组织在分区的配置单元表中table/root/folder/x=1/y=1table/root/folder/x=1/y=2table/root/folder/x=2/y=1table/root/folder/x=2/y=2....,您可以在驱动程序中构建这些输入路径中的每一个,并通过多次调用FileIn

java - 是否可以在一个节点上运行多个映射器

我有KMeans代码,我的任务是计算加速比,我通过在我的uni集群中不同数量的节点上运行它来完成它。但是是否可以更改映射器和/或缩减器的数量,以便我可以在单个节点上运行时检查加速比的变化。在谷歌搜索时,我发现通过使用conf.setNumReduceTasks(2);我可以更改reducer的数量。但我没有看到我的输出有任何变化。(我的输出是以毫秒为单位的时间)。我使用的代码来自github:https://github.com/himank/K-Means/blob/master/src/KMeans.java虽然我根据自己的要求做了一些改动,但是主要功能是一样的。下面是main函数

hadoop dfs -copyFromLocal src dest

我的问题是为什么我们需要指定目标。我放到hdfs中的文件不一定完全在本地机器上,所以在命令中指定dest有什么用。当我通过命令lie运行命令然后执行hadoopdfs-ls时,我可以看到我的文件在hdfs中列出,但是当我使用以编程方式创建文件时FileSystemfs=FileSystem.get(conf);PathfilenamePath=newPath("hello.txt");fs.create(filenamePath);然后执行hadoopdfs-ls我找不到这个文件。在我的core-site.xml中,我有以下...hadoop.tmp.dir/home/apurv/ha

java - 错误 : java. io.IOException : wrong value class: class org. apache.hadoop.io.Text 不是类 Myclass

我的映射器和缩减器如下。但是我遇到了一些奇怪的异常。我不明白为什么会抛出这种异常。publicstaticclassMyMapperimplementsMapper{@Overridepublicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{Texttext=newText("someText")//processoutput.collect(text,infoObjeject);}}publicstaticclassMyReducerimplemen

python - spark 1.3.0、python、avro 文件、在 spark-defaults.conf 中设置的驱动程序类路径,但从属设备看不到

我正在使用带有python的spark1.3.0。我有一个使用以下命令读取avro文件的应用程序:conf=NonerddAvro=sc.newAPIHadoopFile(fileAvro,"org.apache.avro.mapreduce.AvroKeyInputFormat","org.apache.avro.mapred.AvroKey","org.apache.hadoop.io.NullWritable",KeyConverter="org.apache.spark.examples.pythonconverters.AvroWrapperToJavaConverter",