jjzjj

fileSystem

全部标签

scala - 在 Scala 中从 HDFS 返回路径

我想返回文件的路径,我在其中提供了一个文件夹并在该文件夹中搜索“部分”文件。deflistDirectoriesGetPartFile(folderPath:String):org.apache.hadoop.fs.Path{valpath=newPath(folderPath)if(fileSystem.isDirectory(path)){valst=fileSystem.listStatus(path)for(i我想返回part-xxx文件。我怎样才能实现它? 最佳答案 这里有几个选项(按照符合Scala习惯用法的升序排列)。

apache-spark - 提供者 org.apache.hadoop.fs.s3a.S3AFileSystem 无法实例化

我正在尝试将模型学习从我的SparkStandalone集群保存到S3。但是我有这个错误:java.util.ServiceConfigurationError:org.apache.hadoop.fs.FileSystem:Providerorg.apache.hadoop.fs.s3a.S3AFileSystemcouldnotbeinstantiatedatjava.util.ServiceLoader.fail(ServiceLoader.java:232)atjava.util.ServiceLoader.access$100(ServiceLoader.java:185)a

hadoop - 文件系统 listStatus 抛出 NullPointerException

我正在尝试列出HDFS中存在的目录的内容。我尝试了以下代码:publicstaticvoidmain(String[]args)throwsIOException{Stringuri=args[1];Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(URI.create(uri),conf);for(inti=0;i但是我遇到了一个异常(exception):Exceptioninthread"main"java.lang.NullPointerExceptionatorg.apache.hadoop.fs

scala - 使用 Spark Streaming 从 http 创建分析

您好,我的要求是从http://10.3.9.34:9900/messages创建分析,即从http://10.3.9.34:9900/messages并将此数据放在HDFS位置/user/cloudera/flume并使用Tableau或HUEUI从HDFS创建分析报告。我在CDH5.5的spark-shell的scala控制台中尝试使用以下代码,但无法从http链接获取数据importorg.apache.spark.SparkContextvaldataRDD=sc.textFile("http://10.3.9.34:9900/messages")dataRDD.collect

java - ApacheSpark从http来源(例如csv等)读取数据帧

我很难从http源(例如csv,...)读取ApacheSparkDataFrame。HDFS和本地文件有效。通过使用以下命令启动spark-shell,还设法使AWSS3正常运行:spark-shell--packagesorg.apache.hadoop:hadoop-core:1.2.1然后像这样更新hadoopconf:valhadoopConf=sc.hadoopConfigurationhadoopConf.set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")hadoopConf.set("

java - hadoop中目录存在检查结果NPE

我正在尝试验证给定路径是HDFS中的目录或文件,但它会在fs.getFileStatus(path).isDir()行产生NPE。我不明白这里有什么问题,即使我验证了不为空的路径。publicstaticclassRegexExcludePathFilterextendsConfiguredimplementsPathFilter{privateStringpath;Stringpatterns="hdfs://localhost:9100/user/input-new/ncdc/filterdata/2007.[0-1]?[0-2].[0-9][0-9].txt";Configura

java - Hadoop - UnsupportedOperationException : Not implemented by the DistributedFileSystem

当我导出到jar文件并在Hadoop节点上运行时,我在eclipse项目中有以下代码StringhdrsUrl="hdfs://servername:8020";Configurationconf=newConfiguration();conf.set("fs.defaultFS",hdrsUrl);FileSystemfs=FileSystem.get(conf);我收到以下错误15/04/1708:21:43WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin

hadoop - NameNode启动错误: No FileSystem for scheme: ht

我在HDP2.6中。当我尝试启动NameNode时,出现以下错误:java.io.IOException:NoFileSystemforscheme:httpatorg.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2786)atorg.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2793)atorg.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:99)当我尝试hdf

java - Cloudera Quickstart VM illegalArguementException : Wrong FS: hdfs: expected: file:

我有一个简单的java代码可以将一个文本文件从本地复制到hdfs。我正在使用cloudera的quickstart虚拟机。Configurationconf=newConfiguration();conf.addResource(newPath("/etc/hadoop/conf/core-site.xml"));conf.addResource(newPath("/etc/hadoop/conf/hdfs-site.xml"));FileSystemfs=FileSystem.get(conf);fs.copyFromLocalFile(newPath("/home/cloudera

java - 如何计算 MR 作业中 HDFS 中的文件数?

就此而言,我是Hadoop和Java的新手。我正在尝试从我正在编写的MapReduce驱动程序计算HDFS上文件夹中的文件数。我想在不调用HDFSShell的情况下执行此操作,因为我希望能够传入我在运行MapReduce作业时使用的目录。我尝试了很多方法,但由于我对Java的经验不足,都没有成功实现。如有任何帮助,我们将不胜感激。谢谢,游牧。 最佳答案 您可以只使用文件系统并遍历路径内的文件。这是一些示例代码intcount=0;FileSystemfs=FileSystem.get(getConf());booleanrecurs