jjzjj

newAPIHadoopFile

全部标签

python - PySpark:使用 newAPIHadoopFile 从多行记录文本文件中读取、映射和减少

我正在尝试解决一个类似于thispost的问题.我的原始数据是一个文本文件,其中包含多个传感器的值(观测值)。每个观察都带有时间戳,但传感器名称只给出一次,而不是在每一行中给出。但是一个文件中有多个传感器。TimeMHist::852-YF-0072016-05-1000:00:0002016-05-0923:59:0002016-05-0923:58:0002016-05-0923:57:0002016-05-0923:56:0002016-05-0923:55:0002016-05-0923:54:0002016-05-0923:53:0002016-05-0923:52:0002

java - 如何在 Java 中使用 Spark 的 .newAPIHadoopFile()

我正在尝试在spark作业中读取lzo文件。我的spark版本是1.6.0(spark-core_2.10-1.6.0-cdh5.7.1)。这是我的java代码:JavaSparkContextsc=newJavaSparkContext(newSparkConf().setAppName("ReadLzo"));JavaPairRDDlines=sc.newAPIHadoopFile(args[0],LzoTextInputFormat.class,NullWritable.class,Text.class,newConfiguration());但是我得到一个编译时异常:Theme

scala - 使用 "newAPIHadoopFile"API 时出错

我正在编写以下代码,使用newAPIHadoopFileAPI将文件加载到Spark。vallines=sc.newAPIHadoopFile("new_actress.list",classOf[TextInputFormat],classOf[Text],classOf[Text])但是我收到以下错误:scala>vallines=sc.newAPIHadoopFile("new_actress.list",classOf[TextInputFormat],classOf[Text],classOf[Text]):34:error:inferredtypearguments[org

java - 如何使用 newAPIHadoopFile 在 spark 中读取 avro 文件?

我正在尝试在spark作业中读取Avro文件。我的spark版本是1.6.0(spark-core_2.10-1.6.0-cdh5.7.1)。这是我的java代码:JavaSparkContextsc=newJavaSparkContext(newSparkConf().setAppName("ReadAvro"));JavaPairRDDlines=sc.newAPIHadoopFile(args[0],AvroKeyValueInputFormat.class,AvroKey.class,AvroValue.class,newConfiguration());但是我得到一个编译时异

python - PySpark (Python) : loading multiline records via SparkContext. newAPIHadoopFile

我正在加载一个文本文件,该文件采用TSV(表格分隔值)表示法,但每行中都没有键。因此,一行表示一个特定变量,随后的所有行都是该变量的值,直到出现新变量。因此我使用自定义分隔符加载文件(在JupyterNotebookPython2.7-Pyspark中):sheet=sc.newAPIHadoopFile('sample.txt','org.apache.hadoop.mapreduce.lib.input.TextInputFormat','org.apache.hadoop.io.LongWritable','org.apache.hadoop.io.Text',conf={'te

hadoop - 如何设置newAPIHadoopFile的分区数?

“旧的”SparkContext.hadoopFile采用一个minPartitions参数,这是分区数量的提示:defhadoopFile[K,V](path:String,inputFormatClass:Class[_但是SparkContext.newAPIHadoopFile上没有这样的参数:defnewAPIHadoopFile[K,V,F事实上mapred.InputFormat.getSplits采用提示参数,但mapreduce.InputFormat.getSplits采用JobContext。通过新API影响拆分次数的方式是什么?我尝试在Configuration