jjzjj

DataFrameWriter

全部标签

scala - Spark : what options can be passed with DataFrame. saveAsTable 或 DataFrameWriter.options?

开发人员和API文档均未包含有关可以在DataFrame.saveAsTable或DataFrameWriter.options中传递哪些选项的任何引用,它们会影响Hive的保存table。我希望在这个问题的答案中,我们可以汇总有助于Spark开发人员的信息,他们希望更好地控制Spark保存表的方式,并可能为改进Spark的文档提供基础。 最佳答案 您在任何地方都看不到options文档的原因是它们是特定于格式的,开发人员可以使用一组新的options继续创建自定义写入格式。但是,对于少数支持的格式,我列出了spark代码本身提到的

mysql - Pyspark DataFrameWriter jdbc 函数的忽略选项是忽略整个事务还是只忽略有问题的行?

PysparkDataFrameWriter类有一个jdbcfunction用于将数据框写入sql。这个函数有一个--ignore选项,文档说将:Silentlyignorethisoperationifdataalreadyexists.但是它会忽略整个事务,还是只会忽略插入重复的行?如果我将--ignore与--append标志结合起来会怎样?行为会改变吗? 最佳答案 mode("ingore")如果表(或另一个接收器)已经存在并且写入模式无法组合,则只是NOOP。如果您要查找类似INSERTIGNORE或INSERTINTO.

apache-spark - dataFrameWriter partitionBy 是否打乱数据?

我以一种方式对数据进行了分区,我只想以另一种方式对其进行分区。所以它基本上是这样的:sqlContext.read().parquet("...").write().partitionBy("...").parquet("...")我想知道这是否会触发随机播放或所有数据都将在本地重新分区,因为在这种情况下,分区意味着只是HDFS中的一个目录,来自同一分区的数据不必位于同一节点上写在HDFS的同一个目录中。 最佳答案 parititionBy和bucketBy都不会打乱数据。但在某些情况下,首先重新分区数据可能是个好主意:df.rep