DataFrameWriter

scala - Spark : what options can be passed with DataFrame. saveAsTable 或 DataFrameWriter.options？

开发人员和API文档均未包含有关可以在DataFrame.saveAsTable或DataFrameWriter.options中传递哪些选项的任何引用，它们会影响Hive的保存table。我希望在这个问题的答案中，我们可以汇总有助于Spark开发人员的信息，他们希望更好地控制Spark保存表的方式，并可能为改进Spark的文档提供基础。最佳答案您在任何地方都看不到options文档的原因是它们是特定于格式的，开发人员可以使用一组新的options继续创建自定义写入格式。但是，对于少数支持的格式，我列出了spark代码本身提到的

mysql - Pyspark DataFrameWriter jdbc 函数的忽略选项是忽略整个事务还是只忽略有问题的行？

PysparkDataFrameWriter类有一个jdbcfunction用于将数据框写入sql。这个函数有一个--ignore选项，文档说将:Silentlyignorethisoperationifdataalreadyexists.但是它会忽略整个事务，还是只会忽略插入重复的行？如果我将--ignore与--append标志结合起来会怎样？行为会改变吗？最佳答案 mode("ingore")如果表(或另一个接收器)已经存在并且写入模式无法组合，则只是NOOP。如果您要查找类似INSERTIGNORE或INSERTINTO.

DataFrameWriter Pyspark code section mysql apache-spark jdbc apache-spark-sql

apache-spark - dataFrameWriter partitionBy 是否打乱数据？

我以一种方式对数据进行了分区，我只想以另一种方式对其进行分区。所以它基本上是这样的:sqlContext.read().parquet("...").write().partitionBy("...").parquet("...")我想知道这是否会触发随机播放或所有数据都将在本地重新分区，因为在这种情况下，分区意味着只是HDFS中的一个目录，来自同一分区的数据不必位于同一节点上写在HDFS的同一个目录中。最佳答案 parititionBy和bucketBy都不会打乱数据。但在某些情况下，首先重新分区数据可能是个好主意:df.rep

dataFrameWriter 打乱 section code partitionBy apache-spark hadoop apache-spark-sql hdfs partitioning