jjzjj

hadoop - 如何将外部创建的 ORC 文件加载到存储为 ORC 的 HIVE 表中?

我创建了一个存储为ORC的托管配置单元表,当加载.txt文件时它工作正常,但是我无法将ORC文件加载到该表中。与分隔符有什么关系吗?还是我错过了什么? 最佳答案 下面的代码对我有用,同时将HDFS中存在的ORC文件加载到配置单元表中。在hive中创建一个表。createtableMyDB.TEST(Col1String,Col2String,Col3String,Col4String)STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'OUTPUTF

hadoop - ORC 或 Parquet 格式的灵活架构?

我的Java应用程序使用实时数据,然后发布到S3上的ORC文件问题在于,在我们处理所有记录之前,我们不知道文件的模式,而不是第一个记录例如:消息1具有属性A和B消息2具有属性A、B和C消息3具有属性A和C因为这是一个实时应用程序,所以我不希望处理所有消息来计算架构,因为那样会很慢是否可以在我们处理数据时添加到架构中?我看过Java示例here但我没有办法Parquet在这里会更好吗? 最佳答案 我认为您可能正试图在方孔中安装圆钉。听起来您正在摄取具有未知架构的事件流,并且您希望以针对已知架构优化的格式存储它。我想您可以在跟踪模式的同

hadoop - Impala 的 ORC 文件格式

ORC文件格式可以在Impala中使用吗?还有如何访问存储在Impala中的hivemetastore中的ORC表。在文档链接下方找到,但它不包含任何受限制的文件格式列表或提及impala不支持的ORC:http://www.cloudera.com/documentation/enterprise/latest/topics/impala_file_formats.html 最佳答案 Impala不支持ORC。相反,ApacheParquet是获得最佳性能的推荐格式。 关于hadoop

apache-spark - 压缩ORC或parquet有什么好处

ORC和Parquet文件本身(没有其他压缩选项,如snappy)具有压缩效果(相同的数据加载到parquet文件中会比文本文件小很多),所以我会问是否需要指定压缩选项像snappy进一步压缩ORC和parquet文件,因为这些文件存储为二进制文件,也许压缩效果对二进制数据没有那么大。更新:我尝试了一个306M的文本文件,然后文字:306MParquet:323MParquet+snappy:50M从测试结果来看,parquet本身是没有压缩的,比text还要大(不知道什么原因),parquet+snappy的压缩效果很高。 最佳答案

hadoop - HIVE中如何提高从非分区表加载数据到ORC分区表的性能

我是Hive查询的新手,我正在寻找从Hive表中检索数据的最佳实践。我们启用了TeZ执行引擎并启用了矢量化。我们想从Hive表进行报告,我从TEZ文档中读到它可以用于实时报告。场景来self的WEB应用程序,我想在UI上显示HiveQuerySelect*fromHive表的结果,但是对于任何查询,在hive命令提示符中至少需要20-60秒,即使hive表有60GB数据。1)谁能告诉我如何通过查询Hive表来显示实时报告并在10-30秒内立即在UI上显示结果2)我们发现的另一个问题是,当我们将未分区表中的数据转储到ORC时,最初我们有一个未分区表指向HDFS中的一个Blob/文件,它的

java - 如何根据大小拆分 ORC 文件?

我有一个要求,我想将5GBORC文件拆分为5个文件,每个文件大小为1GB。ORC文件是可拆分的。这是否意味着我们只能逐条分割文件?但我有要求根据大小拆分orc文件。例如,将5GBORC文件拆分为5个文件,每个文件大小为1GB。如果可能,请分享示例。 最佳答案 一种常见的方法,考虑到您的文件大小可以是5GB、100GB、1TB、100TB等。您可能希望挂载一个指向该文件的Hive表并定义一个指向不同目录的另一个表,然后运行一个使用insert从一张表插入另一张表Hive提供的声明。在脚本的开头,确保您具有以下Hive标志:sethiv

java - 无法在 Spark 中配置 ORC 属性

我正在使用Spark1.6(Cloudera5.8.2)并尝试了以下方法来配置ORC属性。但不影响输出。下面是我试过的代码片段。DataFramedataframe=hiveContext.createDataFrame(rowData,schema);dataframe.write().format("orc").options(newHashMap(){{put("orc.compress","SNAPPY");put("hive.exec.orc.default.compress","SNAPPY");put("orc.compress.size","524288");put("

java - 如何附加ORC文件

我们有一个要求,我们需要在其中添加ORC文件。我试图谷歌它但没有结果。ORC的org.apache.hadoop.hive.ql.io.orc.WriterImpl也没有附加API。无论如何要附加ORC文件吗?(更具体地使用JAVA) 最佳答案 ORC数据文件分割为独立的strip;每个strip都在一个原子步骤中创建。参见theofficialdocumentation了解详情。我不相信您可以即时直接附加到现有文件。这意味着在写入时作业崩溃时留下损坏的strip(因此是损坏的文件)。但是你可以创建一个新的ORC数据文件(它将包含1

java - 在 Java 中读取 ORC 文件

如何用Java读取ORC文件?我想读入一个小文件以进行一些单元测试输出验证,但找不到解决方案。 最佳答案 最近遇到了这个并自己实现了一个importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.hive.ql.io.orc.OrcFile;importorg.apache.hadoop.hive.ql.io.orc.Reader;importorg.apache.hadoop.hive.ql.io.orc.RecordReader;importorg.apache.hadoop.

scala - 直接从 Spark shell 读取 ORC 文件

我在直接从Sparkshell读取ORC文件时遇到问题。注意:运行Hadoop1.2,和Spark1.2,使用pysparkshell,可以使用spark-shell(运行scala)。我用过这个资源http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.2.4/Apache_Spark_Quickstart_v224/content/ch_orc-spark-quickstart.html.frompyspark.sqlimportHiveContexthiveCtx=HiveContext(sc)inputRead=sc.hadoop