AVRO_JJZJJ

logging - 使用 Flume Avro 的日志数据未正确存储在 Hive 中

我使用Flume1.5.0从应用程序服务器收集日志。假设我有三个App服务器，App-A、App-B、App-C。运行配置单元的一个HDFS服务器。现在水槽代理在所有3个应用服务器上运行，并将日志消息从应用服务器传递到Hdfs服务器，其中另一个水槽代理正在运行，最后日志存储在hadoop文件系统中。现在我已经创建了一个外部Hive表来映射这些日志数据。但是除了hive无法正确解析日志数据并存储在表中之外，一切都运行顺利。这是我的Flume和Hive配置:虚拟日志文件格式(|分隔):ClientId|AppRequest|URL应用服务器上的Flumeconf:app-agent.sou

oracle - Nifi 中的 ExecuteSQL 处理器以 avro 格式返回数据

刚开始使用ApacheNifi。我正在尝试从oracle获取数据并将其放在HDFS中，然后在其之上构建一个外部配置单元表。问题是ExecuteSQL处理器以avro格式返回数据。无论如何，我能以可读的格式获取这些数据吗？最佳答案 apachenifi还有一个“ConvertAvroToJSON”处理器。这可能会帮助您将其转换为可读格式。我们还真的需要让我们的内容查看器能够很好地呈现avro数据，这也会有所帮助。谢谢乔关于oracle-Nifi中的ExecuteSQL处理器以avro格

ExecuteSQL oracle section stackoverflow hadoop bigdata apache-nifi avro

amazon-web-services - AWS Glue - Avro snappy 压缩读取错误 - HIVE_CANNOT_OPEN_SPLIT : Error opening Hive split

在使用AWSGlue在S3中使用snappy压缩(gzip/bzip2压缩也有同样的错误)保存Avro文件后，当我尝试使用AWSCrawler读取athena中的数据时，我收到以下错误-HIVE_CANNOT_OPEN_SPLIT:打开Hive时出错拆分-使用org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat:不是数据文件。知道为什么我会收到此错误以及如何解决吗？最佳答案谢谢。通过在执行期间将原生sparkavrojar文件附加到胶水作业并使用原生spark读/写

HIVE_CANNOT_OPEN_SPLIT amazon-web-services section spark hadoop pyspark aws-glue

hadoop - 实时数据集成 Kafka、Hadoop、Avro、HDFS是如何组合在一起的，数据集成有哪些架构

我正在尝试了解实时数据集成的架构以及所有部分如何组合在一起。我尝试在互联网上进行研究，但找不到好的资源。谁能解释一下如何使用例如hadoopkafka和其他组件进行实时数据集成。如果可能，您能否提供使用实时数据集成的位置。任何用例。如果您知道任何资源/教程，如果您分享它们，我将非常高兴提前致谢最佳答案如果我可以谦虚地提供我在这方面所做的两次谈话。从概念上讲，关于实时集成我们可以做些什么以及为什么这样做:https://talks.rmoff.net/said0W/the-changing-face-of-etl-event-dr

hadoop section https apache-kafka-and-ksql-in-action-l apache-kafka hdfs avro data-integration

api - 是否可以将 Avro 与 Hadoop 0.20 一起使用？

我对使用Avro在HadoopHDFS中保存和读取文件很感兴趣，我在Hadoop问题跟踪器中看到了一些关于实现对Avro的支持的Jira，但没有关于如何在Hadoop中启用Avro支持的示例。此外，我不完全确定当前的0.20是否支持Avro，因为一些Jira已为0.21关闭。是否有可能获得最新的0.21并以某种方式结束打开Avro并使用它？最佳答案这篇博文展示了一些在Map/Reduce作业中使用Avro的示例代码:http://www.datasalt.com/2011/07/hadoop-avro/那里没有很多例子。在这里，

Hadoop Avro section 自定 api hdfs

java - 如何使用 newAPIHadoopFile 在 spark 中读取 avro 文件？

我正在尝试在spark作业中读取Avro文件。我的spark版本是1.6.0(spark-core_2.10-1.6.0-cdh5.7.1)。这是我的java代码:JavaSparkContextsc=newJavaSparkContext(newSparkConf().setAppName("ReadAvro"));JavaPairRDDlines=sc.newAPIHadoopFile(args[0],AvroKeyValueInputFormat.class,AvroKey.class,AvroValue.class,newConfiguration());但是我得到一个编译时异

newAPIHadoopFile spark code class section java hadoop apache-spark

hadoop - 带有 avro 记录的 Kafka

我有以下内容:来源-kafka主题(翻译)channel-内存接收器-Hdfs(avro_event)kafkatopictrans中的数据是用c#producer写的，有上千条avro记录。当我运行我的水槽消费者时，它开始将数据接收到hdfs。问题是数据的格式是:schema数据图式数据代替:架构数据数据我猜这是因为flume期望记录类型为{header}{body}而来自kafka的数据只是{body}我知道有一种方法可以将写入主题的avro数据包装在avroFlumeEvent中，但它似乎不再是真正的avro记录，也许spark消费者或Storm会更喜欢真正的avro中的数据.有

hadoop Kafka 34 avro 水槽 hadoop-streaming apache-kafka flume

java - PIG : Cannot cast java. lang.String to org.apache.avro.util.Utf8 with AvroStorage inside STORE

我正在使用ApachePIG来减少最初以CSV格式存储的数据，并希望以Avro格式输出。我的PIG脚本的一部分调用了一个javaUDF，它将一些字段附加到输入元组并将修改后的元组传回。执行此操作时，我正在修改输出、PIG、架构:SchemaoutSchema=newSchema(input).getField(1).schema;SchemarecSchema=outSchema.getField(0).schema;recSchema.add(newFieldSchema("aircrafttype",DataType.CHARARRAY));在我的UDF的publicSchem

java AvroStorage code 34 section hadoop apache-pig avro

python - 使用 python 流解析从 org.apache.avro.mapred.AvroAsTextInputFormat 生成的 json 字符串

在使用python读取avro数据文件的hadoop流中，我使用的是输入格式，文档说输入键是JSON中的字符串表示。-inputformatorg.apache.avro.mapred.AvroAsTextInputFormat映射器将其作为行输入获取:line="{u'three':u'3',u'two':u'2',u'one':u'1'}"我如何解析这个字符串，以获得键值对？最佳答案我想这就是你需要的:>>>line="{u'three':u'3',u'two':u'2',u'one':u'1'}">>>line"{u'th

python AvroAsTextInputFormat 39 section gt json hadoop

hadoop - 为什么我的 pig 作业中我的 avro 输出文件如此之小而如此之多？

我正在运行一个执行一系列连接并使用AvroStorage()编写的pig脚本一切运行良好，我得到了我想要的数据……但它被写入了845个avro文件(每个约30kb)。这似乎根本不对......但我似乎找不到任何我可能已经更改的设置，从我以前的1大avro输出到845小avros(除了添加另一个数据源)。这会改变什么吗？我怎样才能把它恢复到一个或两个文件？谢谢! 最佳答案一种可能性是更改您的block大小。如果你想回到less文件，你也可以尝试使用parquet。通过pig脚本转换您的.avro文件并将其存储为.parquet文件，

hadoop avro section stackoverflow apache-pig