jjzjj

使用Flume的Hive水槽时,蜂巢中的记录不完整

我想使用Flume将数据收集到Hive数据库。我将数据存储在蜂巢中,但是数据尚未完成。我想像以下内容一样插入记录:1201,Gopal1202,Manisha1203,Masthanvali1204,Kiran1205,Kranthi当我运行水槽时,HDFS中有Bucket_00000和Bucket_00000_flush_length(/user/hive/warehouse/test2.db/employee12/delta_0000501_0000600)。(数据库为test2,表名是雇员12)当我使用的时候select*fromemployee12“,如下所示:------------

hadoop - 我想在不同服务器上的水槽中读取日志文件

我想从flume中的不同服务器读取一个日志文件,它在一些不同的服务器上启动并运行......所以我如何通过更改我的flume-conf来实现这一点。properties文件.......我应该在flume的配置文件中写什么来实现这个......a1.sources=AspectJa1.channels=memoryChannela1.sinks=kafkaSinka1.sources.AspectJ.type=com.flume.MySourcea1.sources.AspectJ.command=tail-F/tmp/data/Log.txt为了实现这个我应该写什么来代替a1.sou

csv - 带水槽的 Unicode 字符

我正在尝试使用水槽将CSV文件放入HDFS,文件还包含一些unicode字符。文件在HDFS中后,我尝试查看内容,但无法正确查看记录。文件内容NameagesalmsgAbc211200Lukè éxample àppleXyz231400erstîgetûfmitgrôzer控制台输出我做了hdfsdfs-get/flume/events/csv/events.1234567下面是输出Name,age,sal,msgAbc,21,1200,Luk��xample��ppleXyz,23,1400,erst�get�fmitgr�zerflume支持Unicode字符吗?如果不是如何处

hadoop - 使用水槽的kafka channel 中的动态主题

是否有可能有一个带有动态主题的kafkachannel-比如可以在其中指定主题header的kafka接收器,或者可以在其中使用header中的值的HDFS接收器?我知道我可以多路复用以使用多个channel(具有一堆channel配置),但这是不可取的,因为我希望有一个动态HDFS接收器,而不是每个kafkachannel都有一个HDFS接收器。 最佳答案 我的理解是FlumeKafkachannel只能映射到单个主题,因为它同时生成和使用该特定主题的日志。查看Flume1.6.0的KafkaChannel.java中的代码,我可

hadoop - 如何提高水槽的性能

我正在通过flumesink将事件从flume发送到kafka主题....为此,我正在使用文件channel,但是在写入kafka时我的性能非常低,flumesink以每秒190msg的速度写入而水槽源正在以每秒3000条消息的速率将事件转储到channel....我想提高我的接收器性能......请帮助我如何实现......我已经尝试了各种配置....这是我的配置文件-----agent1.sources=AspectJagent1.channels=fileTailChannelagent1.sinks=APMNullSink#AspectJsourceagent1.sources

hadoop - 只有一个文件从带有水槽的kafka到hdfs

我正在尝试通过水槽将数据从kafka放入hdfs。kafka_producer每10秒发送一条消息。我会在hdfs上的一个文件中收集所有消息。这是我使用的flume配置,但它在hdfs上存储了很多文件(一个用于消息):agent1.sources.kafka-source.type=org.apache.flume.source.kafka.KafkaSourceagent1.sources.kafka-source.zookeeperConnect=localhost:2181agent1.sources.kafka-source.topic=provaagent1.sources.

java - 运行水槽下载 Twitter 数据时出现未处理的错误 java.lang.NoSuchMethodError

当我运行这个命令时hduser@ubuntu:/usr/local/flume$bin/flume-ngagent--conf./conf/-fconf/twitterflume-agent.conf-Dflume.root.logger=DEBUG,console-nTwitterAgent水槽正在启动,但一段时间后它抛出异常,不允许水槽下载。我收到以下错误:2015-10-3110:18:32,152(conf-file-poller-0)[INFO-org.apache.flume.sink.DefaultSinkFactory.create(DefaultSinkFactory

hadoop - 编写自定义水槽 NG 源/接收器的最佳方式

我正在编写自定义水槽源和接收器,目前我没有看到重新使用现有的flume-ng代码的最佳方式。例如,我无法扩展AvroSource类并轻松自定义一些功能,而无需必须复制/粘贴大量现有代码。是不是故意这样还是我在这里做错了什么? 最佳答案 如果您想要一个接受Avro消息的源,您只需要自定义AvroSource。这将是编写自定义源和接收器的一个令人惊讶的理由。要编写自定义接收器,请遵循customsinkdocs.自定义源在同一文档中。顺便说一句,为什么您需要自定义源和接收器?最后,1.4.0刚刚发布-如果可能,您应该使用它。

hadoop - 如何通过水槽将 Twitter 数据通过代理提供给 hdfs?

我已经安装了flume并且正在尝试将Twitter数据输入到hdfs文件夹中。我的flume.conf文件如下所示:TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=com.cloudera.flume.source.TwitterSourceTwitterAgent.sources.Twitter.channels=MemChannelTwitterAgent.sources.Twitter.consu

hadoop - 使用水槽将文件从假脱机目录移动到 HDFS

我正在为我公司的POC实现一个小型hadoop集群。我正在尝试使用Flume将文件导入HDFS。每个文件都包含这样的JSON对象(每个文件1个“长”行):{"objectType":[{JSONObject},{JSONObject},...]}“objectType”是数组中对象的类型(例如:事件、用户...)。这些文件稍后将根据“objectType”由多个任务处理。我正在使用spoolDir源和HDFS接收器。我的问题是:是否可以在flume写入HDFS时保留源文件名(文件名是唯一的,因为它们的名称中包含时间戳和UUID)有没有办法将“deserializer.maxLineLe