jjzjj

hadoop - 如何在 EMR 上安装 cloudera impala?

无论如何,我是否可以安装唯一没有cloudera管理器和cdh的impala。我将使用hadoop的apache版本? 最佳答案 是的,这是绝对可能的。将存储库添加到您的sources.list文件中,然后更新存储库。deb[arch=amd64]http://archive.cloudera.com/impala/ubuntu/precise/amd64/impalaprecise-impala1contribdeb-srchttp://archive.cloudera.com/impala/ubuntu/precise/amd6

hadoop - 解析日期格式加入hive

我有一个字符串类型的日期字段,格式为:03/11/2001我想将它与另一个字符串格式的列连接起来:1855-05-2512:00:00.0如何在hive中有效地加入两列,忽略第二列的时间部分?我的查询如下所示:LEFTJOINtabel1t1ONtable2.Date=t1.Date 最佳答案 由于您拥有不同格式的日期值,因此您需要对两者使用日期函数,并在连接查询中将其转换为类似格式的日期类型。它会是这样的:LEFTJOINtabel1t1ONunix_timestamp(table2.Date,'yyyy-MM-ddHH:mm:s

hadoop - 如何从 Java 代码运行 Hive Explain 命令?

我想从Java代码运行Hive和ImpalaExplain和计算统计命令。这样我就可以将收集到的信息用于我的分析目的。如果有人有任何想法请帮忙 最佳答案 您可以像针对impala的任何其他jdbc查询一样运行它。名为temp的表的计算统计查询将是“computestatstemp”,您可以将其作为参数传递给jdbcstatement.execute类似地,为了解释一个查询,说“selectcount(*)fromtemp”作为参数传递给statement.execute的查询是“explainselectcount(*)fromte

java - "sql like"apache 配置单元的替代品

我正在寻找一个支持类似于sql查询的分布式数据库的解决方案。更准确地说,它应该有一个JDBC连接器和与sql语法相同或相似的语法。通过谷歌搜索,我发现了HIVEwithhadoop。您还知道哪些其他选择? 最佳答案 ClouderaImpala是一个支持类SQL查询并与HiveQL兼容的框架。虽然Hive已经存在一段时间并且面向批处理,但Impala是新的并且适合实时处理。不确定JDBC是否与Impala一起工作。 关于java-"sqllike"apache配置单元的替代品,我们在St

hadoop - 从表名中删除 Cloudera Impala

我是Impala的新手,我正在尝试了解如何从表中删除记录...我试过寻找删除命令,但没有找到完全可以理解的说明...这是我的表结构:createtableInstalls(BrandIDINT,PublisherIDINT,InstallDateSTRING,HourNumINT,CountrySTRING,InstallsINT)PARTITIONEDBY(dayINT,monthINT,yearINT)STOREDASPARQUET在Hadoop中可以删除吗?语法是如何工作的?任何帮助对我来说都是一个很大的帮助...谢谢:) 最佳答案

hadoop - Impala 的 ORC 文件格式

ORC文件格式可以在Impala中使用吗?还有如何访问存储在Impala中的hivemetastore中的ORC表。在文档链接下方找到,但它不包含任何受限制的文件格式列表或提及impala不支持的ORC:http://www.cloudera.com/documentation/enterprise/latest/topics/impala_file_formats.html 最佳答案 Impala不支持ORC。相反,ApacheParquet是获得最佳性能的推荐格式。 关于hadoop

java - 无法通过 jdbc 连接到配置单元

我使用gradle来运行我的程序。示例代码引用https://github.com/onefoursix/Cloudera-Impala-JDBC-Example.而且我可以从repo中运行示例而不会失败。//ApplythejavaplugintoaddsupportforJavaapplyplugin:'java'applyplugin:'application'mainClassName="com.my.impala.fetcher.Fetcher"//Inthissectionyoudeclarewheretofindthedependenciesofyourprojectre

hadoop - 如何在 impala 中启用递归读取

我需要从Imapala查询小时mapreduce批处理结果outputdirectorystructurewillbe/data/access/web1/2015/Jan/day1/09/part-r-00000/data/access/web1/2015/Jan/day1/09/part-r-00001.../data/access/web1/2015/Jan/day1/20/part-r-00000/data/access/web1/2015/Jan/day1/20/part-r-00001.../data/access/web1/2015/Jan/day2/01/part-r-0

hadoop - 通过 levenshtein 在 Hive 或 Impala 中加入的有效方法

我有两个表,一个包含大约17K(NLIST)条记录,另一个包含57K(FNAMES)条记录。我想通过使用levenshtein公式比较记录来加入两者。下面是表格内容的例子:表NLIST:+------+-------------+|ID|S_NAME|+------+-------------+|1|Avi||2|Moshe||3|David|....表FNAMES:+------+-------------+|ID|NICKNAMES|+------+-------------+|1|Avile||2|Dudi||3|Moshiko||4|Avi||5|DAVE|....以上表格仅为

sql - 当前日期缺失时的 30 天滚动/移动总和

我有一个表(view_of_referred_events),它存储给定页面的访问者数量。datecountry_idreferralproduct_idvisitors2016-04-01216pl11375912016-04-03216pl11375912016-04-06216pl113759132016-04-07216pl11375910我想计算该产品的30天滚动/移动总和,即使是那些缺失的日子。所以最终结果应该是这样的:datecountry_idreferralproduct_idcumulative_visitors2016-04-01216pl11375912016-