记录一些Hive的优化点,和能够提升的效率差异。Hive是目前应用最多最广的SQLonHadoop工具,近期很多专业的大数据公司推出了很多新的,基于列式或者内存热数据的SQL工具,像Impala,Tez,Spark等等,但是Hive仍然是目前使用率最高和普及面最广的SQLonHadoop的工具。在以前淘宝罗李的报告中,淘宝90%的业务跑在Hive上面。暴风影音的比例更高一些,大概95%以上都是跑在Hive上面。尽管很多人对Hive有看法,效率低,查询慢,bug多。但是并不可否认hive是一个开创性的工具,提供了更多的想象空间。而且,在生产集群上的数据查询程序的开发效率,Hive要远远高于自己写
table{border:1pxsolidsilver;border-collapse:collapse;word-break:break-word;}tr{display:table-row;vertical-align:inherit;border-color:inherit;}td{border:1pxsolidsilver;border-collapse:collapse;padding:3px;font-size:14px;}leftjoin:左连接,返回左表中所有的记录以及右表中连接字段相等的记录。rightjoin:右连接,返回右表中所有的记录以及左表中连接字段相等的记录。inn
table{border:1pxsolidsilver;border-collapse:collapse;word-break:break-word;}tr{display:table-row;vertical-align:inherit;border-color:inherit;}td{border:1pxsolidsilver;border-collapse:collapse;padding:3px;font-size:14px;}leftjoin:左连接,返回左表中所有的记录以及右表中连接字段相等的记录。rightjoin:右连接,返回右表中所有的记录以及左表中连接字段相等的记录。inn