jjzjj

hadoop - 如何优化我的配置单元查询以从多个表中查找记录计数总和

我必须生成一份报告,该报告将为我提供表A、B和C中使用Hive存储的事件的计数总和,并且我的S3存储桶已按Organization_id分区例如:表A–有约翰(和其他员工)每天上类的记录表B–记录了约翰(和其他员工)在工作中调用或接听的每个电话表C–记录了约翰(和其他员工)在工作中提交的每笔费用基本上,我想要约翰(employee_id)在上个月来自A、B和C的计数总和。如果在3个表A、B或C中的任何一个中都有记录,则应该每个日期只有一个记录(如果一个或多个表中有一个日期的记录,则对计数求和)表)。所以我的输出是:EmployeeidEmployeeNameDateCount123Jo

hadoop - 自动缩放 EMR - 是否需要?我应该只使用 EC2 吗?我应该只使用 Qubole 吗?

为了减少配置时间,我们决定保留一个包含5个实例的专用EMR集群(我们预计大约需要5个)。如果我们需要更多,我们认为我们需要实现某种自动缩放。我对EMR一点都不熟悉-它支持自动缩放吗?我在文档中找到了这个:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-resize.html这是查找自动缩放的正确位置还是我误解了“调整大小”的含义。我读过EMR的一个好处是“按需处理”,我认为它在ec2实例之间分配负载而无需指定实例数量,所以这给我的印象是它自己进行ec2实例的扩展,这意味着我们不需要