jjzjj

TABLESAMPLE

全部标签

hadoop - Hive Buckets——理解TABLESAMPLE(BUCKET X OUT OF Y)

您好,我是Hive的新手,我已经了解了hadoop中的桶概念,但未能理解以下几行。有人可以帮助我吗?SELECTavg(viewTime)FROMpage_viewTABLESAMPLE(BUCKET1OUTOF32);TABLESAMPLE的一般语法是表样本(从y中取出x桶)查询的样本量约为1/y。此外,y需要是创建表时为表指定的桶数的倍数或因数。例如,如果我们将y更改为16,则查询变为SELECTavg(viewTime)FROMpage_viewTABLESAMPLE(BUCKET1OUTOF16);那么样本量大约包括每16个用户中的1个(因为bucket列是userid)。该表