BigData

hadoop - 有人可以建议 HBase 架构点击流数据吗

我想使用HBase创建一个点击流应用程序，在sql中这将是一个非常简单的任务，但在Hbase中我还没有得到第一条线索。有人可以建议我在HBase中使用的架构设计和key。我提供了一个粗略的数据模型和几个我想查询数据的问题。关于访问数据我想问的问题哪些事件导致了转化？最后一页是什么/浏览了多少页？客户离开了哪些页面？20-30岁的男性顾客喜欢买什么产品？客户购买了产品x也可能购买产品y？第一页的转化量？{PageViews:[{date:"1970010100:00",domain:"http://foobar.com",path:"pageOne.html",timeOnPage:"1

hadoop HBase 34 section pageViewNumber schema bigdata

hadoop - 我如何避免 Hive 表的第一个 "NULL"中的 "Field Name"

首先，我使用以下命令在Hive中创建了表“emp”:createtableemp(idINT,nameSTRING,addressSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t';然后通过以下命令将数据加载到这个“emp”表中:LOADDATALOCALINPATH'\home\cloudera\Desktop\emp.txt'覆盖到表emp;当我从“emp”表中选择数据时:它显示了表Null的第一个字段像这样: 最佳答案您的文件中有一个标题行，第一个值id无法转换为INT，因此被替换

amp 34 code section emp hadoop hive bigdata

hadoop - 在Hadoop中，复制因子和集群中的节点数之间有什么关系？

例如，如果复制因子为3，并且集群中有2个节点。那么将创建多少个副本？它们将如何放置？最佳答案复制因子大于可用数据节点会破坏复制的目的。副本应该明确且唯一地放置在数据节点上。如果一个数据节点包含同一个block的多个副本(理论上)，它不会提供额外的容错能力，因为如果该节点出现故障，两个副本都会丢失。因此每个节点只有一个副本就足够了。并回答您的问题:Whatistherelationshipbetweenreplicationfactorandnumberofdatanodesincluster?Ans.Maximumreplica

点数 hadoop strong section replication hdfs bigdata

hadoop - 将列添加到Hive外部表错误

尝试将列添加到配置单元中的外部表，但出现以下错误。这个表目前已经注册了1000个分区，我希望避免重新创建这个表，然后运行msckrepair，这需要很长时间才能完成。此外，该表使用opencsvserde格式。如何添加列hive>ALTERTABLEschema.Table123ADDCOLUMNS(Column1000STRING);FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.Unabletoaltertable.java.lang.IllegalArgumentExcepti

hadoop Hive section code pre apache-spark bigdata

hadoop - 如何在 Ubuntu (12.0.4)-32 位上安装 cloudera manager

我有一个32位的Ubuntu版本，似乎最新的ClouderaManager只支持64位。有没有人在Ubuntu(12.0.4)32位上安装了CDH4和云时代管理器？。你能不能让我知道怎么做。最佳答案我相信32位Ubuntu不支持CDH4。32位RHEL6.2支持32位关于hadoop-如何在Ubuntu(12.0.4)-32位上安装clouderamanager，我们在StackOverflow上找到一个类似的问题： https://stackoverf

何在 cloudera section Ubuntu stackoverflow hadoop bigdata

hadoop - Pig - FilterFunc 不接受整个元组

我的Pig的一个过滤器功能有问题。但首先，我会告诉你上下文。A=LOAD'pig/hado/start_extrait2.csv'USINGPigStorage(';')as(DAT_START:chararray,COD_IPUSER:chararray,NDI_START:chararray);hado_search_file=LOAD'pig/hado/recherche_hado.csv'USINGPigStorage(';')as(DATE_HADO:chararray,IP_RECHERCHEE:chararray);result2=JOINhado_search_file

FilterFunc hadoop chararray 00 section user-defined-functions bigdata apache-pig

mysql - 使用 Hive 查询 Sqoop 到 MySQL

我想将Hive表中的数据sqoop到MySQL表中。两者具有相同的列集，但它们的顺序不同。有没有办法使用具有属于mysql表的列顺序的Hive查询将数据sqoop到mysql表？最佳答案 Sqoop目前不支持Hive查询的“导出”操作。支持的解决方法是运行Hive查询，该查询将更改Hive中的列顺序并将其结果作为临时表存储在Hive中。然后，您可以使用Sqoop导出此临时表。关于mysql-使用Hive查询Sqoop到MySQL，我们在StackOverflow上找到一个类似的问题：

mysql Sqoop section Hive stackoverflow hadoop bigdata

hadoop - 不同系统之间的大数据传输

我们将不同的数据集存储到不同的系统中，例如Hadoop、Cassandra、MongoDB。但是我们的分析团队想要从不同的系统中获取拼接的数据。例如，具有人口统计信息的客户信息将在一个系统中，他们的交易将在另一个系统中。分析应该能够查询以从美国用户那里获取数据，例如交易量是多少。我们需要开发一个应用程序来提供与不同系统交互的简便方法。最好的方法是什么？另一个要求:如果我们想在像MongoDB这样的系统中提供他们的自定义工作区，他们可以很容易地使用它。按需将数据从一个系统拉到另一个系统的最佳策略是什么？用于解决此类问题的任何指针或通用架构都将非常有帮助。最佳

大数 hadoop section 的 MongoDB bigdata

hadoop - 如何使用 PIG 在 Hadoop 中给定阈值进行连接

假设我有一个具有以下架构的数据集:ItemName(String),Length(long)我需要根据长度找到重复项。这在PIG中很容易做到:raw_data=LOAD...datasetgrouped=GROUPraw_databylengthitems=FOREACHgroupedGENERATECOUNT(raw_data)ascount,raw_data.name;dups=FILTERitemsBYcount>1;STOREdups....上面找到了完全相同的重复项。给定以下设置:一、100二、105三、100它会输出2,(a,c)现在我需要使用阈值查找重复项。例如，如果项目

给定 hadoop section code raw_data mapreduce apache-pig bigdata

hadoop - 是否可以在 Hadoop 1(没有 YARN)中使用 Impala？

我在Hadoop1的限制中看到我们唯一可以使用的范例是mapreduce。如果您想使用其他范例(例如spark)，则必须使用Hadoop2.0和YARN。但我有一个与Impala相关的问题。是否可以在没有YARN的情况下使用Impala？谢谢。最佳答案是的，Impala可以独立于YARN使用。关于hadoop-是否可以在Hadoop1(没有YARN)中使用Impala？，我们在StackOverflow上找到一个类似的问题： https://stacko

hadoop section Impala YARN bigdata hadoop-yarn

8 9 101112 13 14