Hadoop、Hbase、Hive三者关系

井底蛙蛙呱呱呱 2023-03-28 原文

Hadoop本质上是：分布式文件系统(HDFS) + 分布式计算框架(Mapreduce) + 调度系统Yarn搭建起来的分布式大数据处理框架。

Hive：是一个基于Hadoop的数据仓库，适用于一些高延迟性的应用（离线开发），可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能。Hive可以认为是MapReduce的一个包装，把好写的HQL转换为的MapReduce程序，本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表是纯逻辑表。hive需要用到hdfs存储文件，需要用到MapReduce计算框架。

HBase：是一个Hadoop的数据库，一个分布式、可扩展、大数据的存储。hbase是物理表，不是逻辑表，提供一个超大的内存hash表，搜索引擎通过它来存储索引，方便查询操作。HBase可以认为是HDFS的一个包装。他的本质是数据存储，是个NoSql数据库；HBase部署于HDFS之上，并且克服了hdfs在随机读写方面的缺点，提高查询效率。

对HBASE数据结构的简单说明：

HBASE

假设HBASE表内容如上，一般将personal data 和 professional data称为column family，而name、city、designation和salary则称为各个column family下面的qualifier。每一个column family都可以认为是一个字典结构，其里面的qualifier则为key，如下：

{
  "row1": {
    "personal_data": {
      "name": "raju",
      "city": "hyderabad"
    },
    "professional_data": {
      "designation": "manager",
      "salary": 5000
    }
  },
  "row2": {...}
}

其中，对于每一行，每个qualifier其实并不是必须存在的，可以缺失。除了上面的column family，qualifier之外，还有timestamp信息，即每个字段数据保留多久（TTL）。

参考：
https://www.zhihu.com/question/403840156/answer/1308998199
https://www.yiibai.com/hbase/hbase_create_data.html#article-start

有关Hadoop、Hbase、Hive三者关系的更多相关文章

ruby - Rails 关联 - 同一个类的多个 has_one 关系 - 2
我的问题的一个例子是体育游戏。一场体育比赛有两支球队，一支主队和一支客队。我的事件记录模型如下:classTeam"Team"has_one:away_team,:class_name=>"Team"end我希望能够通过游戏访问一个团队，例如:Game.find(1).home_team但我收到一个单元化常量错误:Game::team。谁能告诉我我做错了什么？谢谢，最佳答案如果Gamehas_one:team那么Rails假设您的teams表有一个game_id列。不过，您想要的是games表有一个team_id列，在这种情况下
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
Hive SQL 五大经典面试题 - 2
目录第1题连续问题分析：解法：第2题分组问题分析：解法：第3题间隔连续问题分析：解法：第4题打折日期交叉问题分析：解法：第5题同时在线问题分析：解法：第1题连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量iddtlowcarbon10012021-12-1212310022021-12-124510012021-12-134310012021-12-134510012021-12-132310022021-12-144510012021-12-1423010022021-12-154510012021-12-1523.......找出连续3天及以上减少碳排放量在100以上的用户分析：遇到这类
HBase Region 简介和建议数量&大小 - 2
Region是HBase数据管理的基本单位,region有一点像关系型数据的分区。region中存储这用户的真实数据，而为了管理这些数据，HBase使用了RegionSever来管理region。Region的结构hbaseregion的大小设置默认情况下，每个Table起初只有一个Region，随着数据的不断写入，Region会自动进行拆分。刚拆分时，两个子Region都位于当前的RegionServer，但处于负载均衡的考虑，HMaster有可能会将某个Region转移给其他的RegionServer。RegionSplit时机：当1个region中的某个Store下所有StoreFile
[工业相机] 分辨率、精度和公差之间的关系 - 2
📢博客主页：https://blog.csdn.net/weixin_43197380📢欢迎点赞👍收藏⭐留言📝如有错误敬请指正！📢本文由Loewen丶原创，首发于CSDN，转载注明出处🙉📢现在的付出，都会是一种沉淀，只为让你成为更好的人✨文章预览：一.分辨率（Resolution）1、工业相机的分辨率是如何定义的？2、工业相机的分辨率是如何选择的？二.精度（Accuracy）1、像素精度（PixelAccuracy）2、定位精度和重复定位精度（RepeatPrecision）三.公差（Tolerance）四.课后作业（Post-ClassExercises）视觉行业的初学者，甚至是做了1~2年
ruby - Rails 组合多个 activerecord 关系 - 2
我想合并多个事件记录关系例如，apple_companies=Company.where("namelike?","%apple%")banana_companies=Company.where("namelike?","%banana%")我想结合这两个关系。不是合并，合并是apple_companies.merge(banana_companies)=>Company.where("namelike?andnamelike?","%apple%","%banana%")我要Company.where("名字像？还是名字像？","%apple%","%banana%")之后，我会写代
ruby-on-rails - Ruby on Rails - has_one 关系，如何检查它是否具有现有关联？ - 2
我有一个简单的问题，与关联有关。我有一个书的模型，它有_onereservation。预订属于_书本。我想在预订Controller的创建方法中确保在预订时没有预订一本书。换句话说，我需要检查该书是否存在任何其他预订。我该怎么做？编辑:Aaa我做到了，感谢大家的提示，学到了一些新东西。当我尝试提供的解决方案时，出现no_method错误或nil_class等。这让我开始思考，我尝试处理的对象根本不存在。Krule给了我使用book.find的想法，所以我尝试使用它。最终我得到了它的工作:book=Book.find_by_id(reservation_params[:book_id])
ruby-on-rails - Ruby/Rails - 检查 HABTM 关系记录中是否存在子 ID - 2
我有一组名为Tasks和Posts的资源，它们之间存在has_and_belongs_to_many(HABTM)关系。还有一个连接它们的值的连接表。create_table'posts_tasks',:id=>falsedo|t|t.column:post_id,:integert.column:task_id,:integerend所以我的问题是如何检查特定任务的ID是否存在于从@post.tasks创建的数组中？irb(main):011:0>@post=Post.find(1)=>#@post.tasks=>[#,#]所以我的问题是，@post.tasks中是否存在"@task
Ruby On Rails 模型、 View 和 Controller 之间的关系 - 2
根据我目前的理解，如果我必须描述Rails应用程序的各个组件如何协同工作以响应请求，我会说以下内容:1)路由确定哪些请求URL映射到哪些Controller方法。2)Controller方法从模型中获取信息并将该信息(以全局变量的形式)传递给相应的View模板。3)View模板使用存储在全局变量中的数据来构造最终响应。在上面的解释中，几个组件之间的关系是明确的，不可否认的；即:1)路由和Controller方法2)Controller方法和View模板其实上面的关系是一对一的。但是，模型类与其相邻组件类型(即Controller)的关系并不明确。是的，Controller从模型中检索信
ruby-on-rails - 本地 gem 的“bundle 安装”没有解决依赖关系，而 'gem install' 可以 - 2
我在目录“/home/enterprise/pkg”中有一个本地gem(enterprise-0.0.1.gem)。它依赖于active_directorygem(v1.5.5)，这是在它的enterprise.gemspec文件中指定的，如下所示:-gem.add_dependency("active_directory")在我的应用程序的Gemfile中，我添加了以下行:-gem'enterprise','0.0.1',path=>'/home/enterprise/pkg'当我做的时候bundleinstall在我的应用程序的源目录中，只安装了企业gem。因此，我遇到了引用act

Hadoop、Hbase、Hive三者关系

有关Hadoop、Hbase、Hive三者关系的更多相关文章

随机推荐