jjzjj

hadoop - Hive 中 MetaStore 的主要用途?

coder 2024-01-07 原文

我对 MetaStore 的用途有点困惑。在 hive 中创建表时:

CREATE TABLE <table_name> (column1 data_type, column2 data_type);
LOAD DATA INPATH <HDFS_file_location> INTO table managed_table;

所以我知道这个命令获取HDFS中文件的内容并创建它的MetaData形式并将其存储在MetaStore中(包括每行的列类型,列名,它在HDFS中的位置等)在 HDFS 文件中)。它实际上并没有将数据从 HDFS 移动到 Hive。

但是存储这个元数据的目的是什么?

例如,当我使用 Spark SQL 连接到 Hive 时,MetaStore 不包含 HDFS 中的实际信息,而只包含元数据。那么,Hive 只是使用 MetaStore 来对 HiveQL 查询执行解析和编译步骤并创建 MapReduce 作业吗?

最佳答案

Metastore 用于存储模式(表定义,包括在 HDFS 中的位置、serde、列、注释、类型、分区定义、 View 、访问权限等)和统计信息。没有将数据从 HDFS 移动到 Hive 这样的操作,因为 Hive 表数据存储在 HDFS(或其他兼容的文件系统,如 S3)中。您可以在 HDFS 中的某个位置之上定义新表或什至几个表,并将文件放入其中。您可以更改现有表位置或分区位置,所有这些信息都存储在 Metastore 中,因此 Hive 知道如何访问数据。表是在 Metastore 中定义的逻辑对象,数据本身只是 HDFS 中某个位置的文件。

另请参阅有关 Hive 查询执行流程(高级)的答案:https://stackoverflow.com/a/45587873/2700344

关于hadoop - Hive 中 MetaStore 的主要用途?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48532787/

有关hadoop - Hive 中 MetaStore 的主要用途?的更多相关文章

  1. ruby - 主要 :Object when running build from sublime 的未定义方法 `require_relative' - 2

    我已经从我的命令行中获得了一切,所以我可以运行rubymyfile并且它可以正常工作。但是当我尝试从sublime中运行它时,我得到了undefinedmethod`require_relative'formain:Object有人知道我的sublime设置中缺少什么吗?我正在使用OSX并安装了rvm。 最佳答案 或者,您可以只使用“require”,它应该可以正常工作。我认为“require_relative”仅适用于ruby​​1.9+ 关于ruby-主要:Objectwhenrun

  2. hadoop安装之保姆级教程(二)之YARN的配置 - 2

    1.1.1 YARN的介绍 为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的,针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜,提出了全新的资源管理框架YARN. ApacheYARN(YetanotherResourceNegotiator的缩写)是Hadoop集群的资源管理系统,负责为计算程序提供服务器计算资源,相当于⼀个分布式的操作系统平台,⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现,但是因为具有⾜够的通⽤性,同样可以⽀持其他的分布式计算模

  3. Hive SQL 五大经典面试题 - 2

    目录第1题连续问题分析:解法:第2题分组问题分析:解法:第3题间隔连续问题分析:解法:第4题打折日期交叉问题分析:解法:第5题同时在线问题分析:解法:第1题连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量iddtlowcarbon10012021-12-1212310022021-12-124510012021-12-134310012021-12-134510012021-12-132310022021-12-144510012021-12-1423010022021-12-154510012021-12-1523.......找出连续3天及以上减少碳排放量在100以上的用户分析:遇到这类

  4. java - java和ruby的主要区别和相似之处是什么? - 2

    关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭9年前。Improvethisquestion我现在是java专业人士,我喜欢使用ruby​​。这两种语言有什么相似之处吗?主要区别是什么?因为两者都是面向对象的。

  5. ruby - Ruby 中匿名结构的用途是什么? - 2

    它们可以这样定义Struct.new(:x,:y)但是用它们能做什么?具体来说,如何创建这种结构的实例?这行不通Struct.new(:x=>1,:y=>1)(您收到TypeError:can'tconvertHashintoString)。我正在使用Ruby1.9.2。更新:目前为止很好的指点,谢谢。我想我问这个的原因是我有好几次发现自己想要这样做Struct.new(:x=>1,:y=>1)这样我就可以在可以编写obj.x的地方传递一个对象,而不是说,实例化一个散列并必须编写obj[:x].在这种情况下,我希望该结构真正是匿名的-我不想通过命名从Struct.new调用返回的内容来

  6. ruby-on-rails - 没有找到主要的连接池 - 2

    我正在使用Rails并且非常随机地遇到连接池错误,它不专门针对任何单个端点。我可以在大约70%的时间内命中端点而不会出现此错误。数据库是在谷歌云上运行的PostgreSQL。这是我遇到的错误的主要内容:#/usr/local/bundle/gems/activerecord-5.1.5/lib/active_record/connection_handling.rb:112:in`connection_pool'ActiveRecord::ConnectionNotEstablished(Noconnectionpoolwith'primary'found.):gem文件:source

  7. ruby - Ruby 中 Enumerator 类的用途是什么 - 2

    如果我像这样创建一个枚举器:enum=[1,2,3].each=>#enum是枚举器。这个对象的目的是什么?我不能这样说:enum{|i|putsi}但我可以这样说:enum.each{|i|putsi}这似乎是多余的,因为Enumerator是用.each创建的。它似乎正在存储一些关于each方法的数据。我不明白这是怎么回事。我确信我们有这个Enumerator类是有一些合乎逻辑的原因的,但是它能做什么而Array不能呢?我想也许它是Array和其他Enumerable的祖先,但它似乎不是。Enumerator类存在的确切原因是什么?它会在什么情况下使用?

  8. 大数据之Hadoop数据仓库Hive - 2

    目录:一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。特点:简单、容易上手(提供了类似sql的查询语言hql),使得精通sql但是不了解Java编程的人也能很好地进行大数据分析;灵活性高,可以自定义用户函数(UDF)和

  9. ruby - NilClass、TrueClass 和 FalseClass 的用途是什么 - 2

    NilClass、TrueClass和FalseClass各有一个实例,即nil、true和false,它们是常量,拥有这些类的目的是什么?为什么它们不能是Object类的实例,并且所有相关方法都简单地定义为nil、true和上的单例方法错误?一个相关的问题是,为什么不将这些定义为常量? 最佳答案 它遵循“一切皆对象”和“对象由它们作为实例的类专门化”的思想。nil、true和false都是对象(因此是具有方法的类的实例化)。它们是1)各自类型的唯一居民并且是2)不可变对象(immutable对象)的强加允许实现优化-实际上,不是一

  10. ruby - cucumber 和应该达的主要区别是什么? - 2

    如果您要选择测试框架,您会如何在cucumber和shoulda之间做出决定?这两个框架的主要区别是什么? 最佳答案 正如大家所指出的,Cucumber和Shoulda的目标截然不同。您可以将Cucumber视为“10,000英尺的View”测试框架-您定义广泛的功能或特定的用户交互,并确保一切正常。Shoulda用于单元测试-您选择一个特定模型并彻底测试该单独部分的所有挑剔的小功能。通常,您会希望结合使用这些类型的框架。例如,您的大部分广泛的高级测试都可以用Cucumber编写,但是当您的系统中有一段特别复杂或不透明的代码时,您可

随机推荐