1.Hadoop生态系统的两个核心组件:HDFS和MapReduce。MapReduce体系结构:Client、JobTracker、TaskTracker以及Task
2.JobTracker负责资源监控和作业调度,监控所有TaskTracker与Job的健康状况
TaskTracker 会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker
4.Map和Reduce函数的输入输出格式
5.map端的Shuffle进程:
reduce端的shuffle进程:
6,Mapreduce是一种分布式并行编程模型。存储在HDFS的数据集被切分为小数据集,每个map任务输入一个小数据集(分片),map任务会并行处理。map任务生成的结果会作为reduce任务的输入,最终由reduce任务输出结果,写入HDFS。
map函数将输入的元素转化为<key,value>键值对,进行并发处理输出:<k1,v1>→list(<k2,v2>)
reduce函数将具有相同键的键值对组合起来,输出处理后的键值对,输出结果合并成一个文件。<k2,list(v20)>→<k3,v3>
7.大规模数据集处理包括分布式存储和分布式计算。(hadoop中分别对应HDFS和Mapreduce)
对map的输出进行分区,排序,合并,归并,交给reduce来处理,这个过程就叫shuffle。
MapReduce使用inputformat模块对map进行预处理,将输入文件切分为inputsplit(输入分片),每个分片针对一个map任务。
8.Mapreduce的6个执行阶段理解。
1.新一代资源管理调度框架YARN包含3个组件:
ResourceManager:
ApplicationMaster:
NodeManager:
2.MapReduce在Hadoop1.0中资源管理效率低,2.0中设计了yarn(新一代资源管理调度框架)
HDFS单一名称节点存在单点失效问题,解决:HDFS HA(高可用架构),提供名称节点热备份机制
HDFS单一命名节点无法实现资源隔离。解决:HDFS 联邦,管理多个命名空间。
3.Hadoop生态系统中的Pig组件,处理大规模数据的脚本语言,用户编写几条简单的语句,系统自动转换为Mapreduce作业。
4.简而言之,yarn对jobtracker功能进行拆分
5.Hadoop2.0组件,pig,tez,kafaka,
Hive是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策。
hive体系结构的4层次:数据源,数据存储和管理,数据服务,数据应用。
hive区别于数据库的地方,可以有历史记录。
hive借助Hadoop来完成数据的存储与处理。
类SQL语言-hiveSQL
以Mapreduce作为执行引擎:
1.HDFS作为高可靠的底层存储方式,存海量数据
2.Mapreduce对海量数据进行批处理,实现高性能运算
3.Hive借助HDFS和Mapreduce实现数据的存储处理,用HiveQL编写的处理逻辑,最终都要转换成Mapreduce任务运行。
4.pig可作为hive的替代工具。Pig是一种数据流语言和运行环境,在Hadoop平台上查询半结构化数据集,将外部数据装载到Hadoop集群中,转化为用户需要的数据格式。
5.HBASE为hive提供实时数据访问。Hbase面向列的,分布式的,可伸缩的数据库,可提供数据的实时访问,hive只能处理静态数据。两者互补。
6.Hive生态系统
1.spark生态系统主要包含Spark Core(提供内存计算),spark SQL(交互式查询分析) ,Spark Streaming(流计算),Mllib(机器学习算法库组件),GraphX(图计算)等组件。
2.RDD是分布式内存的抽象概念,提供了一种高度受限的共享内存模型。
RDD提供了一组丰富的操作:行动和转换。
行动用于执行计算并指定输出的形式,转换制定RDD之间的相互依赖关系。
转换操作接收并返回RDD,而行动接受RDD但返回非RDD。
运行原理:
(1)创建RDD对象;
(2)SparkContext负责计算RDD之间的依赖关系,构建DAG;
(3)DAGScheduler负责把DAG图分解成多个Stage,每个Stage中包含了多个Task,每个Task会被TaskScheduler分发给各个WorkerNode上的Executor去执行。
rdd特性:高容错 ,中间结果持久化内存
3.Scala是一种多范式编程语言。spark通过scala实现rdd的API。
4.spark特点:运行速度快,容易使用,通用性,运行模式多样。
5.基本概念
DAG:有向无环图,反映RDD之间的依赖关系。(spark基于DAG任务调度执行机制,spark根据rdd依赖关系生成DAG,开始计算)
RDD:分布式对象集合,只读的分区记录集合。(只读意味着不能直接修改)每个RDD可分为多个分区,每个分区是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同的节点上,从而可以在集群中的不同节点上进行并行计算
作业:一个作业包含多个RDD及其操作。
Executor:运行在工作节点上的一个进程,负责运行任务。(对应Hadoop里的MapReduce)
应用:用户编写的Spark应用程序。
任务:运行在Executor上的工作单元。
阶段:作业调度的基本单位,作业中有多个任务,每组任务就是阶段。
6.spark与Hadoop相比,spark在运算时将运算结果存入内存,hadoop存入磁盘。spark效率更高。
1.MapReduce-批处理计算,impala-基于历史数据的交互式查询,storm-实时数据流的数据处理
2.流数据特征:
3.流计算:实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息
4.流计算过程:数据实时采集、数据实时计算、实时查询服务
5.开源流计算框架Storm
对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
我构建了两个需要相互通信和发送文件的Rails应用程序。例如,一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情,所以我什至不知道从哪里开始。任何帮助,将不胜感激。谢谢! 最佳答案 无论Rails是什么,几乎所有Web应用程序都有您的要求,大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去,网站不应直接访问彼此
我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby:$rvmuseree-1.8.7-head我尝试运行服务器,然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r
刚入门rails,开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗?有哪些用例。您如何为Rails应用程序使用应用程序Controller?我不想在那里放太多代码,因为据我了解,每个请求都会调用此Controller。这是真的? 最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度,尽管在某些情况下ApplicationContr
我是一个Rails初学者,但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby中打印出变量(认为它会在终端中出现),但没有得到任何结果。有什么建议吗?我知道Rails调试器,但更喜欢使用inspect来打印我的变量。 最佳答案 您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R
有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳
是否可以在应用程序中包含的gem代码中知道应用程序的Rails文件系统根目录?这是gem来源的示例:moduleMyGemdefself.included(base)putsRails.root#returnnilendendActionController::Base.send:include,MyGem谢谢,抱歉我的英语不好 最佳答案 我发现解决类似问题的解决方案是使用railtie初始化程序包含我的模块。所以,在你的/lib/mygem/railtie.rbmoduleMyGemclassRailtie使用此代码,您的模块将在
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD