jjzjj

Scheduler

全部标签

hadoop - 使用 Capacity Scheduler 在 Hadoop 集群中设置队列

我尝试设置3个队列。为此,我配置了CapacityScheduler.xml,如下所示。但在此之后,jobtracker正在关闭。我还将这些队列的名称添加到mapred-site.xml中。谁知道原因。entercodehere*mapred.capacity-scheduler.queue.BatchJobsQueue.capacity70mapred.capacity-scheduler.queue.BatchJobsQueue.supports-priorityfalsemapred.capacity-scheduler.queue.BatchJobsQueue.minimum-

hadoop - 并行 hadoop 作业不会通过

我正在运行一个本地hadoop集群并尝试同时提交两个作业,但我的第一个作业通过了,第二个没有,并且一直处于未分配状态,直到第一个作业完成。我预感内存有问题,但我不太明白。这是我为容器、映射器、reduce、jvm等设置的值。yarn.nodemanager.resource.memory-mb=40960yarn.scheduler.minimum-allocation-mb=4096yarn.scheduler.maximum-allocation-mb=10240mapreduce.map.java.opts=-Xmx5120mmapreduce.reduce.java.opts=

hadoop - 映射阶段的进度(LATE 调度程序)- Hadoop

我想找出maptask的进度。如果有人可以帮助我,那就太好了!谢谢!! 最佳答案 我们可以通过两种方式监控作业中Map和Reduce的进度。首先是网络界面。http://pdhadoop1:50030其中pdhadoop1是您的名称节点机器。另一种方式是从作业驱动程序内部,可以输出到控制台(或其他地方)作业提交后,我们进入while循环并检查job.isComplete()。在循环中我们做System.out.println(String.format("ProgressofPageviewsETLJob%s:",job.getJo

hadoop - 我们可以在同一个 hadoop 集群中同时使用 Fair scheduler 和 Capacity Scheduler

我们可以在同一个hadoop集群中同时使用Fairscheduler和CapacityScheduler吗?哪个调度器是好的和有效的。谁能帮帮我? 最佳答案 我认为两者不能同时使用。这也没有意义。为什么要在同一个集群中使用这两种类型的调度?由于特定的用例,两种调度算法都出现了。Fairschedulingisamethodofassigningresourcestojobssuchthatalljobsget,onaverage,anequalshareofresourcesovertime.Whenthereisasinglejo

hadoop - 使用 Fair Scheduler 时,如何确保某些 hadoop 作业最终不会在同一个数据节点中运行?

当使用nutch爬虫时,抓取作业的创建使得来自同一主机的URL最终出现在单个数据节点中以保持抓取礼貌(1QPS)。但是,某些主机允许超过1QPS,因此URL会相应地进行分区。对于此类主机,URL将位于两个意味着在两个不同数据节点上运行的获取作业中。但有时公平调度程序会将这些作业(reducetask)调度到同一个数据节点。那么有什么办法可以解决这个问题吗?非常感谢任何帮助。谢谢 最佳答案 我不确定你是否想做这样的事情,因为它会影响你的Hadoop集群的其余部分......您可以将每个节点的reduce插槽数设置为1。您要为此更改的配

python - 不存在的表的 luigi 目标

我正在尝试使用luigi.hive.HiveTableTarget为luigi任务设置一个简单的表存在性测试我在hive中创建了一个简单的表,只是为了确保它在那里:createtabletest_table(aint);接下来我用luigi设置目标:fromluigi.hiveimportHiveTableTargettarget=HiveTableTarget(table='test_table')>>>target.exists()True太好了,接下来我尝试使用一个我知道不存在的表来确保它返回false。target=HiveTableTarget(table='test_tab

hadoop - yarn 中的 AM 极限是多少?

在yarn大数据集群中运行作业的上下文中,我多次听到AM限制一词。这里也提到了:https://issues.apache.org/jira/browse/YARN-6428这是什么意思? 最佳答案 这是一个保证你不会活锁你的集群的设置。Map-Reduce作业有一个AM,它会生成映射器和缩减器。如果您的队列只有AM任务,那么您将无法运行任何映射器或缩减器,这意味着您的任何AM都不会完成,您也无法做任何有意义的工作。您处于活锁场景中。CapacityScheduler和FairScheduler都有一种方法可以限制AM可以持有的任务

hadoop - 在 Hortonworks 数据平台上从 Capacity Scheduler 切换到 Fair Scheduler

我的组织目前正在使用HortonworksHDP来管理我们的Hadoop集群。默认的YARN调度器是CapacityScheduler。我想切换到FairScheduler。我对HDP完全陌生。在没有集群管理套件的情况下,这将通过编辑yarn-site.xml并将yarn.resourcemanager.scheduler.class属性更改为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler并创建一个额外的fair-scheduler.xml文件来指定队列配置,如前所述here然后通过在

hadoop - 公平调度器和容量调度器有什么区别?

我是Hadoop世界的新手,想知道公平调度器和容量调度器之间的区别。另外我们什么时候应该使用每个?请用简单的方式回答,因为我在互联网上阅读了很多东西,但我并没有从中得到太多。 最佳答案 公平调度是一种将资源分配给作业的方法,以便所有作业在一段时间内平均获得相等的资源份额。当只有一个作业在运行时,该作业会使用整个集群。当提交其他作业时,释放的任务槽将分配给新作业,以便每个作业获得大致相同的CPU时间。与形成作业队列的默认Hadoop调度程序不同,这可以让短作业在合理的时间内完成,而不会使长作业挨饿。在多个用户之间共享集群也是一种合理的

hadoop - `yarn.scheduler.maximum-allocation-mb` 和 `yarn.nodemanager.resource.memory-mb` 之间的区别?

yarn.scheduler.maximum-allocation-mb和yarn.nodemanager.resource.memory-mb有什么区别?我在yarn-site.xml中看到了这两个,我看到了解释here.yarn.scheduler.maximum-allocation-mb给出了以下定义:RM中每个容器请求的最大分配,以MB为单位。高于此值的内存请求将抛出InvalidResourceRequestException。这是否意味着仅在资源管理器上的内存请求受此值限制?yarn.nodemanager.resource.memory-mb给出了可以分配给容器的物理内