dag_JJZJJ

c# - Hadoop/Spark 上 .NET 场景模拟(DAG 作业)的分布式计算

我目前正在研究一种使用Hadoop或Spark在集群上运行.NETDAG作业(场景模拟)的方法。在这两种情况下，我都遇到了有关代码语言的问题。如果发现Spark支持用以下语言编写的代码:Scala、Python、Java和R，但不支持.NET。Hadoop确实支持在.NET中编写作业，但是我没有在.NET上找到Hadoop的DAG实现。有没有办法使用.NET编程语言在集群/云上实现作业的DAG？最佳答案 ApacheSpark的C#语言绑定(bind)现在可通过SparkCLR(https://github.com/Microso

c#Hadoop section Spark NET .net apache-spark directed-acyclic-graphs

hadoop - 如何以 Unix 用户身份运行 Apache Airflow DAG

我使用root帐户在我的集群上安装了ApacheAirflow。我知道这是不好的做法，但这只是测试环境。我创建了一个简单的DAG:fromairflowimportDAGfromairflow.operators.bash_operatorimportBashOperatorfromdatetimeimportdatetime,timedeltadag=DAG('create_directory',description='simplecreatedirectoryworkflow',start_date=datetime(2017,6,1))t1=BashOperator(task_

何以 Airflow code 39 hadoop apache-airflow

java - 使用配置单元出现异常 java.lang.NoClassDefFoundError : org/apache/tez/dag/api/SessionNotRunning

配置hadoop之后我可以运行hdfs然后安装hive并编辑conf文件，使其默认运行在tez上，但是直接使用hive遇到了一些特殊的问题:hiveExceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/tez/dag/api/SessionNotRunningatorg.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:353)atorg.apache.hadoop.hive.cli.CliDriver.run(CliDrive

配置单 NoClassDefFoundError HiveServer2 HiveServer main java hadoop hive

c++ - 需要算法帮助才能找到 DAG 中的最大路径

假设我有这个DirectedAcyclicGraph(DAG)，其中每个节点(底部行中的节点除外)到其下方的两个节点都有一条有向边:738810274445265我需要找到一条通过此DAG的路径，其中节点的权重之和最大化。您只能从该树中的节点沿对角线向左下或右下移动。因此，例如，7、3、8、7、5将给出这棵树中的最大路径。输入文件包含以这种方式格式化的DAG738810274445265我的问题是，找到最大路径的最佳算法是什么？这棵树在C++中如何表示？节点权重是非负的。最佳答案我用intvector的vector表示这个三角形

amp 43 section code pre c++algorithm

python - 并行运行 Airflow 任务/dags

我正在使用airflow编排一些python脚本。我有一个“主”dag，从中运行了几个subdags。我的主要dag应该根据以下概述运行:我已经通过使用以下几行在我的主dag中找到了这个结构:etl_internal_sub_dag1>>etl_internal_sub_dag2>>etl_internal_sub_dag3etl_internal_sub_dag3>>etl_adzuna_sub_dagetl_internal_sub_dag3>>etl_adwords_sub_dagetl_internal_sub_dag3>>etl_facebook_sub_dagetl_int

Airflow python code dag etl python-3.x parallel-processing

python - 如何将 Airflow dag 配置为每天在特定时间运行？

如何将Airflowdag配置为在每天的指定时间执行，无论发生什么，就像crons一样。我知道使用TimeSensor可以获得类似的行为，但在这种情况下，它取决于传感器任务，并且可能与dag执行时间冲突。示例:使用传感器方法，如果我有传感器在第0时第15分钟运行，但如果dag稍后执行，那么我的任务将被延迟，所以即使对于传感器方法，我也需要确保Dag正确执行时间。那么如何保证Dag在指定的时间执行呢？最佳答案例如，要在每天凌晨2:30启动一个DAG，您可以执行以下操作:DAG(dag_id='dag_id',#startdate:

Airflow python section 传感 dag

python - 如何在单元测试中测试 Airflow dag？

我正在尝试在测试环境中测试具有多个任务的dag。我能够测试与dag关联的单个任务，但我想在dag中创建多个任务并启动第一个任务。为了测试我正在使用的dag中的一项任务task1.run()正在执行。但是，当我在dag的下游一个接一个地执行许多任务时，这种方法就不起作用了。fromairflowimportDAGfromairflow.operators.bash_operatorimportBashOperatorfromdatetimeimportdatetime,timedeltadefault_args={'owner':'airflow','depends_on_past':F

何在 Airflow 39 section python unit-testing pytest

python - 如何获取 Airflow dag 运行的 JobID？

当我们执行dagrun时，在AirflowUI上的“图TableView”中，我们会获得每个作业运行的详细信息。JobID类似于“scheduled__2017-04-11T10:47:00”。我需要这个JobID来跟踪和创建日志，我在其中维护每个任务/dagrun花费的时间。所以我的问题是如何在正在运行的同一个dag中获取JobID。谢谢，切坦最佳答案这个值实际上叫做run_id，可以通过上下文或宏访问。在python运算符中，这是通过上下文访问的，而在bash运算符中，这是通过bash_command字段上的jinja模板访

Airflow python section code pyspark apache-airflow

airflow - dag 中 Airflow 任务的状态

我需要任务的状态，比如它是在运行还是正在重试或在同一个dag中失败。所以我尝试使用下面的代码获取它，尽管我没有输出...Auto=PythonOperator(task_id='test_sleep',python_callable=execute_on_emr,op_kwargs={'cmd':'python/home/hadoop/test/testsleep.py'},dag=dag)logger.info(Auto)目的是在Airflow上的特定任务完成后终止某些正在运行的任务。问题是我如何获取任务的状态，比如它是处于运行状态还是失败或成功最佳答案

airflow task code dag

python - DAG 在 Google Cloud Composer 网络服务器上不可点击，但在本地 Airflow 上运行良好

我正在使用GoogleCloudComposer(谷歌云平台上的托管Airflow)图像版本composer-0.5.3-airflow-1.9.0和Python2.7，我面临一个奇怪的问题:导入我的DAG后，它们是不可从WebUI中点击(并且没有“TriggerDAG”、“Graphview”等按钮)，而在运行本地Airflow时一切正常。即使无法从Composer上的网络服务器使用，我的DAG仍然存在。我可以使用CLI(list_dags)列出它们，描述它们(list_tasks)，甚至触发它们(trigger_dag)。重现问题的最小示例我用来重现该问题的最小示例如下所示。使用钩

网络服务 Composer code python python-2.7 airflow airflow-scheduler google-cloud-composer