前言
作为一名架构师,在带领团队进行项目开发时,笔者认为一定要遵循一个原则:能借助第三方工具解决的开发任务,尽量用工具解决,以此来减少开发量,这样不但能够提高团队的工作效率,便于项目及时交付,也能在开发人员数量一定的条件下,更容易把余下的开发工作做好,也更容易提高代码质量,提高软件的稳定性。这对于交付项目,交付合格的软件产品是有好处的。
本文探索的内容正是用kettle这个ETL工具来调用Restful API,解决数据采集的问题。这样利用成熟的开源工具通过配置参数,就能调用接口,进行数据采集,相比安排开发人员编写代码,调试,代码提交,安排人员部署,测试人员测试,管理人员代码审核……,提高的工作效率是几何级的。如有赞同笔者观点的,请点个赞,谢谢!
1 概述
kettle 中文名称叫水壶,是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。可以在 Linux、windows、unix 中运行。有图形界面,也有命令脚本还可以二次开发。当然它也可以用来调用Restful API 来采集数据,本文讲述的就是如何用kettle 调用Restful API,采集数据。
2 控件介绍
首先介绍一下本项目中用到的组件:
※生成记录:主要设置一些ETL转换中用到的一些变量及其值。
※REST Client:访问Restful接口的控件。
※JSON input:主要是对JSON格式的数据源进行解析。
※字段选择:选择挑选ETL转换中一些字段,起到过滤的作用。
※生成随机数:生成随机数的控件。
※表输出:表输出控件是向数据库的表中写入数据的控件。
3 主要思路
基于组件REST Client 请求 Restful API ,先访问获取token的Restful API,在得到包含token的结果集后,再用组件JSON input 从中抽取token,然后再用另一个组件REST Client 携带得到的token,访问包含业务数据的Restful API,经组件字段选择过滤后,再经组件表输出,将数据写入目标数据库对应的表。
4 应用场景
在数据ETL过程中,需要调用对方接口来获取数据,并向自己的数据库中插入大量业务数据的场景。
5 准备工作
※建一个数据库,并建一个目标表,表中要包含抽取的字段。
※准备一个postman工具来配合接口测试,验证接口是否能正常调用。
以下为二个测试接口样例:
1) 获取token接口
※ URL: http://...:9080/auth/bizlogin
※ 请求方式:POST
※ 请求参数格式:JSON
※ 请求参数:
{
“username”:“134********”,
“password”:“123456”
}
※ 返回参数格式:JSON
※ 返回参数:
{
“code”:200,
“msg”:null,
“data”:{
“token”:“5092db2c-f126-40bd-b699-bfcc1634d9b6”,
“userid”:12,
“username”:“134********”,
}
}

2) 业务接口
※ URL: http://...:9080/biz/cocUser/userInfo?userId=12
※ 请求方式:GET
※ 请求参数格式:URL中携带请求参数
※ 请求参数:
userId
※ 返回参数格式:JSON
※ 返回参数:
{
“code”:200,
“msg”:“成功!”,
“data”:{
“userId”:11,
“userName”:“mx”,
“cellphoneNumber”:“134********”,
“email”:“hel**********@126.com”,
“createTime”:“2022-12-25 10:06:55”,
“updateTime”:null,
“auditing”:0,
“status”:0
}
}
如图:

6 最终页面效果图

7 操作步骤
7.1 第1步
启动spoon,新建一个转换,拖入1个生成记录,1个REST Client(命名为” REST Client获取token”),1个JSON input(命名为“JSON input_token”),1个字段选择(命名为“字段选择(token)”),再拖入一个REST Client(命名为” REST client(获取业务信息)”),再拖入一个JSON input(命名为“JSON input_userinfo”),再拖入1个字段选择(命名为“字段选择(过滤字段)”),拖入一个生成随机数,再拖入一个表输出,则完成全部控件的拖入。如图所示:

7.2 第2步
双击组件生成记录,然后填入下面三个参数,即前面的接口访问路径及接口参数:

如图:

将生成记录与REST client(获取token)关联,如图:

7.3 第3步
双击组件REST Client,然后填入下面参数,见下图:

将REST client(获取token)与JSON input _token关联,如图:

7.4 第4步
双击JSON input _token,输入如下参数,如图:

切换到“字段”页面,并填入相应参数,如图:

将JSON input _token 与字段选择(token)关联,如图:

7.5 第5步
双击组件字段选择(token),并填入相应参数,如图:

将字段选择(token)与REST client(获取业务信息)关联,如图:

7.6 第6步
双击组件REST client(获取业务信息),并填入相应参数,如图:

切换到Headers页面,输入Authorization 和 token,如图:

将组件REST client(获取业务信息)与JSON input_userinfo关联,如图:

7.7 第7步
双击组件JSON input_userinfo,并填入相应参数,如图:

切换到“字段”页面,并填入相应参数,如图:

注:如果上面图片看不太清楚,请参考下面例子,路径的输入要正确:
名称:userId 路径:$…data.userId 类型 :integer
将JSON input_userinfo 与字段选择(过滤字段)关联,如图:

7.8 第8步
双击组件字段选择(过滤字段),并填入相应参数,如图:

切换到元数据页面,并输入相应参数,如图:

将字段选择(过滤字段)与生成随机数关联,如图:

7.9 第9步
双击组件生成随机数,并输入相应参数,如图:

将组件生成随机数与组件表输出关联,如图:

7.10 第10步
双击组件表输出,并填入相应参数,如图:

先勾选“指定数据库字段”,并切换到“数据库字段”页面,点击“获取字段”,编辑或输入相应参数(注:要区分表字段和流字段),如图:

7.11 第11步
点击运行转换按钮,运行后,各个节点均绿色并打钩状态,如图:

打开数据库对应的表,发现数据已导入,如图:

至此,经过上面的11个步骤,完成了kettle对Restful API的调用。
我正在尝试编写一个将文件上传到AWS并公开该文件的Ruby脚本。我做了以下事情:s3=Aws::S3::Resource.new(credentials:Aws::Credentials.new(KEY,SECRET),region:'us-west-2')obj=s3.bucket('stg-db').object('key')obj.upload_file(filename)这似乎工作正常,除了该文件不是公开可用的,而且我无法获得它的公共(public)URL。但是当我登录到S3时,我可以正常查看我的文件。为了使其公开可用,我将最后一行更改为obj.upload_file(file
如何在ruby中调用C#dll? 最佳答案 我能想到几种可能性:为您的DLL编写(或找人编写)一个COM包装器,如果它还没有,则使用Ruby的WIN32OLE库来调用它;看看RubyCLR,其中一位作者是JohnLam,他继续在Microsoft从事IronRuby方面的工作。(估计不会再维护了,可能不支持.Net2.0以上的版本);正如其他地方已经提到的,看看使用IronRuby,如果这是您的技术选择。有一个主题是here.请注意,最后一篇文章实际上来自JohnLam(看起来像是2009年3月),他似乎很自在地断言RubyCL
我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java,并成功地将它与另一个Java包一起使用,但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www
我需要一些关于TDD概念的帮助。假设我有以下代码defexecute(command)casecommandwhen"c"create_new_characterwhen"i"display_inventoryendenddefcreate_new_character#dostufftocreatenewcharacterenddefdisplay_inventory#dostufftodisplayinventoryend现在我不确定要为什么编写单元测试。如果我为execute方法编写单元测试,那不是几乎涵盖了我对create_new_character和display_invent
在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList()Obt
1.postman介绍Postman一款非常流行的API调试工具。其实,开发人员用的更多。因为测试人员做接口测试会有更多选择,例如Jmeter、soapUI等。不过,对于开发过程中去调试接口,Postman确实足够的简单方便,而且功能强大。2.下载安装官网地址:https://www.postman.com/下载完成后双击安装吧,安装过程极其简单,无需任何操作3.使用教程这里以百度为例,工具使用简单,填写URL地址即可发送请求,在下方查看响应结果和响应状态码常用方法都有支持请求方法:getpostputdeleteGet、Post、Put与Delete的作用get:请求方法一般是用于数据查询,
说在前面这部分我本来是合为一篇来写的,因为目的是一样的,都是通过独立按键来控制LED闪灭本质上是起到开关的作用,即调用函数和中断函数。但是写一篇太累了,我还是决定分为两篇写,这篇是调用函数篇。在本篇中你主要看到这些东西!!!1.调用函数的方法(主要讲语法和格式)2.独立按键如何控制LED亮灭3.程序中的一些细节(软件消抖等)1.调用函数的方法思路还是比较清晰地,就是通过按下按键来控制LED闪灭,即每按下一次,LED取反一次。重要的是,把按键与LED联系在一起。我打算用K1来作为开关,看了一下开发板原理图,K1连接的是单片机的P31口,当按下K1时,P31是与GND相连的,也就是说,当我按下去时
如何找到调用此方法的位置?defto_xml(options={})binding.pryoptions=options.to_hifoptions&&options.respond_to?(:to_h)serializable_hash(options).to_xml(options)end 最佳答案 键入caller。这将返回当前调用堆栈。文档:Kernel#caller.例子[0]%rspecspec10/16|===================================================62=====
Rails相对较新。我正在尝试调用一个API,它应该向我返回一个唯一的URL。我的应用程序中捆绑了HTTParty。我已经创建了一个UniqueNumberController,并且我已经阅读了几个HTTParty指南,直到我想要什么,但也许我只是有点迷路,真的不知道该怎么做。基本上,我需要做的就是调用API,获取它返回的URL,然后将该URL插入到用户的数据库中。谁能给我指出正确的方向或与我分享一些代码? 最佳答案 假设API为JSON格式并返回如下数据:{"url":"http://example.com/unique-url"
我正在写一篇关于在Ruby中几乎一切都是对象的博客文章,我试图通过以下示例来展示这一点:classCoolBeansattr_accessor:beansdefinitialize@bean=[]enddefcount_beans@beans.countendend所以从类中我们可以看出它有4个方法(当然,除非我错了):它可以在创建新实例时初始化一个默认的空bean数组它可以计算它有多少个bean它可以读取它有多少个bean(通过attr_accessor)它可以向空数组写入(或添加)更多bean(也通过attr_accessor)但是,当我询问类本身它有哪些实例方法时,我没有看到默认