jjzjj

从0到1介绍一下开源大数据服务平台dataService

诸葛子房_ 2024-05-23 原文

1.背景&现状

在大数据领域也已经工作了多年,无论所待过的大公司还是小公司,统计出来的数据经常需要查询展示,比如说:用做大屏或者报表或者给一些线上服务提供数据源,经常会要用代码写一套接口服务,需要进行开发-测试-上线等一套流程,开发效率非常低下,导致开发一个服务需要接近0.5天或者1天的时间。

不少大厂其实对于这个平台也有建设,甚至拿出来单独售卖((比如阿里datawork里面的数据服务、网易猛犸EasyDS)),但是收费确实不低,因此想着根据自己的工作经验,开发出这样一套产品,由于之前开源的数据对比平台命名为dataCompare,因此这个平台命名为dataService,即:数据服务

主要解决如下几个问题:

(1)开发一个api接口服务需要进行开发-测试-上线等一套流程,通常至少需要0.5天到1天

(2)为了满足不同的数据量要求,选择不同的数据存储,因此导致数据存储多样性(比如:Mysql、Oracle、Hbase、Doris等等),所以针对不同的存储开发代码不一致

(3)接口服务不规范,不同的开发人员,对于接口开发不一致

(4)数据和接口没办法复用,不同的业务选择相同的数据表,建立各自的接口服务,但是存在接口和数据冗余问题

(5)不清楚哪些数据被哪些应用访问,导致停掉数据加工任务并不清楚会影响哪些业务

2.目标

为了解决上述问题因此开发了开源大数据服务平台——dataService


(1)采用写sql低代码或者界面交互、勾选的方式即可api服务的开发、测试和上线,同时避免了针对不同的数据存储进行代码适配开发,开发效率至少提升50%

(2)接口规范化:通过数据服务平台实现接口规范化,避免不同的开发人员开发习惯不一致导致标准不一致

(3)构建api集市实现接口的可复用,避免数据和接口冗余问题

(4)通过数据血缘和接口血缘,打通数据加工和服务的全链路

3.系统核心功能介绍

目前dataService已经完成如下功能:

(1)通过简单配置或者写sql等低代码的方式即可实现api服务的开发和测试

(2)目前已经支持Mysql、Doris、Hive 等数据源

整体流程如下:

(1)流程一:新建数据源——新建API服务

流程一

(2)流程二:根据数据源类型创建数据源连接

流程二

(3)流程三:新建API服务——配置sql——测试API服务——上线

SELECT 
  name, 
  addr as address, 
  sum(num) as total_num 
FROM 
  table_name 
WHERE 
  user_id = ${uid}; 
(1) SELECT查询的字段即为API返回参数 
(2) 如果定义了字段别名,则返回参数名称为字段别名 
(3) 支持SQL函数 
(4) WHERE条件中的参数为API请求参数,参数格式为${参数名}

 (4)流程四:发布API服务到API集市供业务方调用

4.系统架构设计

数据服务平台能够解决数据服务统一化,便于数据服务的治理、指标口径的统一。能够提升业务的开发效率,更快的面对业务的变化。数据服务平台主要分如下三层:

(1)数据应用接入层:主要是针对外部应用接入,包含:HTTP服务、RPC服务、Client 服务

(2)数据服务解析层:主要通过SQL方式访问各种数据存储,然后生成对应数据服务。核心功能:SQL解析、SQL校验、SQL路由、数据查询

(3)数据存储层:主要包含数据的存储管理,MySQL、Redis、Doris、Hive等等。都能很好的支持,提供API服务

5.系统功能演示

主页

 添加数据源

 数据源管理

新建api服务

 api服务测试

6.后续规划

(1)上线api服务 pull方式的数据自动推送获取

(2)api服务限流和监控

(3)服务血缘探测、服务编排

7.核心代码开源

https://github.com/zhugezifang/dataService

https://gitee.com/ZhuGeZiFang/dataService

有关从0到1介绍一下开源大数据服务平台dataService的更多相关文章

  1. ruby - 使用 ruby​​ 和 savon 的 SOAP 服务 - 2

    我正在尝试使用ruby​​和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封,在我看来soap请求没有正确的命名空间。任何人都可以建议我

  2. ruby - 具有身份验证的私有(private) Ruby Gem 服务器 - 2

    我想安装一个带有一些身份验证的私有(private)Rubygem服务器。我希望能够使用公共(public)Ubuntu服务器托管内部gem。我读到了http://docs.rubygems.org/read/chapter/18.但是那个没有身份验证-如我所见。然后我读到了https://github.com/cwninja/geminabox.但是当我使用基本身份验证(他们在他们的Wiki中有)时,它会提示从我的服务器获取源。所以。如何制作带有身份验证的私有(private)Rubygem服务器?这是不可能的吗?谢谢。编辑:Geminabox问题。我尝试“捆绑”以安装新的gem..

  3. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  4. ruby-on-rails - 启动 Rails 服务器时 ImageMagick 的警告 - 2

    最近,当我启动我的Rails服务器时,我收到了一长串警告。虽然它不影响我的应用程序,但我想知道如何解决这些警告。我的估计是imagemagick以某种方式被调用了两次?当我在警告前后检查我的git日志时。我想知道如何解决这个问题。-bcrypt-ruby(3.1.2)-better_errors(1.0.1)+bcrypt(3.1.7)+bcrypt-ruby(3.1.5)-bcrypt(>=3.1.3)+better_errors(1.1.0)bcrypt和imagemagick有关系吗?/Users/rbchris/.rbenv/versions/2.0.0-p247/lib/ru

  5. ruby-on-rails - s3_direct_upload 在生产服务器中不工作 - 2

    在Rails4.0.2中,我使用s3_direct_upload和aws-sdkgems直接为s3存储桶上传文件。在开发环境中它工作正常,但在生产环境中它会抛出如下错误,ActionView::Template::Error(noimplicitconversionofnilintoString)在View中,create_cv_url,:id=>"s3_uploader",:key=>"cv_uploads/{unique_id}/${filename}",:key_starts_with=>"cv_uploads/",:callback_param=>"cv[direct_uplo

  6. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  7. ruby - 用 Ruby 编写一个简单的网络服务器 - 2

    我想在Ruby中创建一个用于开发目的的极其简单的Web服务器(不,不想使用现成的解决方案)。代码如下:#!/usr/bin/rubyrequire'socket'server=TCPServer.new('127.0.0.1',8080)whileconnection=server.acceptheaders=[]length=0whileline=connection.getsheaders想法是从命令行运行这个脚本,提供另一个脚本,它将在其标准输入上获取请求,并在其标准输出上返回完整的响应。到目前为止一切顺利,但事实证明这真的很脆弱,因为它在第二个请求上中断并出现错误:/usr/b

  8. ruby-on-rails - 在 Rails 中调试生产服务器 - 2

    您如何在Rails中的实时服务器上进行有效调试,无论是在测试版/生产服务器上?我试过直接在服务器上修改文件,然后重启应用,但是修改好像没有生效,或者需要很长时间(缓存?)我也试过在本地做“脚本/服务器生产”,但是那很慢另一种选择是编码和部署,但效率很低。有人对他们如何有效地做到这一点有任何见解吗? 最佳答案 我会回答你的问题,即使我不同意这种热修补服务器代码的方式:)首先,你真的确定你已经重启了服务器吗?您可以通过跟踪日志文件来检查它。您更改的代码显示的View可能会被缓存。缓存页面位于tmp/cache文件夹下。您可以尝试手动删除

  9. ruby - 我如何添加二进制数据来遏制 POST - 2

    我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_

  10. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

随机推荐