我们在使用各个SQL引擎时,会有纷繁复杂的查询需求。一部分可以通过引擎自带的内置函数去解决,但内置函数不可能解决所有人的问题,所以一般SQL引擎会提供UDF功能,方便用户通过自己写逻辑来满足特定的需求,Doris也不例外。
在java UDF之前,Doris提供了两种用户可以自己实现UDF的方式:
远程UDF,其优缺点如下:
支持通过 RPC 的方式访问用户提供的 UDF Service,以实现用户自定义函数的执行
只要支持Protobuf的各类语言都能使用,有足够的安全和灵活性
额外的网络开销和基于protobuf的开发模式让该使用方式的用户望而却步
原生UDF,其优缺点如下:
支持使用C++编写UDF,执行效率高、速度快
跟Doris代码耦合度高,需要自己打包编译Doris源码
只支持C++语言并且容易造成BE挂掉
熟悉大数据组件(Hive Spark等)的用户有一定的门槛
看起来上述UDF的两种方式实现起来有点复杂。有没有相对简单,门槛较低,跟Doris代码耦合度低,对Java友好的UDF方式呢?
在 Doris 1.2.0 版本我们正式支持 Java UDF 函数,你可以像之前写 Hive udf函数一样去写自己的Doris udf函数来处理自己复杂的业务逻辑。
SinceVersion 1.2.0
Java UDF 为用户提供UDF编写的Java接口,以方便用户使用Java语言进行自定义函数的执行。相比于 Native 的 UDF 实现,Java UDF 有如下优势和限制:
优势
兼容性:使用Java UDF可以兼容不同的Doris版本,所以在进行Doris版本升级时,Java UDF不需要进行额外的迁移操作。与此同时,Java UDF同样遵循了和Hive/Spark等引擎同样的编程规范,使得用户可以直接将Hive/Spark的UDF jar包迁移至Doris使用。
安全:Java UDF 执行失败或崩溃仅会导致JVM报错,而不会导致 Doris 进程崩溃。
灵活:Java UDF 中用户通过把第三方依赖打进用户jar包,而不需要额外处理引入的三方库。
使用限制
性能:相比于 Native UDF,Java UDF会带来额外的JNI开销,不过通过批式执行的方式,我们已经尽可能的将JNI开销降到最低。
向量化引擎:Java UDF当前只支持向量化引擎。
doris 提供
UDF:用户自定义函数,user defined function。一对一的输入输出,(最常用的)。
UDAF:用户自定义聚合函数。user defined aggregate function,多对一的输入输出,类似 count sum max 等统计函数
下面我们来开始讲解怎么编写和使用 doris java udf函数。
Doris java udf 函数是基于 Hive udf 框架来实现的
继承org.apache.hadoop.hive.ql.exec.UDF
重写evaluate(),
特殊说明:
evaluate()方法不是由接口定义的,因为它可接受的参数个数,数据类型都是不确定的。Doris 会检查UDF, 看能否找到和函数调用相匹配的evaluate()方法
这里演示的是我们怎么实现一个 AES 加解密的函数
我们创建一个普通的java maven 工程
pom.xml依赖如下:
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>org.apache.doris</groupId>
<artifactId>doris.java.udf.demo</artifactId>
<version>1.0-SNAPSHOT</version>
<packaging>jar</packaging>
<name>doris.java.udf.demo</name>
<url>http://maven.apache.org</url>
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>2.3.5</version>
</dependency>
</dependencies>
<build>
<finalName>java-udf-demo</finalName>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-jar-plugin</artifactId>
<version>3.2.2</version>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-assembly-plugin</artifactId>
<version>3.3.0</version>
<configuration>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
</configuration>
<executions>
<execution>
<phase>package</phase>
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<configuration>
<source>8</source>
<target>8</target>
</configuration>
</plugin>
</plugins>
</build>
</project>
加解密工具类:
package org.apache.doris.udf.demo;
import javax.crypto.*;
import javax.crypto.spec.SecretKeySpec;
import org.apache.commons.lang3.StringUtils;
import java.security.SecureRandom;
/**
* AES encryption and decryption tool class
*
* @author zhangfeng
*/
public class AESUtil {
private static final String defaultCharset = "UTF-8";
private static final String KEY_AES = "AES";
/**
* AES encryption function method
*
* @param content
* @param secret
* @return
*/
public static String encrypt(String content, String secret) {
return doAES(content, secret, Cipher.ENCRYPT_MODE);
}
/**
* AES decryption function method
*
* @param content
* @param secret
* @return
*/
public static String decrypt(String content, String secret) {
return doAES(content, secret, Cipher.DECRYPT_MODE);
}
/**
* encryption and decryption
*
* @param content
* @param secret
* @param mode
* @return
*/
private static String doAES(String content, String secret, int mode) {
try {
if (StringUtils.isBlank(content) || StringUtils.isBlank(secret)) {
return null;
}
//Determine whether to encrypt or decrypt
boolean encrypt = mode == Cipher.ENCRYPT_MODE;
byte[] data;
//1.Construct a key generator, specified as the AES algorithm, case-insensitive
KeyGenerator kgen = KeyGenerator.getInstance(KEY_AES);
SecureRandom secureRandom = SecureRandom.getInstance("SHA1PRNG");
//2. Initialize the key generator according to the ecnodeRules rules
//Generate a 128-bit random source, based on the incoming byte array
secureRandom.setSeed(secret.getBytes());
//Generate a 128-bit random source, based on the incoming byte array
kgen.init(128, secureRandom);
//3.generate the original symmetric key
SecretKey secretKey = kgen.generateKey();
//4.Get the byte array of the original symmetric key
byte[] enCodeFormat = secretKey.getEncoded();
//5.Generate AES key from byte array
SecretKeySpec keySpec = new SecretKeySpec(enCodeFormat, KEY_AES);
//6.According to the specified algorithm AES self-generated cipher
Cipher cipher = Cipher.getInstance(KEY_AES);
//7.Initialize the cipher, the first parameter is encryption (Encrypt_mode) or decryption (Decrypt_mode) operation,
// the second parameter is the KEY used
cipher.init(mode, keySpec);
if (encrypt) {
data = content.getBytes(defaultCharset);
} else {
data = parseHexStr2Byte(content);
}
byte[] result = cipher.doFinal(data);
if (encrypt) {
//convert binary to hexadecimal
return parseByte2HexStr(result);
} else {
return new String(result, defaultCharset);
}
} catch (Exception e) {
System.out.println(e.getMessage());
}
return null;
}
/**
* convert binary to hexadecimal
*
* @param buf
* @return
*/
public static String parseByte2HexStr(byte buf[]) {
StringBuilder sb = new StringBuilder();
for (int i = 0; i < buf.length; i++) {
String hex = Integer.toHexString(buf[i] & 0xFF);
if (hex.length() == 1) {
hex = '0' + hex;
}
sb.append(hex.toUpperCase());
}
return sb.toString();
}
/**
* Convert hexadecimal to binary
*
* @param hexStr
* @return
*/
public static byte[] parseHexStr2Byte(String hexStr) {
if (hexStr.length() < 1) {
return null;
}
byte[] result = new byte[hexStr.length() / 2];
for (int i = 0; i < hexStr.length() / 2; i++) {
int high = Integer.parseInt(hexStr.substring(i * 2, i * 2 + 1), 16);
int low = Integer.parseInt(hexStr.substring(i * 2 + 1, i * 2 + 2), 16);
result[i] = (byte) (high * 16 + low);
}
return result;
}
}
加密函数
package org.apache.doris.udf.demo;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.commons.lang3.StringUtils;
public class AESEncrypt extends UDF {
public String evaluate(String content, String secret) throws Exception {
if (StringUtils.isBlank(content)) {
throw new Exception("content not is null");
}
if (StringUtils.isBlank(secret)) {
throw new Exception("Secret not is null");
}
return AESUtil.encrypt(content, secret);
}
}
解密函数
package org.apache.doris.udf.demo;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.commons.lang3.StringUtils;
public class AESDecrypt extends UDF {
public String evaluate(String content, String secret) throws Exception {
if (StringUtils.isBlank(content)) {
throw new Exception("content not is null");
}
if (StringUtils.isBlank(secret)) {
throw new Exception("Secret not is null");
}
return AESUtil.decrypt(content, secret);
}
}
mvn clean package
这个时候我们可以得到一个 java-udf-demo.jar
注册加密函数
这里有两个参数,一个是加密内容,一个是秘钥,返回值是一个字符串
CREATE FUNCTION ase_encryp(string,string) RETURNS string PROPERTIES (
"file"="file:///Users/zhangfeng/work/doris.java.udf.demo/target/java-udf-demo.jar",
"symbol"="org.apache.doris.udf.demo.AESEncrypt",
"always_nullable"="true",
"type"="JAVA_UDF"
);
注意:
这里我是单机测试,使用的是本地文件方式,如果你也是要本地文件方式需要再所有的 FE 及 BE 上相同目录下都要有这个文件
我们也可以使用http方式,让每个节点自己下载这个文件,我们更推荐这种方式,下面也给出这种方式的示例
Http 方式示例:
CREATE FUNCTION ase_encryp(string,string) RETURNS string PROPERTIES (
"file"="http://192.168.31.54/work/doris.java.udf.demo/target/java-udf-demo.jar",
"symbol"="org.apache.doris.udf.demo.AESEncrypt",
"always_nullable"="true",
"type"="JAVA_UDF"
);
然后我们执行我们刚才创建的函数
要加密的内容是:zhangfeng,秘钥是: java_udf_function
select ase_encryp('zhangfeng','java_udf_function');
从下图可以看到我们得到了加密后的结果

注册解密函数
CREATE FUNCTION ase_decryp(string,string) RETURNS string PROPERTIES (
"file"="file:///Users/zhangfeng/work/doris.java.udf.demo/target/java-udf-demo.jar",
"symbol"="org.apache.doris.udf.demo.AESDecrypt",
"always_nullable"="true",
"type"="JAVA_UDF"
);
http方式:
CREATE FUNCTION ase_decryp(string,string) RETURNS string PROPERTIES (
"file"="http://192.168.63.32/work/doris.java.udf.demo/target/java-udf-demo.jar",
"symbol"="org.apache.doris.udf.demo.AESDecrypt",
"always_nullable"="true",
"type"="JAVA_UDF"
);
验证函数
我们对上面解密的结果进行解密操作
select ase_decryp('4442106BB8C98E74D19CEC0413467810','java_udf_function');
可以看到我们得到了正确的解密结果

这样看来 Doris Java UDF 函数是不是非常简单呢,可以大大加速我们业务的开发,降低业务系统开发复杂度,而且使用大家都非常熟悉的Java 语言来开发UDF,基本每个会Java 语言的人都可以非常轻松的完成,避免的学习和开发 C++ UDF函数的难度,还不赶快行动起来。
最后来个我们公司广告
如果您对 Doris 有商业化需求,请将您的需求告诉我们,SelectDB 专业人员将为您进行 「1对1 专属服务」。同时,您还可以获得 SelectDB 商业产品「免费使用」体验。
扫描下方二维码,开启您的 SelectDB 云上之旅

我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
很好奇,就使用rubyonrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外,还有什么方法可以访问C和m中的其他内容?我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)?如何在使用完匿名模块后将其删除,使其定义的常量不再存在? 最佳答案 三个答案:是的,使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封,在我看来soap请求没有正确的命名空间。任何人都可以建议我
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t
我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库,所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po