java - 如何在 mapreduce Hadoop 中执行类似于 SQL 的 Between Operator

coder 2024-01-09 原文

我正在尝试编写一个 mapreduce 作业，它将模拟 sql 查询的 between 运算符

我的情况是我有 2 个 hdfs 文件:

HDFS 文件 1 包含开始日期、结束日期和更改日期:

Start Date    | End Date   |    Changed Date
dd/MM/yyyy    | dd/MM/yyyy |    dd/MM/yyyy
dd/MM/yyyy    | dd/MM/yyyy |    dd/MM/yyyy
dd/MM/yyyy    | dd/MM/yyyy |    dd/MM/yyyy
... ... ..

HDFS 文件 2 包含需要执行 between operator 的数据

Data 1    |   Data 2     |  DATE data | other data......
Data 1    |   Data 2     |  DATE data | other data......
Data 1    |   Data 2     |  DATE data | other data......
Data 1    |   Data 2     |  DATE data | other data......
...

我需要用 HDFS 文件 1 的“更改日期”值更改 HDFS 文件 2 的“日期数据”

如果且仅当

HDFS 文件 2 的“日期数据”在 HDFS 文件 1 的“开始日期”和“结束日期”之间

基本上它是SQL查询的where子句中的Between Operation

在 hadoop 中解决此问题的最佳或适当方法是什么。

我应该写 HIVE 或 PIG 还是使用 HBASE 来解决这个问题？

我和一个 Hadoop 顾问随便讨论，他说编写自定义 Map Reduce 作业会更灵活，执行速度更快。
此外，它还有助于设计。

我这样做基本上是为了执行 ETL 操作。

请建议最佳方法以及如何通过自定义 Map reduce 来完成
编程。

最佳答案

如果两个表都是结构化的，您可以在 Hive 中将它们创建为外部表并运行一个简单的 sql 来获取所需的结果。或者自定义查找 mapreduce 也可以完成这项工作。自定义查找程序会更便宜

关于java - 如何在 mapreduce Hadoop 中执行类似于 SQL 的 Between Operator，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24468402/

何在 mapreduce 自定 section yyyy java hadoop parallel-processing hbase

有关java - 如何在 mapreduce Hadoop 中执行类似于 SQL 的 Between Operator的更多相关文章

ruby - 如何在 Ruby 中顺序创建 PI - 2
出于纯粹的兴趣，我很好奇如何按顺序创建PI，而不是在过程结果之后生成数字，而是让数字在过程本身生成时显示。如果是这种情况，那么数字可以自行产生，我可以对以前看到的数字实现垃圾收集，从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法，类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits
ruby-openid:执行发现时未设置@socket - 2
我在使用omniauth/openid时遇到了一些麻烦。在尝试进行身份验证时，我在日志中发现了这一点:OpenID::FetchingError:Errorfetchinghttps://www.google.com/accounts/o8/.well-known/host-meta?hd=profiles.google.com%2Fmy_username:undefinedmethod`io'fornil:NilClass重要的是undefinedmethodio'fornil:NilClass来自openid/fetchers.rb，在下面的代码片段中:moduleNetclass
ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
ruby-on-rails - 如何在 ruby 中使用两个参数异步运行 exe？ - 2
exe应该在我打开页面时运行。异步进程需要运行。有什么方法可以在ruby中使用两个参数异步运行exe吗？我已经尝试过ruby命令-system()、exec()但它正在等待过程完成。我需要用参数启动exe，无需等待进程完成是否有任何rubygems会支持我的问题？最佳答案您可以使用Process.spawn和Process.wait2:pid=Process.spawn'your.exe','--option'#Later...pid,status=Process.wait2pid您的程序将作为解释器的子进程执行。除
ruby - 如何在续集中重新加载表模式？ - 2
鉴于我有以下迁移:Sequel.migrationdoupdoalter_table:usersdoadd_column:is_admin,:default=>falseend#SequelrunsaDESCRIBEtablestatement,whenthemodelisloaded.#Atthispoint,itdoesnotknowthatusershaveais_adminflag.#Soitfails.@user=User.find(:email=>"admin@fancy-startup.example")@user.is_admin=true@user.save!ende
ruby - 如何在 Ruby 中拆分参数字符串 Bash 样式？ - 2
我正在为一个项目制作一个简单的shell，我希望像在Bash中一样解析参数字符串。foobar"helloworld"fooz应该变成:["foo","bar","helloworld","fooz"]等等。到目前为止，我一直在使用CSV::parse_line，将列分隔符设置为""和.compact输出。问题是我现在必须选择是要支持单引号还是双引号。CSV不支持超过一个分隔符。Python有一个名为shlex的模块:>>>shlex.split("Test'helloworld'foo")['Test','helloworld','foo']>>>shlex.split('Test"
ruby - 如何在 Lion 上安装 Xcode 4.6，需要用 RVM 升级 ruby - 2
我实际上是在尝试使用RVM在我的OSX10.7.5上更新ruby，并在输入以下命令后:rvminstallruby我得到了以下回复:Searchingforbinaryrubies,thismighttakesometime.Checkingrequirementsforosx.Installingrequirementsforosx.Updatingsystem.......Errorrunning'requirements_osx_brew_update_systemruby-2.0.0-p247',pleaseread/Users/username/.rvm/log/138121
ruby - Chef 执行非顺序配方 - 2
我遵循了教程http://gettingstartedwithchef.com/,第1章。我的运行list是"run_list":["recipe[apt]","recipe[phpap]"]我的phpapRecipe默认Recipeinclude_recipe"apache2"include_recipe"build-essential"include_recipe"openssl"include_recipe"mysql::client"include_recipe"mysql::server"include_recipe"php"include_recipe"php::modul
java - 等价于 Java 中的 Ruby Hash - 2
我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么？最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设？关于java-等价于Java中的RubyHash，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/22737685/

java - 如何在 mapreduce Hadoop 中执行类似于 SQL 的 Between Operator

有关java - 如何在 mapreduce Hadoop 中执行类似于 SQL 的 Between Operator的更多相关文章

随机推荐