hadoop - 从 HIVE 中的 REST API 访问数据

coder 2024-01-10 原文

有没有办法创建一个配置单元表，其中该配置单元表的位置将是一个 http JSON REST API？我不想每次都在 HDFS 中导入数据。

最佳答案

几年前我在一个项目中遇到过类似的情况。这是一种将数据从 Restful 摄取到 HDFS 的低调方式，然后您使用 Hive 分析来实现业务逻辑。我希望您熟悉核心 Java，Map Reduce(如果不是，您可以查看 Hortonworks Data Flow， HDF 是 Hortonworks 的产品)。

第 1 步:您的数据摄取工作流不应绑定(bind)到包含业务逻辑的 Hive 工作流。这应该根据您的要求(数据流的数量和速度)及时独立执行并定期监控。我正在文本编辑器上编写这段代码。警告:它未经编译或测试!!

下面的代码使用了一个 Mapper，它将接受 url 或调整它以接受来自 FS 的 url 列表。有效负载或请求的数据以文本文件的形式存储在指定的作业输出目录中(这次忘记数据的结构)。

映射器类:

import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URL;
import java.net.URLConnection;

import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;


public class HadoopHttpClientMap extends Mapper<LongWritable, Text, Text, Text> {
    private int file = 0;
    private String jobOutDir;
    private String taskId;

    @Override
    protected void setup(Context context) throws IOException,InterruptedException {
        super.setup(context);

        jobOutDir = context.getOutputValueClass().getName();
        taskId = context.getJobID().toString();

    }

    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{

        Path httpDest = new Path(jobOutDir, taskId + "_http_" + (file++));

        InputStream is = null;
        OutputStream os = null;
        URLConnection connection;
        try {
            connection = new URL(value.toString()).openConnection();
            //implement connection timeout logics
            //authenticate.. etc
            is = connection.getInputStream();

            os = FileSystem.getLocal(context.getConfiguration()).create(httpDest,true);

            IOUtils.copyBytes(is, os, context.getConfiguration(), true);

        } catch(Throwable t){
            t.printStackTrace();
        }finally {
            IOUtils.closeStream(is);
            IOUtils.closeStream(os);
        }

        context.write(value, null);
        //context.write(new Text (httpDest.getName()), new Text (os.toString()));
    }

}

仅映射器作业:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;


public class HadoopHttpClientJob {
    private static final String data_input_directory  =  “YOUR_INPUT_DIR”;
    private static final String data_output_directory  =  “YOUR_OUTPUT_DIR”;

    public HadoopHttpClientJob() {
    }

    public static void main(String... args) {
        try {
            Configuration conf = new Configuration();

            Path test_data_in = new Path(data_input_directory, "urls.txt");
            Path test_data_out = new Path(data_output_directory);

            @SuppressWarnings("deprecation")
            Job job = new Job(conf, "HadoopHttpClientMap" + System.currentTimeMillis());
            job.setJarByClass(HadoopHttpClientJob.class);

            FileSystem fs = FileSystem.get(conf);

            fs.delete(test_data_out, true);
            job.setMapperClass(HadoopHttpClientMap.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(Text.class);
            job.setInputFormatClass(TextInputFormat.class);
            job.setOutputFormatClass(TextOutputFormat.class);
            job.setNumReduceTasks(0);

            FileInputFormat.addInputPath(job, test_data_in);
            FileOutputFormat.setOutputPath(job, test_data_out);

            job.waitForCompletion(true);

        }catch (Throwable t){
            t.printStackTrace();
        }
    }
}

第二步:根据HDFS目录在Hive中创建外部表。请记住对 JSON 数据使用 Hive SerDe(在您的情况下)，然后您可以将数据从外部表复制到托管主表中。这是您实现增量逻辑、压缩的步骤。

第 3 步:将您的配置单元查询(您可能已经创建)指向主表以实现您的业务需求。

注意:如果您指的是实时分析或流式 api，您可能需要更改应用程序的架构。既然你问了建筑问题，我就用我最好的有根据的猜测来支持你。请通过一次。如果您觉得可以在您的应用程序中实现这一点，那么您可以提出具体问题，我会尽力解决。

关于hadoop - 从 HIVE 中的 REST API 访问数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39735425/

有关hadoop - 从 HIVE 中的 REST API 访问数据的更多相关文章

ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他，以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时，出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer
ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗？最佳答案您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话，Rails使用#method_missing作为属性setter，因此您的模块将优先，阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost)，那么您的实例方法需要进入一个特殊的模块:classBlah
ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗？ - 2
刚入门rails，开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗？有哪些用例。您如何为Rails应用程序使用应用程序Controller？我不想在那里放太多代码，因为据我了解，每个请求都会调用此Controller。这是真的？最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度，尽管在某些情况下ApplicationContr

hadoop - 从 HIVE 中的 REST API 访问数据

有关hadoop - 从 HIVE 中的 REST API 访问数据的更多相关文章

随机推荐