BigData

java - 如何使用 Java 将数据从 sas 服务器拉到 hdfs？

我想从sasServer中提取数据并将其放入HDFS。我想使用java代码实现相同的任何想法。最佳答案最简单的机制是安装Hadoop客户端库，然后通过客户端命令将SAS文件上传到HDFS:hadoopfs-put如果您不想使用客户端命令，您始终可以编写自己的java应用程序来执行从SAS服务器到HDFS的上传。一段未经测试的示例代码，使用fs.FileSystem.copyFromLocalFile接口(interface)传输文件:packageorg.mycompany;importjava.security.Privile

java section hadoop 34 sas bigdata

hadoop - 元数据错误 : org. apache.thrift.transport.TTransportException

这个错误是什么意思？“元数据错误:org.apache.thrift.transport.TTransportException？”在什么情况下会出现此错误？我在创建表和将数据加载到表中时遇到此错误。最佳答案 org.apache.thrift.transport.TTransportException，这是一个非常普遍的错误，该消息描述了hiveserver有问题并建议您查看Hive日志。如果您能够访问完整的日志堆栈并共享确切的详细信息，则可能会找到此问题的真正原因。大多数时候，我遇到这个错误就像配置单元元数据问题、无法访问配置

TTransportException transport section 配置单 hadoop hive bigdata cloudera-cdh

logging - cdh4 hadoop 中作业的详细日志在哪里？

我只是在hdfs中找到jobhistory/home/mps/cdh/users/history/done_intermediate/mps/job_1405497023620_0009-1405505656182-mps-simjoin%2D1.0.jar-1405505683781-0-0-FAILED-default.jhist但是这个工作历史信息远非像这样的详细信息:{"type":"TASK_FAILED","event":{"org.apache.hadoop.mapreduce.jobhistory.TaskFailed":{"taskid":"task_14054970

志在 logging 34 section code hadoop mapreduce bigdata cloudera

java - 使用 Spark [`cartesian()` 问题创建邻居矩阵]

我是Spark初学者，我面临以下问题:我有一个项目集合(假设它们是笛卡尔坐标或二维点)，我想获取每个项目的附近元素。决定一个项目是否靠近另一个取决于一个函数(假设我们想要所有欧几里德距离小于给定值的点)。当然，获得一个点的邻居是微不足道的，我已经做到了。只需过滤项目即可。我不能做的是为集合中的所有点获取它们，我不知道如何有效地做到这一点。我在这里写了一个我想从一个小数据集中得到的结果的例子，以更清楚地说明我的需求:sourceData=[(0,1),(1,1),(0,0),(50,10),(51,11)]result=[(0,1)=>[(1,1),(0,0)],(1,1)=>[(0,1

cartesian Spark code section 选点 java hadoop apache-spark bigdata cartesian-product

hadoop - Hive Oozie 错误处理

有没有人对Oozie异常/错误处理的最佳实践有什么建议？我们在Oozie工作流中有HiveActions，发现错误没有足够详细地记录。我们需要更多的堆栈跟踪和每个失败的更多上下文。有什么建议吗？提前致谢...喜满树最佳答案一旦oozie作业提交，Yarn将负责完成mapreduce的操作。作业提交到yarn后，检查mapredhistoryserver中的日志，或者通过oozie中的作业日志以及webUI中的错误代码列表进行检查。关于hadoop-HiveOozie错误处理，我

hadoop Oozie section strong stackoverflow error-handling hive bigdata

hadoop - 无法在 hadoop 2.6 中格式化 Namenode？

我已经在ubuntu14.04上安装了hadoop2.6。我刚刚关注了thisblog.当我尝试格式化名称节点时，我遇到了以下错误:hduser@data1:~$hadoopnamenode-formatDEPRECATED:Useofthisscripttoexecutehdfscommandisdeprecated.Insteadusethehdfscommandforit./usr/local/hadoop/bin/hdfs:line276:/home/hduser/usr/lib/jvm/java-7-openjdk-amd64/bin/java:Nosuchfileordir

hadoop Namenode section blockquote bigdata

maven - DataTorrent - 开发 Hello World 应用程序

我是DataTorrent的新手。我正在尝试使用this使用数据洪流构建示例应用程序链接，但此页面上提供的信息没有太大帮助。我使用以下命令创建了一个maven项目，如页面上所述。mvnarchetype:generate-DarchetypeRepository=https://www.datatorrent.com/maven/content/repositories/releases-DarchetypeGroupId=com.datatorrent-DarchetypeArtifactId=apex-app-archetype-DarchetypeVersion=3.0.0-Dg

DataTorrent maven section com hadoop curl bigdata

hadoop - Spark + yarn 簇: how can i configure physical node to run only one executor\task each time?

我的环境包含4个物理节点和少量RAM，每个节点有8个CPU内核。我注意到spark会自动决定为每个CPU分配RAM。结果是发生了内存错误。我正在处理大数据结构，我希望每个执行程序都将在物理节点上拥有整个RAM内存(否则我会遇到内存错误)。我尝试在“yarn-site.xml”文件上配置“yarn.nodemanager.resource.cpu-vcores1”或在spark-defaults.conf上配置“spark.driver.cores1”但没有成功。最佳答案尝试设置spark.executor.cores1

configure executor section spark stackoverflow hadoop apache-spark hadoop-yarn bigdata

oracle - 大容量数据存储和处理

我正在构建一个新应用程序，我希望在其中获得大量地理位置数据，例如每5秒发送一次地理坐标的移动物体。这些数据需要存储在某个数据库中，以便随时用于跟踪map上的移动物体。所以，我预计每条路线每个移动物体大约有250个坐标。每个对象每天可以运行大约50条路线。我有900个这样的对象要跟踪。因此，这带来了每天大约1150万个地理坐标的存储。我必须至少在我的数据库中存储大约一周的数据。此数据基本上将用于简单查询，例如查找特定对象和特定路线的所有地理坐标。因此，查询不是很复杂，并且不会将此数据用于任何分析目的。所以，我的问题是，我应该只使用分布在两个虚拟机上的12C等普通Oracle数据库，还是应

大容大容量 section 大约地理 oracle hadoop oracle12c bigdata nosql

hadoop - 替换 ZooKeeper 服务器

我想用3个新的ZooKeeper服务器替换当前的3个ZooKeeper服务器。我已经添加:Ambari的新动物园，将新动物园添加到变量中:hbase.zookeeper.quorumha.zookeeper.quorumzookeeper.connecthadoop.registry.zk.quorumyarn.resourcemanager.zk-地址重新启动服务，重新启动RM，当我关闭所有旧的Zoo服务器时，仍然无法连接到任何新的Zoo。zookeeper-client-serverzoo-new1我收到以下错误:“无法从服务器sessionid0x0读取附加数据，可能服务器已关闭

ZooKeeper hadoop section apache-zookeeper hortonworks-data-platform ambari bigdata

9 10 111213 14 15