我正在使用 spark 2.3.0 和 Hadoop 2.7(但如果需要我可以升级)
我想访问具有 ARN(亚马逊资源名称)IAM 角色的 S3 文件 https://docs.aws.amazon.com/cli/latest/userguide/cli-multiple-profiles.html
我已经看过这个 How to access s3a:// files from Apache Spark?但是没有关于IAM访问的问题
public class test {
public static void main(String[] args) {
SparkSession sc = new SparkSession.Builder()
.appName("test")
.config("spark.master", "local[*]") //for example
.config("spark.hadoop.fs.s3a.access.key", "****")
.config("spark.hadoop.fs.s3a.secret.key", "****")
// .config("spark.hadoop.fs.s3a.arn_role","arn:aws:iam::***:role/******"")
.getOrCreate();
sc.read().format("csv").load("s3a://toto/****.csv").printSchema();
}
}
我没有找到任何选项或配置
我也在寻找一个在 spark 提交上使用 args 的解决方案,但不在配置文件中(这需要动态)
你有什么想法吗?
最佳答案
对 IAM 假定角色的显式支持是 S3A 代码中的一项非常新的功能 HADOOP-15141 , 仍然不完全稳定 HADOOP-15583 ,因此您不会通过升级获得任何 yield 。
2.8 的 session 凭证支持可能是什么HADOOP-12537
在这里,您需要以某种方式获取您的 IAM 角色的临时凭证(也许是 AWS CLI?如果不是,您可以使用一点 AWS SDK 来执行此操作。想象一下 this code 和 this 的混合。
assumeRole 代码为您提供 session 凭证集(访问 key 、 secret key 、 session token ),然后您需要在 spark 上下文中设置它,并将凭证提供程序切换为临时提供程序,如前所述here .
然后您应该能够在该 IAM 角色中通过 spark 工作,直到 session 到期(现在已经延长到持续几个小时;直到 2018 年 3 月,它们只持续了几分钟)。
Hadoop 3.1+ 中完整的 IAM 角色支持让您可以声明 IAM 角色和任何额外的策略,并让连接器自动让您登录,然后定期刷新 session token 。您不会拥有它,因此您的 Spark 作业的持续时间不会超过您在启动时获得的凭据的生命周期。
关于amazon-web-services - spark aws S3a ARN(亚马逊资源名称)IAM 角色,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51540858/
从给定URL下载文件并立即将其上传到AmazonS3的更直接的方法是什么(+将有关文件的一些信息保存到数据库中,例如名称、大小等)?现在,我既不使用Paperclip,也不使用Carrierwave。谢谢 最佳答案 简单明了:require'open-uri'require's3'amazon=S3::Service.new(access_key_id:'KEY',secret_access_key:'KEY')bucket=amazon.buckets.find('image_storage')url='http://www.ex
我目前正在使用带有Carrierwavegem的Rails3.2将文件上传到AmazonS3。现在我需要能够处理用户提交的大于5GB的文件,同时仍然使用Carrierwavegem。Carrierwave或Fog是否有任何其他gem或分支可以处理5GB以上的文件上传到S3?编辑:我不想重写一个完整的Rails上传解决方案,所以像这样的链接没有帮助:https://gist.github.com/908875. 最佳答案 我想出了如何做到这一点,并且现在可以正常工作了。在正确的config/environment文件中,添加以下内容以
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visitthehelpcenter.关闭9年前。我需要从基于ruby的应用程序使用AmazonSimpleNotificationService,但不知道从哪里开始。您对从哪里开始有什么建议吗?
我正在关注Hartl的railstutorial.org并已到达11.4.4:Imageuploadinproduction.我做了什么:注册亚马逊网络服务在AmazonIdentityandAccessManagement中,我创建了一个用户。用户创建成功。在AmazonS3中,我创建了一个新存储桶。设置新存储桶的权限:权限:本教程指示“授予上一步创建的用户读写权限”。但是,在存储桶的“权限”下,未提及新用户名。我只能在每个人、经过身份验证的用户、日志传送、我和亚马逊似乎根据我的名字+数字创建的用户名之间进行选择。我已经通过选择经过身份验证的用户并选中了上传/删除和查看权限的框(而不
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:AmazonAPIlibraryforPython?我正在寻找一个AmazonAPI,它可以让我:按书名或作者查找书籍显示书籍封面获取有关每本书的信息(价格、评级、评论数、格式、页数等)Python或Ruby库都可以(我只想要最容易使用的库)。有什么建议么?我知道在SO上还有其他一些关于此的帖子,但这些API似乎很快就过时了。[几个月前我尝试了几个建议的Ruby库,但无法让它们中的任何一个工作。]
我正在尝试上传文件。一个简单的hello.txt。我正在关注文档,但无法将其上传到我的存储桶。#STARTAWSCLIENTs3=Aws::S3::Resource.newbucket=s3.bucket(BUCKET_NAME)begins3.buckets[BUCKET_NAME].objects[KEY].write(:file=>FILE_NAME)puts"Uploadingfile#{FILE_NAME}tobucket#{BUCKET_NAME}."bucket.objects.eachdo|obj|puts"#{obj.key}=>#{obj.etag}"endresc
下面是我用来从应用程序中解析CSV的代码,但我想解析位于AmazonS3存储桶中的文件。当推送到Heroku时它也需要工作。namespace:csvimportdodesc"ImportCSVDatatoInventory."task:wiwt=>:environmentdorequire'csv'csv_file_path=Rails.root.join('public','wiwt.csv.txt')CSV.foreach(csv_file_path)do|row|p=Wiwt.create!({:user_id=>row[0],:date_worn=>row[1],:inven
我想在AmazonOpsWorks上使用Ruby2.0,所以我正在尝试以下操作:选择自定义Recipe并将它们设置到我的forkhttps://github.com/aws/opsworks-cookbooks在此处更新所有版本号https://github.com/aws/opsworks-cookbooks/blob/master/ruby/attributes/ruby.rb到2.0值。虽然这似乎没有任何效果。自定义说明书是否会覆盖其内置的说明书?OpsWorks是否使用Recipe中的Ruby配方来进行基本的Ruby设置?同样的问题也适用于Nginx-我可以通过更改Recipe
我正在按照我一直在研究的研讨会实现“服务对象”,我正在构建一个redditAPI应用程序。我需要对象返回一些东西,所以我不能只执行初始化程序中的所有内容。我有这两个选择:选项1:类需要实例化classSubListFromUserdefuser_subscribed_subs(client)@client=client@subreddits=sort_subs_by_name(user_subs_from_reddit)endprivatedefsort_subs_by_name(subreddits)subreddits.sort_by{|sr|sr[:name].downcase}
我有一个关于配置elasticsearch以连接AWSelasticsearch服务以在生产环境中运行项目的问题。我的gem文件:gem'searchkick'gem'faraday_middleware-aws-signers-v4'gem'aws-sdk','~>2'gem"elasticsearch",">=1.0.15"引用:https://github.com/ankane/searchkick我的config/initializers/elasticsearch.rb文件:require"faraday_middleware/aws_signers_v4"ENV["ELAS