jjzjj

2020-07-21 下载dbgap数据

小桃学生信 2023-09-28 原文

今天把官网流程全部看了一遍按照这样操作了,看了一下数据正在下载,明天看一下有没有报错产生,不知道会有啥问题等待解决。

Source:
https://www.ncbi.nlm.nih.gov/books/NBK36439/

下载步骤

使用NCBI的SRA toolkit中的prefetch命令行功能和cart文件或者SRA accession进行下载

  1. 下载并安装Aspera connect

Aspera:一个高速文件传输系统,方便下载数据。

下载链接https://downloads.asperasoft.com/en/downloads/8?list

确保你安装的是connect
  1. 选择并保存数据信息在cart文件中
    (除了cart文件,也可以根据SRA accession下载,步骤5中详解)
  • 登录dbgap
  • 点击My Requests,查看批准的请求
approved
  • 查看request file



    选择dbGap file selctor下载基因型和表型数据



    选择SRA RUN selector下载SRA数据
  • Wait until the page loading is complete. Click on the “Help” icon on top of the page to see instruction/information about the selector).

  • 选择数据并下载Cart文件(这里是non-SRA数据)



    non-SRA cart文件
    下载的SRA cart文件
  1. 编译SRA toolkit

image.png

Quick Toolkit Configuration
https://github.com/ncbi/sra-tools/wiki/03.-Quick-Toolkit-Configuration

$ vdb-config -i

A. 选择"Remote Access"


B. 转到"Cache"选择"local file-caching"并设置路径(必须是空文件夹)


C. 转到"cloud provider"并且选择"report cloud instance identity"


image.png
  • 在编译SRA toolkit过程中导入"dbGaP repository key"
    编译后会自动创建文件夹类似于~/ncbi/dbGap-XXXXX(也叫做工作目录)
    这个目录下会有子目录,比如sra,refseq等等。
    【最近把版本更新到3.0版本后发现,不再需要额外导入dbGaP repository key了】在prefetch中增加了--ngc参数,下载时给出key即可。
prefetch --ngc prj_33085.ngc --cart cart_DAR116028_202209070105.krt
  • dbGaP repository key文件包括了SRA Toolkit所需要用来确定申请人和dbga数据所属项目的信息,那么如何下载dbGaP repository key呢?
    在action位置找到对应的批准的数据对应的project的get dbGap repository key,下载得到.ngc格式的文件。

什么是cart文件或SRA accession?

  • 数据块
    cart文件中提供了dbgap的非SRA和SRA数据文件块
  • 单个SRA
    当得到单个的SRR accession时可以下载单个的SRA run

但是不管是以上哪种情况,在执行命令前,sratoolkit都要使用dbGaP repository key来编译。

  1. 使用prefetch进行数据下
    在通过编译产生的 dbGaP project directory目录下,运行prefetch命令,把cart文件的地址写完整,
    nohup和末尾的&可以后台运行
    -X 99999999 是下载大小限制放大
    > nohup prefetch -X 9999999999999 /public/home/liuxs/taozy/dbGap/cart_DAR94672_202007210554.krt &

sra解压成fastq文件报错,使用validate检测

(wes) [myname@HPC-login sra]$ vdb-validate SRR7554958
2020-07-23T02:26:44 vdb-validate.2.10.0 info: Validating '/public/home/liuxs/ncbi/dbGaP-26086/sra/SRR7554958.sra'...
2020-07-23T02:26:44 vdb-validate.2.10.0 info: Validating  encrypted file '/public/home/liuxs/ncbi/dbGaP-26086/sra/SRR7554958.sra'...
2020-07-23T02:27:31 vdb-validate.2.10.0 info: Encrypted file '/public/home/liuxs/ncbi/dbGaP-26086/sra/SRR7554958.sra' appears valid
2020-07-23T02:27:34 vdb-validate.2.10.0 info: Database 'SRR7554958.sra' metadata: md5 ok
2020-07-23T02:27:34 vdb-validate.2.10.0 info: Table 'PRIMARY_ALIGNMENT' metadata: md5 ok
2020-07-23T02:27:34 vdb-validate.2.10.0 info: Column 'GLOBAL_REF_START': checksums ok
2020-07-23T02:27:35 vdb-validate.2.10.0 info: Column 'HAS_MISMATCH': checksums ok
2020-07-23T02:27:36 vdb-validate.2.10.0 info: Column 'HAS_REF_OFFSET': checksums ok
2020-07-23T02:27:36 vdb-validate.2.10.0 info: Column 'MAPQ': checksums ok
2020-07-23T02:27:37 vdb-validate.2.10.0 info: Column 'MISMATCH': checksums ok
2020-07-23T02:27:37 vdb-validate.2.10.0 info: Column 'REF_LEN': checksums ok
2020-07-23T02:27:38 vdb-validate.2.10.0 info: Column 'REF_OFFSET': checksums ok
2020-07-23T02:27:38 vdb-validate.2.10.0 info: Column 'REF_OFFSET_TYPE': checksums ok
2020-07-23T02:27:38 vdb-validate.2.10.0 info: Column 'REF_ORIENTATION': checksums ok
2020-07-23T02:27:39 vdb-validate.2.10.0 info: Column 'SEQ_READ_ID': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'SEQ_SPOT_ID': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Table 'REFERENCE' metadata: md5 ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'CGRAPH_HIGH': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'CGRAPH_INDELS': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'CGRAPH_LOW': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'CGRAPH_MISMATCHES': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'CIRCULAR': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'CS_KEY': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'OVERLAP_REF_LEN': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'OVERLAP_REF_POS': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'PRIMARY_ALIGNMENT_IDS': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'SECONDARY_ALIGNMENT_IDS': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'SEQ_ID': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'SEQ_LEN': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'SEQ_START': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Table 'SECONDARY_ALIGNMENT' metadata: md5 ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'GLOBAL_REF_START': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'HAS_REF_OFFSET': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'MAPQ': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'MATE_REF_ID': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'MATE_REF_ORIENTATION': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'MATE_REF_POS': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'REF_LEN': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'REF_OFFSET': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'REF_OFFSET_TYPE': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'REF_ORIENTATION': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'SEQ_READ_ID': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'SEQ_SPOT_ID': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'TEMPLATE_LEN': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'TMP_HAS_MISMATCH': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'TMP_MISMATCH': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Table 'SEQUENCE' metadata: md5 ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'ALIGNMENT_COUNT': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'CMP_ALTREAD': checksums ok
2020-07-23T02:27:44 vdb-validate.2.10.0 info: Column 'CMP_READ': checksums ok
2020-07-23T02:27:44 vdb-validate.2.10.0 info: Column 'PLATFORM': checksums ok
2020-07-23T02:27:47 vdb-validate.2.10.0 info: Column 'PRIMARY_ALIGNMENT_ID': checksums ok
2020-07-23T02:28:58 vdb-validate.2.10.0 info: Column 'QUALITY': checksums ok
2020-07-23T02:29:00 vdb-validate.2.10.0 info: Column 'RD_FILTER': checksums ok
2020-07-23T02:29:03 vdb-validate.2.10.0 info: Column 'READ_TYPE': checksums ok
2020-07-23T02:29:51 vdb-validate.2.10.0 info: Referential Integrity: SEQ_SPOT_ID <-> PRIMARY_ALIGNMENT_ID  76.3% complete
2020-07-23T02:29:53 vdb-validate.2.10.0 info: Referential Integrity: SEQ_SPOT_ID <-> PRIMARY_ALIGNMENT_ID 100.0% complete
2020-07-23T02:29:53 vdb-validate.2.10.0 info: Database '/public/home/liuxs/ncbi/dbGaP-26086/sra/SRR7554958.sra': SEQUENCE.PRIMARY_ALIGNMENT_ID <-> PRIMARY_ALIGNMENT.SEQ_SPOT_ID referential integrity ok
2020-07-23T02:30:10 vdb-validate.2.10.0 info: Referential Integrity: REF_ID <-> PRIMARY_ALIGNMENT_IDS  76.3% complete
2020-07-23T02:30:11 vdb-validate.2.10.0 info: Referential Integrity: REF_ID <-> PRIMARY_ALIGNMENT_IDS 100.0% complete
2020-07-23T02:30:11 vdb-validate.2.10.0 info: Database '/public/home/liuxs/ncbi/dbGaP-26086/sra/SRR7554958.sra': REFERENCE.PRIMARY_ALIGNMENT_IDS <-> PRIMARY_ALIGNMENT.REF_ID referential integrity ok
2020-07-23T02:30:11 vdb-validate.2.10.0 info: Database 'SRR7554958.sra' is consistent

表型数据解密

下载下来的表型数据后缀是.ncbi.enc,需要进行解密


分为导入密钥和进行解密两个步骤

$ vdb-config --import xxxx.ngc
$ vdb-decrypt xx.ncbi_enc # 单个文件解密
$ vdb-decrypt ~/ncbi/dbGaP-26086/files/ # 整个表型数据存放的文件夹进行解密

解密完成之后,文件的后缀不见了,变成了正常的文件格式
【新的版本做了更新,vdb-config --import 失效了,此功能整合进vdb-decrypt --ngc】

部分sra文件下载失败的解决方法

提取下载失败的SRRXXX名字,放入一个新的文件中,对这个新的文件进行prefetch下载

步骤:

  1. 创建一个shell脚本
$ vi download.sh

shell脚本内容如下:

cat是逐行读取文件按内容,我的文件每行都是SRA序号,就是直接`prefetch`的对象。
  1. nohup提交shell脚本

开始下载...

文件整理:

  • 从上到下分别是cart file(selected accession for processing sra toolkit)key(密钥)下载的SRA内容(full list of accession recordset)

[图片上传失败...(image-1963a2-1598250164533)]

  • 下载表型
  • 下载过程中出现的这些文件是做啥用的????

    [图片上传失败...(image-f0c890-1598250164532)]

有关2020-07-21 下载dbgap数据的更多相关文章

  1. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  2. ruby - 如何使用 Ruby aws/s3 Gem 生成安全 URL 以从 s3 下载文件 - 2

    我正在编写一个小脚本来定位aws存储桶中的特定文件,并创建一个临时验证的url以发送给同事。(理想情况下,这将创建类似于在控制台上右键单击存储桶中的文件并复制链接地址的结果)。我研究过回形针,它似乎不符合这个标准,但我可能只是不知道它的全部功能。我尝试了以下方法:defauthenticated_url(file_name,bucket)AWS::S3::S3Object.url_for(file_name,bucket,:secure=>true,:expires=>20*60)end产生这种类型的结果:...-1.amazonaws.com/file_path/file.zip.A

  3. ruby - 安装 Ruby 时遇到问题(无法下载资源 "readline--patch") - 2

    当我尝试安装Ruby时遇到此错误。我试过查看this和this但无济于事➜~brewinstallrubyWarning:YouareusingOSX10.12.Wedonotprovidesupportforthispre-releaseversion.Youmayencounterbuildfailuresorotherbreakages.Pleasecreatepull-requestsinsteadoffilingissues.==>Installingdependenciesforruby:readline,libyaml,makedepend==>Installingrub

  4. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  5. ruby - 我如何添加二进制数据来遏制 POST - 2

    我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_

  6. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

  7. Unity 热更新技术 | (三) Lua语言基本介绍及下载安装 - 2

    ?博客主页:https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创,首发于CSDN??学习专栏推荐:Unity系统学习专栏?游戏制作专栏推荐:游戏制作?Unity实战100例专栏推荐:Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正!?未来很长,值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------

  8. FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2

    本教程将在Unity3D中混合Optitrack与数据手套的数据流,在人体运动的基础上,添加双手手指部分的运动。双手手背的角度仍由Optitrack提供,数据手套提供双手手指的角度。 01  客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照:https://gitee.com/foheart_1/foheart-h1-data-summary.git02  数据转发打开MotiveBody软件的Streaming,开始向Unity3D广播数据;MotionVenus中设置->选项选择Unit

  9. 使用canal同步MySQL数据到ES - 2

    文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co

  10. Tomcat AJP 文件包含漏洞(CVE-2020-1938) - 2

    目录1.漏洞简介2、AJP13协议介绍Tomcat主要有两大功能:3.Tomcat远程文件包含漏洞分析4.漏洞复现 5、漏洞分析6.RCE实现的原理1.漏洞简介2020年2月20日,公开CNVD的漏洞公告中发现ApacheTomcat文件包含漏洞(CVE-2020-1938)。ApacheTomcat是Apache开源组织开发的用于处理HTTP服务的项目。ApacheTomcat服务器中被发现存在文件包含漏洞,攻击者可利用该漏洞读取或包含Tomcat上所有webapp目录下的任意文件。该漏洞是一个单独的文件包含漏洞,依赖于Tomcat的AJP(定向包协议)。AJP自身存在一定缺陷,导致存在可控

随机推荐