jjzjj

scaffolds 或者是挂载的基因组拆分成Contig

球果假水晶蓝 2023-10-11 原文

How can i get contig file from the scaffold file (scaffold was generated from CLC). Is there any converter or programme? Ex : This is my scaffold : ACTGTGCATNNNNNNACGCTGCA and I want the contig file from scaffold like : Contig1 - ACTGTGCA and Contig2-ACGCTGCA

方法1:
perl 脚本

方法2:
try with FASTA/Q toolkit SeqKit and shell commands.

cat seqs.fa                \
    | seqkit fx2tab        \
    | cut -f 2             \
    | sed -r 's/n+/\n/gi'  \
    | cat -n               \
    | seqkit tab2fx        \
    | seqkit replace -p "(.+)" -r "Contig{nr}"
cat seqs.fa                \ # read file
    | seqkit fx2tab        \ # convert FASTA to tabular format: scaffold1   ACTGTGCATNNNNNNACGCTGCA
    | cut -f 2             \ # select the 2nd column          : ACTGTGCATNNNNNNACGCTGCA
    | sed -r 's/n+/\n/gi'  \ # replace the Ns with '\n'       : ACTGTGCAT
                             #                                : ACGCTGCA
    | cat -n               \ # output row number              :     1  ACTGTGCAT
                             # I just want a 2-column format  :     2  ACGCTGCA
    | seqkit tab2fx        \ # convert tabular to FASTA       : >1
                             #                                : ACTGTGCAT
    | seqkit replace -p "(.+)" -r "Contig{nr}" # renname sequence header, {nr} means row number

方法3 python2.7

#!/usr/bin/python2.7

from Bio import SeqIO
import getopt,sys,re


def usage():
    print "Usage: python contig_from_scaffold.py -i <input_scaffold_fasta> -o <output_contig_fasta>"

try:
    options, remainder=getopt.getopt(sys.argv[1:], 'i:o:h')

except getopt.GetoptError as err:
    print str(err)
    usage()
    sys.exit()

for opt, arg in options:
    if opt in ('-i'):
        input_file=arg
    if opt in ('-h'):
        usage()
    sys.exit()
    elif opt in ('-o'):
        output_file=arg

out=open(output_file, 'w')

sequence = ''.join([str(record.seq).strip() for record in SeqIO.parse(input_file, "fasta")])

m=re.sub('[nN]+','\n',sequence).split('\n')

for i in range(1,len(m)):
    out.write('>contig_'+str(i)+'\n')
    out.write(m[i]+'\n')

资料来源于 https://www.biostars.org/p/211400/
https://www.jianshu.com/p/02d0ed5b16bd

有关scaffolds 或者是挂载的基因组拆分成Contig的更多相关文章

  1. ruby-on-rails - 撤消 "rails generate scaffold"后是否需要撤消 "db:migrate"? - 2

    我是RoR的新手,我正在学习MichaelHartl的教程(所以请随意更正我在您认为合适的地方使用的术语)。在第2章中,我通过运行以下行创建了一个Users表:$railsgeneratescaffoldUsername:stringemail:string$bundleexecrakedb:migrate然后,我运行了下面的代码来尝试创建一个Microposts表(但是,我拼错了没有“r”的Micropost!)...$railsgeneratescaffoldMiropostcontent:stringuser_id:integer$bundleexecrakedb:migrate

  2. ruby-on-rails - Scaffold Rails 3 View 中的外键下拉列表 - 2

    我使用脚手架和Rails3创建了2个模型。模型是位置和作业,每个作业都有一个位置。我在脚手架生成代码中创建了所需的引用调用,但是当我查看创建新作业的View时,我看到的只是一个文本框,我应该在其中添加location_id。我怎样才能让它变成下拉菜单以获得更好的用户体验? 最佳答案 想象一下,您有每个位置的titleAPI:http://apidock.com/rails/ActionView/Helpers/FormOptionsHelper/collection_select 关于r

  3. ruby - 将正文拆分成句子但保留标点符号? - 2

    我正在尝试在2个html负载文本主体之间产生类似wiki的人类可读差异。我正在使用diff-lcs,第一步是将字符串(字符数组)分成句子数组,但保留标点符号。"Iamalion.Hearmeroar!Whereismycub?Nevermind,foundhim.".magic_split(/[.?!]/)#=>"Iamalion.""Hearmeroar!""Whereismycub?""Nevermind,foundhim."这应该可以解决问题"Iamalion.Hearmeroar!Whereismycub?Nevermind,foundhim.".gsub(/[.?!]/,'\

  4. ruby - 应该 validate_format_of 。 not_with 在框架中有问题(或者在我的理解中) - 2

    我将以下代码放入RSpec测试中:it{shouldvalidate_format_of(:email).not_with('test@test')}并设置实际的类:validates:email,:presence=>true,:format=>/\b[A-Z0-9._%-]+@(?:[A-Z0-9-]+\.)+[A-Z]{2,4}\b/i当我运行测试时,我得到:失败:1)用户失败/错误:它{应该validate_format_of(:email).not_with('test@test')}当电子邮件设置为“test@test”时,预期错误包括“can'tbeblank”,得到错误

  5. Ruby 等同于 C#'s ' yield' 关键字,或者,在不预分配内存的情况下创建序列 - 2

    在C#中,您可以这样做:publicIEnumerableGetItems(){for(inti=0;i这将返回一个包含1000万个整数的可枚举序列,而无需在该长度的内存中分配一个集合。有没有一种方法可以在Ruby中做同样的事情?我要处理的具体示例是将矩形数组展平为要枚举的值序列。返回值不必是Array或Set,而是某种只能按顺序而不是索引迭代/枚举的序列。因此,整个序列不需要同时分配到内存中。在.NET中,这是IEnumerable和IEnumerable.对Ruby世界中此处使用的术语的任何澄清都会有所帮助,因为我更熟悉.NET术语。编辑也许我最初的问题还不够清楚——我认为yiel

  6. ruby-on-rails - 你可以用ruby重新定义一个类吗?或者这只是在 irb - 2

    我启动了irb,然后输入:类点结束然后我再次输入,但添加了一些其他内容。Irb没有提示我正在定义一个已经存在的类。 最佳答案 其实你并没有重新定义Point类,你重新打开了它。一个小代码片段来说明差异:classPointdeffooendendclassPointdefbarendend现在Point有两个方法:foo和bar。所以Point的第二个定义并没有取代之前的定义,而是添加了它。这在ruby​​脚本和irb中都是可能的(标准库中的类也是可能的,而不仅仅是您自己的类)。也可以真正重新定义类,通过使用remove_const

  7. Ruby:如何将变量设置为 0,或者如果已经设置,则递增 1 - 2

    我知道||=运算符,但我认为它不会对我有帮助...尝试创建一个数组来计算对象数组中“类型”的数量。array.eachdo|c|newarray[c.type]=newarray[c.type]?newarray[c.type]+1?0end有没有更优雅的方式来做到这一点? 最佳答案 types=Hash.new(-1)#Itfeelslikethisshouldbe0,buttobe#equivalenttoyourexampleitneedstobe-1array.eachdo|c|types[c.type]+=1end

  8. ruby-on-rails - ruby::Module 或者只是 Module - 2

    我正在慢慢浏览Rails源代码,以便更好地掌握ruby​​和Rails。在以下rails类中test_case.rb这条线是classTestCase我想知道执行以下操作是否有任何区别classTestCase这可能看起来微不足道,但这些事情对于学习一门新语言来说很重要。如果我删除前导::,测试仍然针对ActiveSupport运行,那么它做了什么......:P 最佳答案 ::Test确保您获得名为Test的顶层模块。后一种情况(Test::Unit::TestCase)不能确保Test是顶层模块,例如,它可能是一个类。这意味着它

  9. 前端基于DOM或者Canvas实现页面水印 - 2

    🐱个人主页:不叫猫先生🙋‍♂️作者简介:前端领域新星创作者、阿里云专家博主,专注于前端各领域技术,共同学习共同进步,一起加油呀!💫系列专栏:vue3从入门到精通、TypeScript从入门到实践📢资料领取:前端进阶资料以及文中源码可以找我免费领取🔥前端学习交流:博主建立了一个前端交流群,汇集了各路大神,一起交流学习,期待你的加入!(文末有我wx或者私信)目录前言一、vue自定义指令directive讲解二、基于DOM的实现方式1.思路整理2.新建index.vue3.新建`directives`文件4.在`directives`文件下创建`index.ts`文件5.在`main.ts`中全局引

  10. ruby - Ruby 中的 RAII(或者,如何在 Ruby 中管理资源) - 2

    我知道这是设计使然,您无法控制对象被销毁时发生的情况。我也知道将某些类方法定义为终结器。但是C++RAII的ruby​​习语是什么(资源在构造函数中初始化,在析构函数中关闭)?即使发生错误或异常,人们如何管理对象内部使用的资源?使用确保有效:f=File.open("testfile")begin#..processrescue#..handleerrorensuref.closeunlessf.nil?end但是每次需要调用open方法时,该类的用户都必须记住执行整个begin-rescue-ensurechacha。例如,我将有以下类(class):classSomeResourc

随机推荐