序列比对软件 MUMmer 结果可读化处理（四）

风知秋 2023-11-07 原文

关于该软件的计算可选参数以及结果文件的解读，见前三篇分享：

序列比对软件 MUMmer 快速上手（一）

序列比对软件 MUMmer 高级使用（二）

序列比对软件 MUMmer 结果文件解读（三）

本篇来介绍一下获得的 <prefix> .delta 如何进一步处理分析；

delta-filter

delta-filter 用于操作 <prefix>.delta 文件并根据各种选择所需要的 alignments；

常用命令：

delta-filter [options] <delta file> > <filtered delta file>

可选的参数有（部分展示）：

-g #1对1全局匹配，不允许重排；

-i #最小的相似度（Set the minimum alignment identity），可设 [0,100]，默认为0；

-l #最小的匹配长度，默认为0；

-q #仅保留每个 query 在 reference 上的最佳位置，允许多条 query 在 reference 上重叠；

-r #仅保留每个 reference 在 query 上的最佳位置，允许多条 reference 在 query 上重叠；

-u #最小的联配唯一度（Set the minimum alignment uniqueness），可设 [0,100]，默认0；

-o #最大重叠度，针对 -r 和 -q 设置。 [0,100]，默认100；

其中，-g 选项可以确定最长的相互一致的匹配集，而 -r 和 -q 选项只要求匹配分别与 ref 或 qry 一致的数据集；不同的是，-g 不允许倒位和异位，而 -r 和 -q 允许；

选项 -u 可以保留那些以唯一顺序锚定的对齐；

输出文件的格式与输入文件相同，详见：序列比对软件 MUMmer 结果文件解读（三）

show-aligns

可以展示命令行上两个特定序列的 pair-wise alignment，便于识别错误的确切位置以及寻找两个序列之间的 SNPs；

常用命令：

show-aligns [options] <delta file> <IdR> <IdQ>

<ldR> 为期望 ref 序列的 FastA header，<IdQ> 为期望 qry 序列的 FastA header，将显示这两个序列之间的所有对齐，输出将被输出至 stdout。

可选的参数有：

-q #将 alignments 按 query 的开始坐标排序；

-r #将 alignments 按 reference 的开始坐标排序；

-w #设置输出的屏幕宽度，默认为 60；

-x #设置 alignment 的矩阵类型，1 [BLOSUM 45], 2 [BLOSUM 62] or 3 [BLOSUM 80] (default 2)

其中，-x 选项只适用于氨基酸对齐，只影响错误标记，不影响对齐；

show-coords

解析 NUCmer 的 delta alignment output 文件，并展示每个对齐的位置、一致性百分比等信息，是分析 delta file 最常用的工具之一；

常用命令：

show-coords [options] <delta file>

可选参数有：

-b #只显示对齐区域的非冗余位置的简短输出；

-B #将输出切换为 btab 格式；

-T #将输出切换为制表符分隔的格式；

-H #省略output header；

-c #在输出中包括percent coverage 列；

-d #在输出中包含alignment direction / reading frame；

-g #只显示包括在the Longest Ascending Subset中的对齐，即全局对齐；建议与-r或-q选项一起使用；不支持circular序列；

-I (大写i) #设置显示的minimum percent identity；

-L #设置显示的最小对齐长度；

-o #注释两个序列之间的最大对齐；

-q #按查询对输出行进行排序；

-r #按参考对输出行进行排序；

在没有使用 -H 或 -B 选项时，输出会给每一列添加一个 header tag，如下所示：

[S1] start of the alignment region in the reference sequence

[E1] end of the alignment region in the reference sequence

[S2] start of the alignment region in the query sequence

[E2] end of the alignment region in the query sequence

[LEN 1] length of the alignment region in the reference sequence

[LEN 2] length of the alignment region in the query sequence

[% IDY] percent identity of the alignment

[% SIM] percent similarity of the alignment (as determined by the BLOSUM scoring matrix)

[% STP] percent of stop codons in the alignment

[LEN R] length of the reference sequence

[LEN Q] length of the query sequence

[COV R] percent alignment coverage in the reference sequence

[COV Q] percent alignment coverage in the query sequence

[FRM] reading frame for the reference and query sequence alignments respectively

[TAGS] the reference and query FastA IDs respectively

当使用 -B 选项时，结果会由 12 个 Tab 分隔的列组成，详细如下：

[1] query sequence ID

[2] date of alignment

[3] length of query sequence

[4] alignment type

[5] reference file

[6] reference sequence ID

[7] start of alignment in the query

[8] end of alignment in the query

[9] start of alignment in the reference

[10] end of alignment in the reference

[11] percent identity

[12] percent similarity

[13] length of alignment in the query

[14] 0 for compatibility

[15] 0 for compatibility

[16] NULL for compatibility

[17] 0 for compatibility

[18] strand of the query

[19] length of the reference sequence

[20] 0 for compatibility

[21] and 0 for compatibility

结果将输出到 stdout；

其中，一些描述的列不会出现在核苷酸比对结果中，如相似度百分比；

show-snps

顾名思义，该程序可以报道输出文件中的多态性位点信息，其编目了 delta file 中的 SNPs 和插入/缺失信息，每行一个多态性位点信息；

常用命令：

show-snps [options] <delta file>

结果将被输出到 stdout。

可选参数如下：

-C #不输出从ambiguous mapping 的比对结果中得到的 SNPs；

-H #不输出 header；

-I (大写i) #不输出 indels；

-l #输出结果中包含序列长度信息；

-q #依据 query ID 和 SNP 位置信息进行排序；

-r ##依据 ref ID 和 SNP 位置信息进行排序；

-T #切换至制表符分隔的格式；

-x #在输出中包含 SNPs 上下 x 个字符，默认为 0；

show-tiling

show-tiling attempts to construct a tiling path out of the query contigs as mapped to the reference sequences. Given the delta alignment information of a few long reference sequences and many small query contigs, show-tiling will determine the best mapped location of each query contig.

略，详见 manual of MUMmer。

show-diff

为量化两个基因组的宏观差异，该程序将比对的 breakpoints 进行分类，以一个标准的，未过滤的 delta file 作为输入文件，确定两个序列集之间的最佳 mapping，并报告该 mapping 中的 breaks；

常用命令：

show-diff [options] <deltafile>

输出为 stdout，每一行输出一个 breakpoint，每行前 5 列分别表示seq ID, feature type, feature start, feature end, and feature length；

可选参数有：

-f #Output diff information as AMOS features

-H #Do not show header

-q #Show diff information for queries

-r #Show diff information for references (default)

dnadiff

该脚本是对 nucmer 的包装，使用默认参数进行比对，并运行许多 nucmer 的助手脚本来处理输出，并报告比对的统计数据，SNPs，breakpoints 等；它的目的是评价两个高度相似序列集的序列和结构相似性。

常用命令：

dnadiff [options] <reference> <query>

或者 dnadiff [options] -d <delta file>

可选参数有：

-d # Provide precomputed delta file for analysis

-p # Set the prefix of the output files (default "out")

输出文件有多个，包括：

OUTPUT:

.report - Summary of alignments, differences and SNPs

.delta - Standard nucmer alignment output

.1delta - 1-to-1 alignment from delta-filter -1

.mdelta - M-to-M alignment from delta-filter -m

.1coords - 1-to-1 coordinates from show-coords -THrcl .1delta

.mcoords - M-to-M coordinates from show-coords -THrcl .mdelta

.snps - SNPs from show-snps -rlTHC .1delta

.rdiff - Classified ref breakpoints from show-diff -rH .mdelta

.qdiff - Classified qry breakpoints from show-diff -qH .mdelta

.unref - Unaligned reference IDs and lengths (if applicable)

.unqry - Unaligned query IDs and lengths (if applicable)

其中，report file 对于比较两个相似基因组的差异十分有用。

mapview

从 show-coords 或 mgaps 处获得输入文件并将其转为 FIG, PDF or PS image file；

mapview 对于将多个 query mapping 到一个 ref 上时很有用；

详见 manual of MUMmer。

mummerplot

从 mummer, nucmer, promer or show-tiling 处获得输入，并将其转换为适合使用 gnuplot 绘图的格式；

暂略，后有时间再补充；

就是，如果觉得有用的话，登录一下账号点个赞支持一下！

有关序列比对软件 MUMmer 结果可读化处理（四）的更多相关文章

ruby - 如何指定 Rack 处理程序 - 2
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时，rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
ruby - 是否有用于序列化和反序列化各种格式的对象层次结构的模式？ - 2
给定一个复杂的对象层次结构，幸运的是它不包含循环引用，我如何实现支持各种格式的序列化？我不是来讨论实际实现的。相反，我正在寻找可能会派上用场的设计模式提示。更准确地说:我正在使用Ruby，我想解析XML和JSON数据以构建复杂的对象层次结构。此外，应该可以将该层次结构序列化为JSON、XML和可能的HTML。我可以为此使用Builder模式吗？在任何提到的情况下，我都有某种结构化数据-无论是在内存中还是文本中-我想用它来构建其他东西。我认为将序列化逻辑与实际业务逻辑分开会很好，这样我以后就可以轻松支持多种XML格式。最佳答案我最
报告回顾丨模型进化狂飙，DetectGPT能否识别最新模型生成结果？ - 2
导读语言模型给我们的生产生活带来了极大便利，但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT：判断文本是否为机器生成的工具」中，主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具，它可以帮助我们更好地分辨文章的来源和可信度，对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能，实现和效果等展开。（文末点击“阅读原文”，查看活动回放。）Ericmitchell斯坦福大学计算机系四年级博士生，由ChelseaFinn和Chri
软件测试基础 - 2
Ⅰ软件测试基础一、软件测试基础理论1、软件测试的必要性所有的产品或者服务上线都需要测试2、测试的发展过程3、什么是软件测试找bug，发现缺陷4、测试的定义使用人工或自动的手段来运行或者测试某个系统的过程。目的在于检测它是否满足规定的需求。弄清预期结果和实际结果的差别。5、测试的目的以最小的人力、物力和时间找出软件中潜在的错误和缺陷6、测试的原则28原则：20%的主要功能要重点测（eg：支付宝的支付功能，其他功能都是次要的）80%的错误存在于20%的代码中7、测试标准8、测试的基本要求功能测试性能测试安全性测试兼容性测试易用性测试外观界面测试可靠性测试二、质量模型衡量一个优秀软件的维度①功能性功
ruby - 在 Ruby 中比较序列 - 2
假设我必须(小型到中型)阵列:tokens=["aaa","ccc","xxx","bbb","ccc","yyy","zzz"]template=["aaa","bbb","ccc"]如何确定tokens是否以相同的顺序包含template的所有条目？(请注意，在上面的示例中，应忽略第一个“ccc”，从而由于最后一个“ccc”而导致匹配。) 最佳答案这适用于您的示例数据。tokens=["aaa","ccc","xxx","bbb","ccc","yyy","zzz"]template=["aaa","bbb","ccc"]po
Ruby-vips 图像处理库。有什么好的使用示例吗？ - 2
我对图像处理完全陌生。我对JPEG内部是什么以及它是如何工作一无所知。我想知道，是否可以在某处找到执行以下简单操作的ruby代码:打开jpeg文件。遍历每个像素并将其颜色设置为fx绿色。将结果写入另一个文件。我对如何使用ruby-vips库实现这一点特别感兴趣https://github.com/ender672/ruby-vips我的目标-学习如何使用ruby-vips执行基本的图像处理操作(Gamma校正、亮度、色调……)任何指向比“helloworld”更复杂的工作示例的链接——比如ruby-vips的github页面上的链接，我们将不胜感激!如果有ruby-
ruby - Faye WebSocket，关闭处理程序被触发后重新连接到套接字 - 2
我有一个super简单的脚本，它几乎包含了FayeWebSocketGitHub页面上用于处理关闭连接的内容:ws=Faye::WebSocket::Client.new(url,nil,:headers=>headers)ws.on:opendo|event|p[:open]#sendpingcommand#sendtestcommand#ws.send({command:'test'}.to_json)endws.on:messagedo|event|#hereistheentrypointfordatacomingfromtheserver.pJSON.parse(event.d
ruby - 如何使用 Ruby HTTP::Net 处理 404 错误？ - 2
我正在尝试解析网页，但有时会收到404错误。这是我用来获取网页的代码:result=Net::HTTP::getURI.parse(URI.escape(url))如何测试result是否为404错误代码？最佳答案像这样重写你的代码:uri=URI.parse(url)result=Net::HTTP.start(uri.host,uri.port){|http|http.get(uri.path)}putsresult.codeputsresult.body这将打印状态码和正文。
ruby-on-rails - carrierwave:在序列化动态属性上安装 uploader - 2
首先，我使用的是rails3.1.3和来自master的carrierwavegithub仓库的分支。我使用after_init钩子(Hook)来确定基于属性的字段页面模型实例并为这些字段定义属性访问器将值存储在序列化哈希中(希望它清楚我是什么谈论)。这是我正在做的事情的精简版:classPage省略mount_uploader命令让我可以访问我想要的属性。但是当我安装uploader时出现错误消息说“nil类的未定义新方法”我在源代码中读到有方法read_uploader和扩展模块中的write_uploader。我如何必须覆盖这些来制作mount_uploader命令使用我的“虚拟
ruby-on-rails - 使用 Ruby 正确处理 Stripe 错误和异常以实现一次性收费 - 2
我查看了Stripedocumentationonerrors，但我仍然无法正确处理/重定向这些错误。基本上无论发生什么，我都希望他们返回到edit操作(通过edit_profile_path)并向他们显示一条消息(无论成功与否)。我在edit操作上有一个表单，它可以POST到update操作。使用有效的信用卡可以正常工作(费用在Stripe仪表板中)。我正在使用Stripe.js。classExtrasController5000,#amountincents:currency=>"usd",:card=>token,:description=>current_user.email)

序列比对软件 MUMmer 结果可读化处理（四）

delta-filter

show-aligns

show-coords

show-snps

show-tiling

show-diff

dnadiff

mapview

mummerplot

有关序列比对软件 MUMmer 结果可读化处理（四）的更多相关文章

随机推荐