jjzjj

Bioinformatics

全部标签

python - 优化存储在 SQLite 中的数据 - 如何加入多个联系人?

我正在存储不同元素之间的联系。我想消除某种类型的元素并存储由消除的元素互连的元素的新联系。问题背景想象一下这个问题。你有一个水分子与其他分子接触(如果接触是氢键,我的水周围可能还有4个其他分子)。如下图所示(A、B、C、D是其他一些原子,点表示接触)。AB||HH..O/\HH..CD我有所有点的信息,我需要去除中心的水并创建描述A-C、A-D、A-B、B-C、B-D和C-D接触的记录。数据库结构目前,我在数据库中有以下结构:表原子:“id”整数主键,"amino"char(3)NOTNULL,(HOH表示水或其他值)识别原子的其他列表联系人:"acceptor_id"integerN

python - 汉明距离的倒数

*这是一个简单的介绍,具体问题在最后一段加粗。我正在尝试生成具有给定汉明距离的所有字符串,以有效地解决生物信息学分配问题。这个想法是,给定一个字符串(即'ACGTTGCATGTCGCATGATGCATGAGAGCT'),要搜索的单词的长度(即4)和在字符串中搜索该单词时可接受的不匹配(即1),返回最多常用词或“变异”词。需要明确的是,给定字符串中长度为4的单词可以是这样的(在'[]'之间):[ACGT]TGCATGTCGCATGATGCATGAGAGCT#ACGT这个A[CGTT]GCATGTCGCATGATGCATGAGAGCT#CGTT或者这个ACGTTGCATGTCGCATGAT

python - 汉明距离的倒数

*这是一个简单的介绍,具体问题在最后一段加粗。我正在尝试生成具有给定汉明距离的所有字符串,以有效地解决生物信息学分配问题。这个想法是,给定一个字符串(即'ACGTTGCATGTCGCATGATGCATGAGAGCT'),要搜索的单词的长度(即4)和在字符串中搜索该单词时可接受的不匹配(即1),返回最多常用词或“变异”词。需要明确的是,给定字符串中长度为4的单词可以是这样的(在'[]'之间):[ACGT]TGCATGTCGCATGATGCATGAGAGCT#ACGT这个A[CGTT]GCATGTCGCATGATGCATGAGAGCT#CGTT或者这个ACGTTGCATGTCGCATGAT

python - 根据同一列表中的下一个项目从列表中删除项目

我刚开始学习python,这里有一个排序的蛋白质序列列表(总共59,000个序列),其中一些是重叠的。例如,我在这里做了一个玩具list:ABCDEABCDEFGABCDEFGHABCDEFGHIJKLMNOCESTDBTSFDEDBTSFDEOEOEUDNBNUWEOEUDNBNUWDEAEUDNBNUWFEOEUDNBNUWFGFGH我想删除那些较短的重叠并只保留最长的重叠,以便所需的输出如下所示:ABCDEFGHIJKLMNOCESTDBTSFDEOEAEUDNBNUWFEOEUDNBNUWDFGH我该怎么做?我的代码如下所示:withopen('toy.txt','r')asf

python - 根据同一列表中的下一个项目从列表中删除项目

我刚开始学习python,这里有一个排序的蛋白质序列列表(总共59,000个序列),其中一些是重叠的。例如,我在这里做了一个玩具list:ABCDEABCDEFGABCDEFGHABCDEFGHIJKLMNOCESTDBTSFDEDBTSFDEOEOEUDNBNUWEOEUDNBNUWDEAEUDNBNUWFEOEUDNBNUWFGFGH我想删除那些较短的重叠并只保留最长的重叠,以便所需的输出如下所示:ABCDEFGHIJKLMNOCESTDBTSFDEOEAEUDNBNUWFEOEUDNBNUWDFGH我该怎么做?我的代码如下所示:withopen('toy.txt','r')asf

SGPPI: 使用GCN在严格条件下对蛋白质相互作用的结构感知预测【Briefings in Bioinformatics, 2023】

背景简述:深度学习模型的出现极大地促进了蛋白质互作(PPI)的预测。由于蛋白结构有限,因此多数预测方法依赖于蛋白质序列信息(氨基酸理化性质、进化相似性)和蛋白质互作网络信息,而AlphaFold2的出现极大地增加了原子水平上的蛋白质结构数目,因此深度学习整合蛋白质结构特征有助于提升蛋白质互作预测。研究目的:Ontheotherhand,itisthereforeinterestingtoexplorehowtheGCNrepresentationofresiduenetworkscouldbetterdescribetheinter-actionsbetweenspecificproteinp

关于bash:如何为每个标题添加一个数字,对目录中的每个文件都是唯一的?

Howtoaddanumbertoeveryheader,uniquetoeachfileinadirectory?我有一个包含数百个多FASTA文件的目录。在每个文件头中遵循相同的命名逻辑,如:>Bubo_bubo_c5_g1_i1len=168path=[174:0-14824:148-168]其中:>是每个标题的开头Bubo_bubo是物种名称(与FASTA文件的名称相同,此处为:Bubo_bubo.fasta)c5_g1_i1是序列的规范,所有其他字符都是关于特定序列的附加信息我想要做的是在特定文件中的每个标题中添加相同的数字,在物种名称和有关该文件的其他信息之间,以获得类似:>Bub

关于bash:如何为每个标题添加一个数字,对目录中的每个文件都是唯一的?

Howtoaddanumbertoeveryheader,uniquetoeachfileinadirectory?我有一个包含数百个多FASTA文件的目录。在每个文件头中遵循相同的命名逻辑,如:>Bubo_bubo_c5_g1_i1len=168path=[174:0-14824:148-168]其中:>是每个标题的开头Bubo_bubo是物种名称(与FASTA文件的名称相同,此处为:Bubo_bubo.fasta)c5_g1_i1是序列的规范,所有其他字符都是关于特定序列的附加信息我想要做的是在特定文件中的每个标题中添加相同的数字,在物种名称和有关该文件的其他信息之间,以获得类似:>Bub