我目前正在处理字符串形式的DNA序列,其中内含子为小写字符,外显子为大写字符。该方法的目的是尽快以字符串的形式检索外显子。序列示例:ATGGATGACAGgtgagaggacactcgggtcccagccccaggctctgccctcaggaagggggtcagctctcaggggcatctccctctcacagcccagccctggggatgatgtgggagccccatttatacacggtgcctccttctctcctagAGCCTACATAG我的第一个版本使用的是StringreplaceAll()方法,但速度特别慢:publicStringgetExons(Stringseq
对于初学者来说,我是生物信息学的新手,尤其是编程方面的新手,但我已经构建了一个脚本,它将通过所谓的VCF文件(仅包含个人,一个clumn=一个个人),并使用搜索字符串找出每个变体(系)个体是纯合子还是杂合子。此脚本至少在小的子集上有效,但我知道它将所有内容都存储在内存中。我想在非常大的压缩文件(甚至整个基因组)上执行此操作,但我不知道如何将此脚本转换为逐行执行所有操作的脚本(因为我想计算整列我只是不看看如何解决)。因此每个个体的输出是5个事物(总变异数、纯合子数、杂合子数以及纯合子和杂合子的比例)。请看下面的代码:#!usr/bin/envpythonimportreimportg
你可以在这里获取数据!2shared底部下载我正在使用Python分析生物数据。我写下了一段代码,用于在长字符串列表的列表中查找匹配的子字符串。子字符串在列表中,长度为7个核苷酸。因此在列表中,从AAAAAAA到TTTTTTT,存在16384个基序(子串),排列A、C、G、T。此代码有一个for循环,用于子字符串列表和嵌套在其中的长字符串列表列表。它工作正常,但由于listoflists有12000行,代码处理速度非常慢。换句话说,提供有关AAAAAAA的信息以及下一个AAAAAAC的信息需要2分钟。所以需要16384个图案才能通过12000行2分钟,需要(16384*2==32768
我只是在摆弄(Mendel'sFirstLawofInheritance)的模拟。在我可以让小动物交配和分析结果之前,必须生成种群,即,必须在不拆包的情况下用不同数量的三种不同类型的元组填充列表。在尝试熟悉itertools的同时(我稍后在交配部分需要组合),我想出了以下解决方案:importitertoolsk=2m=3n=4hd=('A','A')#homozygousdominanthet=('A','a')#heterozygoushr=('a','a')#homozygousrecessivefhd=itertools.repeat(hd,k)fhet=itertools.r
编程语言:Python3.4我为Coursera的生物信息学1类(class)编写了程序。该程序运行正常,但对于大型数据集非常慢。我猜,这是因为循环运行了4**k次,其中k是传递给函数的子字符串的长度。输入:字符串Text和Pattern以及一个整数d。输出:Pattern出现为Text的子字符串的所有起始位置,最多d次不匹配。这是我的代码:defMotifCount(string1,substring,d):k=4**(len(substring))codeArray=list(itertools.product(['A','C','G','T'],repeat=len(substr
关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion我正在寻找相关向量机的下降实现。谁能推荐一个我可以接口(interface)的python库或C++实现?提前致谢,EL
我有一个源自df.groupby().size()操作的DataFrame,看起来像这样:LocalizationRNAlevelcytoplasm1Non-expressed72Verylow133Low84Medium65Moderate86High27Veryhigh6cytoplasm&nucleus1Non-expressed52Verylow83Low24Medium105Moderate166High67Veryhigh5cytoplasm&nucleus&plasmamembrane1Non-expressed62Verylow33Low34Medium75Modera
我有一个分类问题(预测一个序列是否属于一个类),为此我决定使用多种分类方法,以帮助过滤掉误报。(问题在于生物信息学-将蛋白质序列分类为神经肽前体序列。Here'stheoriginalarticle如果有人感兴趣,andthecodeusedtogeneratefeaturesandtotrainasinglepredictor)。现在,分类器具有大致相似的性能指标(10倍CV的训练集上的准确度/精度等为83-94%),因此我的“天真”方法是简单地使用多个分类器(随机森林,ExtraTrees,SVM(Linearkernel),SVM(RBFkernel)andGRB),并使用简单多
问题描述分类学是根据共有特征定义和命名生物有机体组的科学。生物体被分组为分类单元(单数:分类单元),这些组被赋予分类等级。现代使用的主要等级是域、界、门、纲、目、科、属和种。有关Taxonomy的更多信息和Taxonomicranks在维基百科中。按照Wikipedia的文章Taxonomicrank中的redfox示例,我需要创建这样的JSON输出:{"species":"vulpes","genus":"Vulpes","family":"Canidae","order":"Carnivora","class":"Mammalia","phylum":"Chordata","kin
我编写了一个函数来返回一个生成器,其中包含给定长度的子字符串的每个唯一组合,这些子字符串包含来自主字符串的超过n个元素。举例说明:如果我有“abcdefghi”和一个长度为2的探针,并且每个列表的阈值为4个元素,我想得到:['ab','cd','ef','gh']['ab','de','fg','hi']['bc','de','fg','hi']我第一次尝试解决这个问题涉及返回列表列表。这最终导致计算机内存溢出。作为粗略的辅助解决方案,我创建了一个执行类似操作的生成器。问题是我创建了一个调用自身的嵌套生成器。当我运行这个函数时,它似乎只是在内部for循环中循环,而实际上并没有再次调用它