Bioinformatics

java - 在Java中提取大写字符的最快方法

我目前正在处理字符串形式的DNA序列，其中内含子为小写字符，外显子为大写字符。该方法的目的是尽快以字符串的形式检索外显子。序列示例:ATGGATGACAGgtgagaggacactcgggtcccagccccaggctctgccctcaggaagggggtcagctctcaggggcatctccctctcacagcccagccctggggatgatgtgggagccccatttatacacggtgcctccttctctcctagAGCCTACATAG我的第一个版本使用的是StringreplaceAll()方法，但速度特别慢:publicStringgetExons(Stringseq

最快 java sequence String getExons performance extract bioinformatics uppercase

python - 如何聚合大于 RAM gzip 的 csv 文件的值？

对于初学者来说，我是生物信息学的新手，尤其是编程方面的新手，但我已经构建了一个脚本，它将通过所谓的VCF文件(仅包含个人，一个clumn=一个个人)，并使用搜索字符串找出每个变体(系)个体是纯合子还是杂合子。此脚本至少在小的子集上有效，但我知道它将所有内容都存储在内存中。我想在非常大的压缩文件(甚至整个基因组)上执行此操作，但我不知道如何将此脚本转换为逐行执行所有操作的脚本(因为我想计算整列我只是不看看如何解决)。因此每个个体的输出是5个事物(总变异数、纯合子数、杂合子数以及纯合子和杂合子的比例)。请看下面的代码:#!usr/bin/envpythonimportreimportg

python gzip sa nCalled annotatesamples csv bioinformatics vcf-variant-call-format

python计算序列列表中子字符串的存在和不存在的数量

你可以在这里获取数据!2shared底部下载我正在使用Python分析生物数据。我写下了一段代码，用于在长字符串列表的列表中查找匹配的子字符串。子字符串在列表中，长度为7个核苷酸。因此在列表中，从AAAAAAA到TTTTTTT，存在16384个基序(子串)，排列A、C、G、T。此代码有一个for循环，用于子字符串列表和嵌套在其中的长字符串列表列表。它工作正常，但由于listoflists有12000行，代码处理速度非常慢。换句话说，提供有关AAAAAAA的信息以及下一个AAAAAAC的信息需要2分钟。所以需要16384个图案才能通过12000行2分钟，需要(16384*2==32768

python 存在 section code motifAppearances string numpy scipy bioinformatics

python - 用元组填充列表

我只是在摆弄(Mendel'sFirstLawofInheritance)的模拟。在我可以让小动物交配和分析结果之前，必须生成种群，即，必须在不拆包的情况下用不同数量的三种不同类型的元组填充列表。在尝试熟悉itertools的同时(我稍后在交配部分需要组合)，我想出了以下解决方案:importitertoolsk=2m=3n=4hd=('A','A')#homozygousdominanthet=('A','a')#heterozygoushr=('a','a')#homozygousrecessivefhd=itertools.repeat(hd,k)fhet=itertools.r

python 用 39 code itertools bioinformatics rosalind

python - 如何优化运行 4**k 次的 python 脚本？

编程语言:Python3.4我为Coursera的生物信息学1类(class)编写了程序。该程序运行正常，但对于大型数据集非常慢。我猜，这是因为循环运行了4**k次，其中k是传递给函数的子字符串的长度。输入:字符串Text和Pattern以及一个整数d。输出:Pattern出现为Text的子字符串的所有起始位置，最多d次不匹配。这是我的代码:defMotifCount(string1,substring,d):k=4**(len(substring))codeArray=list(itertools.product(['A','C','G','T'],repeat=len(substr

python 如何 string substring section python-3.x bioinformatics

python - 相关向量机

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion我正在寻找相关向量机的下降实现。谁能推荐一个我可以接口(interface)的python库或C++实现？提前致谢，EL

python - Pandas :.groupby().size() 和百分比

我有一个源自df.groupby().size()操作的DataFrame，看起来像这样:LocalizationRNAlevelcytoplasm1Non-expressed72Verylow133Low84Medium65Moderate86High27Veryhigh6cytoplasm&nucleus1Non-expressed52Verylow83Low24Medium105Moderate166High67Veryhigh5cytoplasm&nucleus&plasmamembrane1Non-expressed62Verylow33Low34Medium75Modera

groupby python cytoplasm code nucleus pandas bioinformatics

python - 使用多个分类器时 - 如何衡量集成的性能？ [SciKit学习]

我有一个分类问题(预测一个序列是否属于一个类)，为此我决定使用多种分类方法，以帮助过滤掉误报。(问题在于生物信息学-将蛋白质序列分类为神经肽前体序列。Here'stheoriginalarticle如果有人感兴趣，andthecodeusedtogeneratefeaturesandtotrainasinglepredictor)。现在，分类器具有大致相似的性能指标(10倍CV的训练集上的准确度/精度等为83-94%)，因此我的“天真”方法是简单地使用多个分类器(随机森林，ExtraTrees,SVM(Linearkernel),SVM(RBFkernel)andGRB)，并使用简单多

python SciKit section noreferrer noopener machine-learning scikit-learn bioinformatics random-forest

python - 在 Django 和 Django REST Framework 中使用保留字 "class"作为字段名

问题描述分类学是根据共有特征定义和命名生物有机体组的科学。生物体被分组为分类单元(单数:分类单元)，这些组被赋予分类等级。现代使用的主要等级是域、界、门、纲、目、科、属和种。有关Taxonomy的更多信息和Taxonomicranks在维基百科中。按照Wikipedia的文章Taxonomicrank中的redfox示例，我需要创建这样的JSON输出:{"species":"vulpes","genus":"Vulpes","family":"Canidae","order":"Carnivora","class":"Mammalia","phylum":"Chordata","kin

Django Framework class 34 section python python-3.x django-rest-framework bioinformatics

python - Python 中的递归生成器

我编写了一个函数来返回一个生成器，其中包含给定长度的子字符串的每个唯一组合，这些子字符串包含来自主字符串的超过n个元素。举例说明:如果我有“abcdefghi”和一个长度为2的探针，并且每个列表的阈值为4个元素，我想得到:['ab','cd','ef','gh']['ab','de','fg','hi']['bc','de','fg','hi']我第一次尝试解决这个问题涉及返回列表列表。这最终导致计算机内存溢出。作为粗略的辅助解决方案，我创建了一个执行类似操作的生成器。问题是我创建了一个调用自身的嵌套生成器。当我运行这个函数时，它似乎只是在内部for循环中循环，而实际上并没有再次调用它

生成器 python probe probes code recursion generator bioinformatics

123 4