生信

GEO生信数据挖掘（十一）STRING数据库PPI蛋白互作网络 & Cytoscape个性化绘图【SCI 指日可待】

GEO生信数据挖掘（十）肺结核数据-差异分析-WGCNA分析（900行代码整理注释更新版本）通过前面十篇文章的学习，我们应该已经可以获取到一个”心仪的基因列表“了，相较于原始基因数量，这个列表的数量已经有了明显的缩小，为了进一步确定Hubgene需要借助两个工具。使用STRING在线数据库进行PPI分析。使用Cytoscape本地客户端进行蛋白互作关系图绘制。视频讲解STRING在线数据库进行PPI分析https://cn.string-db.org/STRING在线数据库（STRING:functionalproteinassociationnetworks：https://cn.strin

数据数据挖掘 xff0c xff xff0 数据库 GEO数据挖掘基因数据分析生信分析

我失业了？| ChatGPT生信分析初体验

最近ChatGPT火的一塌糊涂，作为在生物医学和计算机科学领域夹缝求生的边缘摇摆人，也来蹭一波热度。ChatGPT是一个预训练的语言模型，由OpenAI训练。它可以用来生成自然语言文本，并且可以进行对话。它基于Transformer架构，可以捕捉到语言之间的复杂关系。它可以用来开发聊天机器人、语音助手、评论生成系统等。下面我就从我比较擅长的组学生信、数据可视化以及机器学习三个方面测试一下。生信分析问一下RNAseq分析流程流程很对就是没有代码，看看能不能给我们写个代码~完了，感觉要失业了。用了好多python脚本，看一下有没有代码。虽然没有代码，但是他给出了一个python进行RPKM标准化的

ChatGPT 我 img code img_convert

生信小白学单细胞转录组（sc-RNA）测序数据分析——R语言

一、数据准备10X单细胞转录组理论上有3个文件才能被读入R进行seurat分析，分别是barcodes.tsv、genes.tsv和matrix.mtx，文件barcodes.tsv和genes.tsv，就是表达矩阵的行名和列名pbmc.data文件解读genes.tsv文件（有时也叫features.tsv文件）文件内容：有两列，第一列为基因ID，第二列为基因SymbolID，区分各个基因。barcodes.tsv文件文件内容：有一列，内容为测序时为了区分各个细胞的标记信息，称为Barcodesmatrix.mtx文件内容：有三列，数字的第一行是测序的汇总信息。第一行的第一个为测序的总基因数

测序小白 xff xff0c xff0 r语言数据分析开发语言

生信绘图小技巧 | 多组小提琴柱状组合图绘制

昨天，我们分享了跟着NC学作图|差异比较小提琴+柱状组合图的教程。这是单个图形的教程，如果是多个类似的图形，我们需要绘制呢？对于这个问题，我们很多同学首先想到的就是“拼图”，这也是我的首先想到的。使用plot_grid()函数进行拼图拼图的方式很多，我一直都是使用plot_grid()进行拼图，我个人认为这是很简单的方法。plot_grid()操作###数据head(df)CCLE_IDall_pseudotimeemt_scoretarget_tissueCI.05CI.95122RV1_PROSTATE49.27840-1.104890brain-3.824015-2.976779222R

柱状技巧 section code https

【块】生信上游-4 HISAT2

很接近bowtie2与bwa1.基本流程1.1.建立参考基因组hisat2-build可为UCSC、NCBI、Ensembl等来源的fasta文件，多个文件以逗号分隔1.2.比对样本readshisat2输出为SAM文件1.3.下游SAMtools/BCFtools分析samtoolsview将SAM转化为BAMsamtoolssort将BAM转化为sortedBAMsortedBAM方便长期储存samtoolsmpileup，bcfview产生VCF文件2.安装搭建下载链接：HISAT2：Download|HISAT2(daehwankimlab.github.io)NCBI-NGS：htt

HISAT2 HISAT br

生信log31|让Python代码高效（消除循环）的方法总结

最近在DataCamp上进修，对提高python脚本的效率有了更深的理解，并且也学会了很多方法。作为一个非科班已进门的小白，我最头疼的事莫过于取复杂结构数据的时候要写多层嵌套循环去拿data。直觉告诉我这不是一个高效的方法而且代码看上去不简洁，身边的人也说现在的硬件可以忽略脚本性能，但做科研出身的人是不可能不较真的，为此特意去看了一下这方面的内容也刚好碰到这节网课，以此篇记录一下所学，提升自己的业务代码，也供其他人参考一下。0.思路使用更高效的python包代替for循环将不需要在循环中做处理的步骤移到循环体外用更好的for遍历方式1.测量方法脚本的效率通过脚本运行时间和内存资源消耗进行衡量如

Python log code set li

【Linux 基础】补充篇生信人的Linux考试

一、在任意文件夹下面创建形如1/2/3/4/5/6/7/8/9格式的文件夹系列。mkdir-p1/2/3/4/5/6/7/8/9二、在创建好的文件夹下面/Users/tmp/1/2/3/4/5/6/7/8/9，里面创建文本文件me.txttouchme.txt三、在文本文件me.txt里面输入内容:catme.txtGoto:http://www.biotrainee.com/Ilovebioinfomatics.Andyou?^CCtrl+C结束或者使用vim编辑四、删除上面创建的文件夹1/2/3/4/5/6/7/8/9及文本文件me.txtrm-rf1五、在任意文件夹下面创建folder1

Linux 基础 code pre biotrainee

【Python生信编程笔记】一、介绍

最近想学一下生信编程，但是由于自己是生物专业，对计算机编程也不是太了解，所以感觉还是有很大困难。其实自己对编程还是有一定兴趣，以前也有自学过JAVA，不过现在大家编程好像都用python了，所以在网上找了几本在生物学中应用python编程解决生物学问题的书籍学习一下，并想着通过写笔记的方式督促并记录自己的学习过程。给自己的第一个任务是《PythonforBioinformatics》这本书，作者是SebastianBassi，是一位在软件开发和生物信息学研究方面拥有丰富经验的生物技术专家。本书主要包括三个部分共22章内容。1.png目录：第一部分编程第一章介绍第二章安装及初步了解python第

笔记 Python section li

chatGPT | 大伙都可以玩玩，让他写个生信软件~

昨晚，Guanliang师弟发了一个链接给我「https://gpt.chatapi.art」一个chatGPT的完全免费镜像，每个人都可以试试，可以跟他聊天，问一问，中文英文甚至或许是任何语言？当然，一般大伙会比较感兴趣的或许他能不能帮忙写代码，这样就.....哈哈，当然我也感兴趣。我想起了很久以前写个NeedelWunschAlignment的时候，由于对动态规划了解不够深刻（我觉得或许绝大多数人跟我是类似的），写出来的比对算法就是不够完美，或者说，有点小问题（当然，各种折腾，逻辑上是比市面上绝大多数都准确一些）。最准确的莫过于EMBOSS。再折腾我就发现，原来云云。这个跟SeqLOGO和

chatGPT 大伙 section images upload

7+纯生信，基于肿瘤微环境的分型分析，不蹭热点的分型怎么做，值得学习！

发表杂志：CellularOncology影响因子：7.051本文属于单肿瘤分型思路，类似的分型文章我们也解读过很多。肿瘤分型文章比较重要的结论就是分型后构建的评分能够预测免疫治疗或者其他治疗的疗效。可以用于分型的基因集很多，结合热点做分析会事半功倍，现在上车正是时候！生信分析咨询请关注生信小课堂，全网同名研究概述：该研究旨在描绘直肠癌（RC）完整的TME景观，包括非免疫特征。作者提出了一种基于免疫和非免疫成分丰度的亚型策略，将所有RC患者分为4种亚型，即免疫亚组，典型亚组，干细胞样亚组和休眠亚组。其次，将WGCNA和LASSO回归相结合，基于不同亚型间差异表达的基因构建10个基因标记来预测预

分型值得 section images upload

12 3 4