单细胞常见的可视化方式有DimPlot,FeaturePlot,DotPlot,VlnPlot和DoHeatmap几种,Seurat中均可以很简单的实现,但是文献中的图大多会精美很多。之前 跟SCI学umap图|ggplot2绘制umap图,坐标位置,颜色,大小还不是你说了算 介绍过DimPlot的一些调整方法。本文介绍FeaturePlot的美化方式,包含以下几个方面:(1)调整点的颜色,大小(2)展示基因共表达情况(点图,密度图)(3)优化Seurat分组展示(4)ggplot2修改theme,lengend等(5)批量绘制一载入R包,数据仍然使用之前注释过的sce.anno.RData数
根据所使用的建库方法,单细胞的RNA序列(也称为读取(reads)或标签(tags))将从转录本的3'端(或5'端)(10XGenomics,CEL-seq2,Drop-seq,inDrops)或全长转录本(Smart-seq)获得。图片来源:PapalexiEandSatijaR.Single-cellRNAsequencingtoexploreimmunecellheterogeneity,NatureReviewsImmunology2018(https://doi.org/10.1038/nri.2017.76)我们可以根据自己感兴趣的生物学问题而选择不同的方法。这些方法具有以下优点:
1.背景单细胞数据分析在进行完细胞自聚类或者细胞类型注释后,一般需要对查到的差异基因可视化,用来显示基因和细胞群的相关性,进行后续分析。当然Seurat和scanpy本身可视化的方式有非常多,例如featureplot,violinplot,dotplot等,但是问题在于差异基因分析后,如何快速将每个细胞簇所对应的topdeg汇总,然后再对接函数绘制成图像。Seurat的操作比较简单,因为FindMarker()后自身生成的就是一个数据框,但scanpy的sc.tl.rank_genes_groups()就没有那么用户友好了。2.Seurat的实现library(Seurat)library(
呜呜最近发现我工作效率低的一个原因就是重复性工作没有流程化,一气之下,把seurat分析单套数据的流程封装了起来,步骤包含数据质控、数据标准化、聚类以及初步的细胞类型鉴定。细胞类型鉴定是用每个cluster的topmarker来标注的。之后再更新整合多套数据的流程,希望与君分享1.用到的所有函数放在了SeuratWrapperFunction.R中了这个需要用source()函数导入到下面封装好的代码中的###Time:20221025###Author:zhengyiyi##loadfunctionlibrary(Seurat)library(SingleCellExperiment)lib
无论是单细胞、空间组还是ATAC的数据,有时由于下游分析的需求或可视化的需求,同时由于python的运算速度的优势,目前越来越多单细胞分析的工具开始在python环境下开发(scanpy/spGCN/scVelo……),但是大家大多都习惯了R的分析环境(Seurat/Harmony/Monocle3……),所以我们经常需要在不同的环境中运行同一个分析对象,这所以涉及到的数据类型的转变就非常关键了。想直接想找工具将RDS转为python可读数据对象的包,目前还没有……(如果有大佬可以开发一下)。目前所以从数据本身出发有三种方式,总结自目前网络上一些可行的方法:1,提取矩阵(稀疏/稠密)和特征信息
关键词随机取样细胞Downsamplecells分组随机选取细胞适用背景之前的博客提到,R语言处理大数据效率较低,耗时长,一种解决方案是可以转用Python语言流程,但如果对Python语言比较陌生,任务又急,那可以采用另一种方案——分组随机取样。尽管Seurat这个软件包功能极其强大,但是当细胞数达到几十万甚至上百万时,把常规流程跑一遍少则几天,多则几周,实在是极其消耗时间。而且有时吧,只是单纯想测试一下某些参数或者流程是否可用,如果用全数据集来测试实在有点浪费时间,所有可用考虑分组随机选取细胞数进行分析。主函数这里封装了一个函数sample_seob,以下是参数解释:objSeurat对象
关键词ParallelizationinSeuratSeurat并行化Seurat加快运行速度Seurat并行运算Seurat提高效率Seurat加快整合速度Seurat加快ScaleData/NormalizeData/FindMarkers/FindIntegrationAnchors/FindClusters速度Seurat加快SCTransform速度适用背景Seurat包好用是好用,但其分析流程中的某些函数运行起来实在太慢了,较小的数据集还好,但一旦超过10w以上,就需要等待很长时间。Seurat团队应该也发现了这个问题,所以他们在v3.0版本开始就进行了优化,也就是只要Seurat
常见问题:1)SeuratCCA整合分析后什么情况下用RNAassay,什么时候用intergratedassay?conservedcelltypemarkers部分,用整合前的“RNA”或整合后的归一化”integrated“分析不会造成差异;作为一般规则,我们总是建议对原始的“RNA“执行差异分析,而不是对批次校正等值执行差异分析,整合后的数据用于聚类。后续的分析建议建立在“RNA”上,因此在CCA之后,可以设置:DefaultAssay(sc_data)2)Seurat包的两种整合方法CCA和RPCACCA和RPCA整合方法都是Seurat包内置并推荐使用的。区别在于:CCA方法非常适
相似关键词背景RNA,环境RNA,RNA污染,游离RNAbackgroundmRNAs,ambientRNA,RNAcontamination,cellfreemRNAs适用背景去除环境RNA污染是处理单细胞数据的可选项。环境RNA污染简单来说就是由于实验原因导致某些基因的转录本扩散到大多数细胞,使得部分基因在大多数细胞中均出现高表达的现象,从而影响我们对细胞类型的定义以及其它分析。要不要去除环境RNA取决于是否数据集看起来是否干净,不同组织收到污染的基因也不太相同,例如在外周血中(PBMC)常见的是血细胞的污染,一般是HBB之类的基因,而在大脑中因为神经元比较多,可能会有兴奋性神经元或抑制性
文件处理相关##读取RDS文件PRO0=3.0:barcodes.tsv.gz,features.tsv.gz,andmatrix.mtx.gz##Seurat2toSeurathigertmp画图相关##umap图p5变量处理相关##修改identityPRO%.[grepl("1",s0),c("sample","sampletype"):=.("BeforeNAC","BeforeNAC")]%>%.[grepl("2",s0),c("sample","sampletype"):=.("AfterNAC","AfterNAC")]##index变成另外一列pbmc@meta.data$C