jjzjj

公共数据库+泛癌分析,全基因组DNA甲基化相关也能轻松6分+

生信学霸 2023-09-29 原文

Genome-wide DNA methylation profiling and identification of potential pan-cancer and tumor-specific biomarkers

全基因组DNA甲基化分析和潜在的泛癌症和肿瘤特异性生物标志物的鉴定

发表期刊:Mol Oncol

发表日期:2022 Jan 2

DOI:  10.1002/1878-0261.13176

期刊相关信息

一、背景

        癌症是全世界第二大死因,乳腺癌、前列腺癌、肺癌、结肠直肠癌和胃癌是最常见的病因。异常的DNA甲基化被认为是癌症发展的一个标志,异常的 DNA 甲基化被认为是癌症发展的标志,并且已观察到整体低甲基化和位点特异性高甲基化。

        鉴于DNA甲基化在癌症中起着关键作用,一些研究概述了使用甲基化的DNA位点作为癌症检测标记,主要集中在基因启动子标记或单个CpG标记上。尽管已经确定了几个这样的甲基化生物标志物,但其中只有少数被用于临床。这些检测方法仍然受到不同癌症阶段性能不一致的困扰,而且在检测残余疾病方面存在不足。

二、材料与方法

1.数据来源

1)DNA甲基化数据集是从TCGA下载的,选择了肿瘤与正常样本比例为10%或至少有10个肿瘤与正常样本对的数据集,总共有14种不同的肿瘤类型的数据集被用于分析:包括6502个样本:5783个病例和719个对照

2)为了进行独立的外部验证,从GEO数据库下载了10个额外的Illumina450K甲基化数据集,汇总成一个更大的数据集,包括8种不同类型的332个正常样本和1263个肿瘤样本,以代表泛癌症验证集。

2.实验流程

1)甲基化数据的预处理

2)差异性甲基化分析:差异甲基化分析主要使用champ软件包,排除了25%以上探针数据缺失的样本,过滤了其余有缺失值的探针,β值小于0的设为0,大于1的设为1;差异甲基化区域(DMRs)和差异甲基化区块(DMBs)是基因组的扩展区域,在两组之间表现出可量化的甲基化差异,使用ChAMP中Bumphunter算法的实施扩展来识别,最小尺寸分别为50和500bp

3)泛癌症生物标志物鉴定:在对单个癌症数据集进行全基因组预筛选以确定肿瘤和正常样本之间甲基化差异最大的位点后,选择了所有14种类型共同的、对数|ΔβFC|≥2的DMPs用于后续分类器模型的建立;拟合二元逻辑回归模型来预测组织类型

4)特定类型的生物标志物鉴定:采用了1对1的方法来识别14种肿瘤类型中的1种和其他13种合并的差异甲基化探针,使用的是包含14种肿瘤类型的5783个病例的集合数据集;使用多类矩阵交叉的方法(类似于维恩图)来识别每个肿瘤类型特有的DMPs,这些DMPs将作为模型预测因子,然后进行筛选

三、实验结果

01 - 不同肿瘤类型的差异DNA甲基化的模式

        大多数肿瘤类型在正常和癌症样本中都表现出总体上的双峰β值密度分布,低端密度略高。食道癌显示两组的β值都在中间范围内巩固,而胰腺癌几乎只在β值的低端范围内巩固(图1A)。为了在不同的肿瘤之间进行可扩展的比较,DMP计数报告为基于每个类别中分析的 CpGs 探针总数的标准化比例。差异甲基化在不同的肿瘤类型中明显不同;平均而言,在不同的肿瘤类型中观察到55%的差异甲基化,其中30%的低甲基化和25%的高甲基化(图1B)。食道癌、胰腺癌和甲状腺癌的差异甲基化比例最低,约为22%,而肾癌、肺癌和前列腺癌的比例最高,为70%或更高。肝癌、肺鳞癌和肾癌的低甲基化程度最高,约为40-48%,而甲状腺癌、食道癌和胰腺癌的低甲基化程度最小,约为10-15%。相反,乳腺癌、肺鳞癌和肾癌的高甲基化比例最高,为35-39%,而膀胱癌、食道癌和胰腺癌的高甲基化比例最低,为9-15%。有趣的是,在乳腺癌中,差异甲基化在高甲基化和低甲基化之间几乎平均分配(图1B)。在DMPs的数量和数据集的样本数量之间没有观察到明显的相关性。整个肿瘤类型的DMPs平均被映射到17000个独特的基因上,每个基因有四个DMPs是最常见的,每个基因平均有八个DMPs。平均来说,35%的DMPs位于基因体,24%位于IGR,13%位于TSS1500,10%位于TSS200,9%位于5′UTR,4%位于3′UTR和第一外显子(图1C)。关于DMP与CpG岛的关系分布,最大比例的DMP映射到开放海区,平均37%,其次是CpG岛,平均31%。北部和南部海岸分别平均包含13%和10%的DMP,而北部和南部大陆架包含的DMP平均比例最低,分别为5%和4%(图1D)。

图1 不同癌症类型的差异化甲基化分析结果概述

        在不同的肿瘤类型中还发现了总共15260个DMRs,每个类型平均有1090个DMRs。DMRs是基因组的扩展片段(约10 bp - kb),在不同的生物样本中显示出DNA甲基化水平的定量改变。与DMPs类似,肾癌的DMRs最多,为2505个,而食道癌最少,为349个。DMRs的平均大小为750bp,平均包含12个CpG探针。每条染色体平均有726个DMRs,其中6号染色体最多,平均有1962个,21号染色体最少,平均有81个。DMRs在各肿瘤类型中的基因组分布总体上相似。6号染色体上的一段高DMR密度似乎存在于所有的肿瘤类型中,在3、11、17和19号染色体上可以看到类似的甲基化区域。令人注意的是,在任何一种癌症类型的9号染色体上都没有发现DMRs(图3)。在不同的肿瘤中共发现了29481个DMBs。

图3 勾勒出不同癌症类型甲基化区域的基因组分布的密度图

        另一方面,DMBs是大规模的基因组区域(10 Kb-1 Mb),包含数百个基因间(开放海区)差异甲基化的CpGs。每个肿瘤平均有1785个DMBs被鉴定出来,在肾脏肾乳头瘤中观察到最多的是2543个DMBs,在肝癌中观察到最少的是1020个DMBs。由于比DMRs大,且含有更多的CpG探针,所鉴定的DMBs长度为750Kb,平均含有200个探针。每条染色体平均可以映射出1135个DMBs,其中2号染色体和18号染色体的DMBs数量分别最高和最低。从DMBs的基因组分布来看,它们似乎在各种癌症中表现出普遍的特征,这可以在1、8、9、18、19、21和22号染色体上清楚地观察到(图S3)。

图S3 密度图概述了不同癌症类型的差异甲基化区块(DMBs)的基因组分布

02 - 甲基化作为泛癌检测生物标志物

        经过过滤步骤(图2),作者确定了28个泛癌DMPs,与所有癌症类型的正常人相比,这些DMPs在肿瘤样本中被高甲基化。其中12个可以被映射到12个不同的基因上,20个DMPs位于CpG岛区域,3个位于海岸区域,3个位于开放区域,2个位于架子区域。

图2 概述生物标志物识别方法的示意图

        然后用二元逻辑回归来测试28个探针的组合,这些组合在对样本进行泛癌分类时效果最好。逻辑回归分类器模型是用1-4个探针的组合建立的,并在GEO数据集中进行了外部验证。总共测试了24157个预测器组合,其中20475个由4个探针组成(图S4)。仅使用单个探针的平均曲线下面积(AUC)为0.84(图S4A),使用四个探针组合的平均曲线下面积上升到0.92(图S4D),1个和4个预测器组合的平均误分类误差分别为0.11和0.09。这些模型在验证数据集中表现良好,单个预测因子的平均外部AUC为0.89,四个预测因子为0.95(图S4A,D)。最终的模型是根据最高的AUC和最低的错误分类误差以及这些测量中最小的标准偏差选择的。

图S4 所有测试的预测器组合的泛癌模型指标概览

        最终的模型包括四个探针,在发现集达到交叉验证的AUC为0.95,在验证集达到AUC为0.96。误分类错误率为0.06,而敏感性和特异性为90%,总体准确性为92%。在验证数据集中也取得了相当的性能(图4)。无法测出临床癌症阶段或年龄对组织类型预测的明显影响。阶段性的最终分层模型在所有四个阶段中产生了某种程度上的统一预测结果,AUC高于0.90。正如预期的那样,I期表现出最低的指标,敏感性和特异性分别为85%和91%,而最准确的预测结果出现在IV期,敏感性和特异性分别为97%和90%(图4)。

图4 最终的泛癌模型、验证数据集和阶段分层的ROC曲线

03 - 甲基化作为特定类型的检测生物标志物

        将类似的过滤步骤应用于单对单的差异性甲基化分析后,结直肠癌记录的特定类型DMP数量最多,为5181个,其次是甲状腺癌,为4666个。食道癌和肺鳞癌的类型特异性DMP数量最少,分别为13和12个DMP(图S2)s。在对相关预测因子进行特征选择后,还剩下586个探针,大约是初始特征集的3%。随后,冗余过滤聚类步骤产生了20个CpG预测因子,从10个产生的特征聚类中各选2个。由这20个预测因子中的6个组成的组合被用来建立分类器模型;这是基于初步数据显示最高的平均AUC,预测因子的数量最少,测试的组合总数最实用。使用PLSDA算法,利用14种类型的肿瘤集合数据集,共测试了38 760个组合。对14种肿瘤类型进行分类的平均交叉验证AUC为0.85。大多数测试组合在分类癌症类型方面表现良好,甲状腺、尿道、前列腺、肾脏、结肠直肠、肝脏和头颈部癌症的局部AUC平均值高于0.90。胰腺癌、肺癌、食道癌、乳腺癌和膀胱癌的平均AUC较低,但其局部AUC最大值都在0.80以上。事实上,只有食道癌的最大检测AUC低于0.90,为0.87,是研究的14种类型中最难辨别的。肝癌、前列腺癌、子宫癌和甲状腺癌的鉴别能力最高,AUC为0.99,而结直肠癌的AUC为0.98。综合的最终模型包括20个独特的CpG探针,在分类肿瘤类型方面表现非常好,与6个探针组合的单个模型相比,指标有明显的提高,特别是特异性(图5)。该模型在现有癌症类型的验证集中表现同样出色(图6)。甲状腺、子宫、前列腺、肝脏和结直肠肿瘤可以以近乎完美的灵敏度被识别。在研究的14种癌症类型中,有12种可以以高于90%的敏感度和特异度进行鉴别。只有食道癌和肺鳞状细胞癌的特异性分别为80%和87%(图5)。

图5 最终综合类型特定的偏最小二乘法-判别分析模型的接收操作特征曲线
图6 在GEO验证数据集中,最终整合的特定类型偏最小二乘法判别模型的接收操作特征曲线

四、结论

        研究使用癌症基因组图谱研究了14种不同癌症类型的全基因组甲基化谱,鉴定并验证了四种候选泛癌甲基化CpG生物标志物和20种候选癌症类型特异性标志物的组合。这突出了甲基组作为生物标志物的丰富来源,可用于新的微创癌症检测测定。

有关公共数据库+泛癌分析,全基因组DNA甲基化相关也能轻松6分+的更多相关文章

  1. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  2. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  3. ruby - 我如何添加二进制数据来遏制 POST - 2

    我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_

  4. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

  5. FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2

    本教程将在Unity3D中混合Optitrack与数据手套的数据流,在人体运动的基础上,添加双手手指部分的运动。双手手背的角度仍由Optitrack提供,数据手套提供双手手指的角度。 01  客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照:https://gitee.com/foheart_1/foheart-h1-data-summary.git02  数据转发打开MotiveBody软件的Streaming,开始向Unity3D广播数据;MotionVenus中设置->选项选择Unit

  6. 使用canal同步MySQL数据到ES - 2

    文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co

  7. ruby-on-rails - 创建 ruby​​ 数据库时惰性符号绑定(bind)失败 - 2

    我正在尝试在Rails上安装ruby​​,到目前为止一切都已安装,但是当我尝试使用rakedb:create创建数据库时,我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf

  8. STM32读取串口传感器数据(颗粒物传感器,主动上传) - 2

    文章目录1.开发板选择*用到的资源2.串口通信(个人理解)3.代码分析(注释比较详细)1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子,不过代码大概在F103系列的板子上都可以运行,我试过在野火103的霸道板上也可以,主要看一下串口对应的引脚一不一样就行了,不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源,采集数据一个,串口通信一个,板子对应引脚如下:串口1,TX:PA9,RX:PA10串口2,TX:PA2,RX:PA32.串口通信(个人理解)我就从串口采集传感器数据这个过程说一下我自己的理解,

  9. SPI接收数据异常问题总结 - 2

    SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位(1bit)。SPI数据收发是数据交换,因此接收数据时从第二个字节开始才是有效数据,也就是数据整体向右移一个字节(1byte)。请教前辈之后也没有得到解决,通过在网上查阅前人经验终于解决问题,所以写一个避坑经验总结。实际背景:MCU与一款芯片使用spi通信,MCU作为主机,芯片作为从机。这款芯片采用的是它规定的六线SPI,多了两根线:RDY和INT,这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手

  10. 微信小程序通过字典表匹配对应数据 - 2

    前言一般来说,前端根据后台返回code码展示对应内容只需要在前台判断code值展示对应的内容即可,但要是匹配的code码比较多或者多个页面用到时,为了便于后期维护,后台就会使用字典表让前端匹配,下面我将在微信小程序中通过wxs的方法实现这个操作。为什么要使用wxs?{{method(a,b)}}可以看到,上述代码是一个调用方法传值的操作,在vue中很常见,多用于数据之间的转换,但由于微信小程序诸多限制的原因,你并不能优雅的这样操作,可能有人会说,为什么不用if判断实现呢?但是if判断的局限性在于如果存在数据量过大时,大量重复性操作和if判断会让你的代码显得异常冗余。wxswxs相当于是一个独立

随机推荐