iMeta︱本实验室团队开发肠道疾病多组学数据库GutUDB

作者: 来源:艾滋病研究实验室 发布时间:2024-04-26




  • GutUDB是首个涵盖组学水平最广泛的肠道疾病数据库,整合了来自11种肠道组织亚型和63种肠道相关细胞系的58970个基因,涵盖260790个疾病基因关联,并纳入了各种临床疗法,包括化学药物、传统药物和益生菌制剂。

  • 组学水平涉及表观组学、基因组学、转录组学、空间组学、单细胞组学、蛋白质组学、微生物组学、代谢组学。

  • GutUDB提供四种关键工具—浏览、查询、可视化和下载功能—帮助用户能够轻松地理解复杂的基因-疾病-组学关系。


引言

肠道是消化系统的核心器官,负责营养吸收和消化过程。近年来,高通量测序技术从DNA水平过程、转录动态、蛋白质相关活动和表观遗传修饰等多个方面极大地拓宽了我们对生物机制的理解。这些不同的组学测序数据可为我们提供更系统、更深入的肠道疾病洞察。然而,测序数据分析技术的复杂性,加上数据存储的分散性和数据集的庞大性,阻碍了研究人员对这些组学资源的充分利用。因此,当务之急是建立一个综合数据库来整合和分析这些测序数据集,这将有助于应对这些挑战。

在这里,我们介绍了肠道宇宙数据库(GutUDB),这是一个有关肠道疾病的高质量、综合性多组学数据库。它提供了一个用户友好型平台,用于全面收集八种类型的组学数据,包括表观组学、基因组学、转录组学、空间组学、单细胞组学、蛋白质组学、代谢组学和微生物组学数据,涵盖六种不同物种的56种不同肠道疾病。GutUDB对肠道疾病进行了全面分析,通过各种信息图表展示了多组学数据。我们纳入了适用于治疗肠道疾病的化学药物和传统药物,以及益生菌制剂。GutUDB将在确定肠道疾病的诊断靶点和揭示这些疾病进展的分子机制方面发挥关键作用。

结果

GutUDB概述

目前,GutUDB已从八大组学数据集中生成约900万个图例,其中包括人类(Homo sapiens)、家鼠(Mus musculus)、挪威鼠(Rattus norvegicus)、猕猴(Macaca mulatta)等六类物种相关的56种肠道疾病。总体而言,GutUDB纳入了11种肠道组织和63种肠道细胞系的58970个基因,并确定了各种潜在的临床疗法,包括化学药物、传统药物和益生菌制剂。为了帮助用户更加轻松地理解和查询错综复杂的基因—疾病—组学网络,GutUDB集成了四项核心功能:浏览、查询、可视化和下载(图1A)。

1.肠道宇宙数据库(GutUDB)的内容和功能。

A)数据收集和处理过程,以及数据库网站的构建过程,包括四个核心功能(浏览、查询、可视化和下载)。(BMETTL3在不同组织中的表达水平,数据来源于GTEx。(C)箱线图显示结肠癌组织和健康组织的基因表达差异。(D)散点图显示结肠癌组和健康组之间METTL3基因表达的相关性分析。(E)结肠癌相关基因POLE的生存分析曲线。(FscRNA-seq数据中CNPY3在不同细胞中的表达水平图谱。(GMUTYH在结直肠癌中的H3k27me3m6A位点以及RNA-seqSNP数据的读数覆盖率的轨迹。

不同肠道疾病之间的疾病基因关联

GutUDB中总共嵌入了260790个疾病基因关联。与肠道相关的主要疾病包括结肠癌、结直肠癌、结肠出血、直肠癌、便秘、腹泻、回肠炎、炎症性肠病和小肠癌(图S1A),关联性排名前十的基因为STK11CFTRBMPR1ASMAD4NOTCH1PKD1MLH1MSH2APCMEFV(图S1B)。STK11是的Peutz-Jeghers综合征的相关基因。SMAD4BMPR1A与幼年多发性息肉综合征有关。这些发现说明了肠道病变与这些基因之间的密切关系。

为了进一步探索与肠道疾病相关的特定基因,用户可以在主页上通过输入基因符号即可获取详细信息。以METTL3为例,点击“搜索”图标后,页面展示该基因的详细信息,如基因组位置和功能特征(如RNA结合蛋白或转录因子)(图S1C),以及在不同组织中跨越8个组学水平的表达水平和模式图(图1B)。我们观察到,在结肠癌中,METTL3的拷贝数变异(CNV)缺失频率仅为0.04,而该基因的RNA表达量却很高。我们的结论是,CNV RNA表达与METTL3之间存在微弱的相关性,其他表观遗传学和蛋白质组学数据也可以进行类似的相关性分析(图S1D)。此外,GutUDB还提供了结肠癌患者中具有差异表达和生存预后的基因集信息(图1C-E


四个核心模块:疾病、治疗、物种和组学数据

GutUDB主要分为四大模块—物种(PECIES)、疾病(DISEASES)、组学(OMICS)和治疗(THERAPY),方便用户点击主页上的每个图标访问和浏览相应的详细信息。在“治疗”模块中,GutUDB整理出了21984种药物与疾病的相互作用,包括6281种化合物、393种传统药物和22种益生菌(图S1E)。在这些关联中,顺铂作为结肠癌患者的化疗药物,可渗入肿瘤细胞,诱导DNA损伤,最终导致细胞死亡。结果表明,顺铂在药物—疾病—基因网络中具有很强的连接性,这凸显了GutUDB中信息的可靠性和可访问性。在“疾病”模块中,用户可以深入了解不同组学水平的各种肠道疾病相关的基因(图S1F)。在“物种”模块中,用户可以浏览所有基因并选择自己感兴趣的物种(图S1G)。为了方便用户通过输入关键字(如基因名或特定类型的肠道疾病)或点击当前页面顶部的项目(如组学水平或热门基因)来有效检索和筛选结果,网站的所有结果都以表格形式呈现。


浏览肠道疾病相关的空间组学和单细胞组学数据

空间组学和单细胞测序方法极大地推动了对细胞异质性、免疫调节和肠道疾病分子机制的研究。GutUDB中的空间组学数据揭示了不同样本中肿瘤特异性基因的复杂空间表达图谱以及注释图谱。选择基因后,用户可以在GutUDB中浏览空间组学数据的基因相关信息。此外,我们还提供了GutUDB中空间组学数据的样本、组织类型、生物技术和基因表达谱的详细信息。基因表达的主页显示了单细胞RNA-seqUMAP图,每个样本的详细页面包含了基因在不同细胞中的表达图谱(图1F)。此外,GutUDB还嵌入了与肠道疾病相关的单细胞基因表达、单细胞替代多腺苷酸化(APA)、单细胞替代剪接(AS)和单细胞蛋白质组学数据,方便用户从RNA和蛋白质等不同维度全面了解单细胞水平的调控机制。


与肠道疾病相关的多组学图谱的交互式可视化

为了便于整合和分析不同的数据集和数据类型,我们将不同的组学数据类型与DNARNA、蛋白质和基因变异等其他方面之间复杂的相互作用结合起来。 用户可以通过导航栏中的“Omics”选项浏览特定的组学类型。GutUDB中集合了八种不同类型的组学,以实现交互式可视化。

表观遗传学在肠道疾病的发生和发展中发挥着至关重要的作用,研究人员在临床试验中筛选并利用表观遗传学分子作为诊断和预后生物标志物。在GutUDB中,表观组学主要包含三大部分的内容,其中包括DNA甲基化、组蛋白修饰(H3K27me3H3K27acH3K36me3H3K4me1H3K4me3H3K9me3)和染色体结构。其中,转录和转录后涉及RNA m6A修饰和可变剪接的调控机制是当前研究的重点。我们以MUTYH为例展示组蛋白修饰状态,特别是H3K27me3修饰(图1G)。

基于miCLIP-seq数据,GutUDB整理了1908RNA m6A修饰位点。由于基因组学的改变会影响RNA修饰并导致基因转录水平的改变,进而影响蛋白质的表达水平。此外,GutUDB数据库还纳入了六种类型的可变剪接,包括外显子缺失、可变的5’端剪切、可变的3’端剪切、互斥外显子和内含子保留。我们以MUTYH为例,说明结直肠癌中替代剪接和m6A修饰的情况(图1G)。

在基因组学方面,GutUDB包括72248个单核苷酸多态性(SNP)、54131个拷贝数变异(CNV)、1097个染色体结构变异(SV)以及92888个与不同肠道疾病相关的突变基因,详情请参见“统计数据”页面。值得注意的是,每个基因组变异都附有其在不同人群频率和数据来源。在此,我们展示了结直肠癌中MUTYH基因的SNP位点(图1G)。

在转录组学方面,收集了137RNA-seq数据集,涉及约790万个转录谱,这些转录谱在不同条件下或不同组织中具有不同的基因表达模式(图S1H)。此外,与肠道疾病相关的非编码RNA也在单独页面展示,包括62个环状RNAcircRNA)、182个长非编码RNAlncRNA)和58microRNAmiRNA)。

在蛋白质组学和代谢组学的畸变对肠道疾病的病理生理学有重大影响。在GutUDB中,蛋白质组学数据提供了蛋白质特征的信息,包括功能域、活性位点和人工调控下的翻译后修饰。此外,代谢组学和微生物组学数据展示了2764种肠道微生物与代谢物之间的关系。

因此,GutUDB使研究人员能够从多个生物学层面和角度深入研究基因修饰的复杂关联,从而揭示基因调控的复杂过程。

S1网站其他部分的内容展示。

A)各种肠道疾病的比例。(B)与基因疾病相关的排名前10个基因。(C) 执行搜索功能后显示的基因详细内容。(D)与基因相关的八个主要组学信息。(E)治疗部分包含化合物、传统药物和益生菌。(F)疾病部分的详细页面展示。(G)物种部分的详细页面展示。(H)基因组学中数据集详细信息的页面展示。



讨论和未来方向

在这项研究中,主要的挑战是如何标准化整合不同平台的测序数据,如RNA-seq和微阵列数据。诚然,测序平台和仪器存在差异,但我们的数据库GutUDB主要利用RNA-seq数据进行批量转录组学研究,因为它仍然可以进行有效的标准化和比较。整合包括转录组学在内的多种多样的组学数据,可以揭示病理变化,大大提高我们对疾病诊断、机制和治疗策略的理解。GutUDB必将成为广大用户的综合资源,如胃肠病学专业的临床医生、学术和科研机构的研究人员、大学的教育工作者和学生以及任何对肠道研究和临床应用感兴趣的人。用户可以直接通过GutUDB轻松获取与肠道疾病相关的大量组学数据,而无需在各种数据库(如非编码RNA数据库、空间组学数据库和微生物组数据库)中搜索特定疾病的信息。

随着各种测序数据的快速积累,我们将会经常更新GutUDB,并自豪地宣布GutUDB将致力于成为全球社区的开放式资源,推动肠道疾病的研究。我们还计划在未来一到两年内将互动模型集成到GutUDB中,以方便平台上的用户进行实时交流。此外,我们还将在GutUDB中整合更全面的肠道疾病病理切片、肠道疾病放射组学和肠道疾病个体队列,确保获得最新、最广泛的肠道疾病多组学数据。


附件: