G-四链体(G-quadruplexes,G4)是由富含串联重复鸟嘌呤(G)的DNA或RNA折叠形成的非典型核酸二级结构。研究发现,G4结构参与调节多种生物学过程,例如DNA复制、基因转录和翻译,以及基因组稳定性等。G4在人类基因组中广泛分布,且主要在基因活跃表达的区域富集,如一些基因的启动子区域。然而,启动子中G4的相关功能尚未被完全阐明,本研究通过生物信息学分析,利用大量的遗传和基因组学数据探讨了启动子中潜在的G4形成序列(putative G4 sequence,pG4)所受到的进化压力,评估了启动子pG4对基因表达的影响及可能的调控机制。本研究的主要结果如下:1.pG4序列在转录起VP-16半抑制浓度始位点(transcription start site,TSS)上下游2 kb范围内呈现出双峰分布。10,000个以上的蛋白编码基因的启动子中含有GGGNGGG序列特征的pG4。此外,启动子中有超过一半的pG4序列含有5个或5个以上的G-tracts,说明启动子中G4的形成具有一定的选择性。2.通过对GnomAD数据库中收录的76,156个样本全基因组测序数据的分析,发现启动子中pG4及G-tracts区域的等位基因频率低于非pG4(non-pG4)区域。与低稳定性pG4中的G-tracts相比,高稳定性pG4中的G-tracts具有较低的等位基因频率。同时,结合HKA、Tajima’s D、Fu and Li’s D和Fu and Li’s F检验,发现启动子中的G4受到负选择的压力。应用单例突变矫正比例(Mutability-adjusted proportion of singletons,MAPS)模型分析发现,在启动子pG4中仅由3个G组成的G-tracts中,处于中心位置的G受到的选择压力高于其它两个G。3.使用GTEx数据库中不同转录本的表达数据分析,发现同时具有含pG4和非pGselleckchem4启动子的基因,含pG4序列的启动子被优先使用,贡献了超过该类基因72.4%的转录本。在K562和HepG2细胞中,利用BG4(一种G4特异性抗体)ChIP-seq数据和RNA-seq数据分析,发现启动子含G4结构的基因表达水平普遍高于没有G4结构的基因。在TMPy P4(一种G4配体)或DMSO处理的HEK293T细胞中,对启动子中含有G4和被TMPy P4介导下调的基因进行功能富集分析,发现这些基因主要与表观遗传过程的调节相关,例如调节组蛋白修饰和染色体分离。4.顺式表达数量性状位点(cis-eQTLs)是指位于基因附近、可以解释基因表达差异的基因组位点。cis-eQTLs在启动子pG4序列及其G-tracts中显著富集。利用ENCODE数据库收录的K562和HepG2细胞系中的转录因子和转录调节因子的ChIPseq数据进行联合分析,发genetic stability现基因激活相关的组蛋白修饰标记、染色质重塑因子和转录因子的结合位点在启动子pG4序列和ChIP-seq鉴定的G4区域富集。综上所述,本研究揭示了启动子中G4处于负选择的约束下,而且G4是启动子中重要的顺式调控元件,对基因表达有促进作用。