为什么有的人对疾病易感,而有的人不易感?答案藏在每个人的基因组里,因为我们的基因组存在差异;那么,这些差异发生在基因组的哪些位点,又对应了人体的哪些生老病死?
西湖大学杨剑实验室一直致力于用统计学的方法,在浩如烟海的数据中寻找人体遗传的秘密,进而找到“对症下药”的方法。近日,他们又取得了重要进展。
2022年8月18日,西湖大学杨剑团队在 Nature Genetics 期刊在线发表了题为:Genetic control of RNA splicing and its distinct role in complex trait variation 的研究论文。
该研究开发出一款高效的RNA可变剪接遗传调控位点(splicing QTL,简称sQTL)定位新方法,绘制出迄今为止最全面的可变剪接遗传调控图谱,并据此鉴定出100多个与抑郁症、精神分裂症、帕金森病、阿尔茨海默病等脑部疾病相关的新易感基因。
科学研究进行到今天,基因、DNA已经成为大众耳熟能详的名词。我们已知,人类的身高、容貌、个性以及对某一类疾病的易感性等,都是由大量的、效应微小的DNA片段的变化造成的,这就是遗传变异。
为了寻找这些DNA变化与人类疾病之间的对应关系,一种被广泛用于检测遗传变异与表型之间关联的实验设计——全基因组关联分析(GWAS)应运而生。它利用统计学方法寻找与疾病相关联的遗传因素,进而揭示与疾病发生、发展相关的基因组变异位点。
作为这一领域的佼佼者,杨剑团队此前提出了一系列统计遗传学分析方法,成为全基因组关联分析领域的主流方法,并鉴定出大量与精神分裂等疾病易感关联的基因组变异位点(简称“疾病易感位点”)。
但在研究过程中,他们产生了新的困惑。
杨剑表示,我们通常认为,基因组变异对疾病易感性的影响是通过调控基因表达量实现的。但我们发现,有很大比例的疾病易感位点不能被这种机制所解释,有时候一个基因组变异位点不影响任何基因的表达量,却仍然对疾病易感性有显著影响。
他们进一步研究认为,其中一个重要原因或许是此前大多数研究只关注基因表达的“总量”,而忽略了“成分”,例如可变剪接造成的RNA成分变异。
什么是可变剪接?
生物学中心法则描述了遗传信息的传递过程,即DNA——RNA——蛋白质。DNA先根据碱基互补配对原则合成前体信使RNA(pre-mRNA),再把pre-mRNA中,不编码蛋白的部分“剪”掉,编码蛋白的部分“接”到一起,形成“成熟信使RNA”,用于指导蛋白合成,从而完成基因表达。
但这种“剪”与“接”,并不是一成不变的。我们来看下面这张图。
Pre-mRNA在不同的位置被剪接,会生成不同的形态,有的是三段蛋白编码区组合在一起,有的是两段组合在一起,类似我们儿时学过的“排列组合题”,因为不同的组合方式,导致结果不同,这个过程就称之为“可变剪接”。
顾名思义,正是因为这种剪接“可变”,最终导致个体之间剪接产物的差异,进而产生对疾病不同的易感性。
顺着这一思路,杨剑团队经过大量的理论推导与计算模拟,开发出了一款高效的RNA可变剪接遗传调控位点定位新方法,将其命名为THISTLE。他们将该方法应用于2865个人类脑组织的转录组和基因组数据的分析,成功鉴定出约200万个遗传变异位点与12794个基因的可变剪接事件关联,进而绘制出迄今为止样本量最大、剪接事件最全面的RNA可变剪接遗传调控图谱。
随后,研究团队将该图谱映射到抑郁症、精神分裂、帕金森氏症、阿尔兹海默症等大脑相关性状和疾病的GWAS数据中,找到了100多个新易感基因。新鉴定出的疾病易感基因,不仅可以作为潜在药物靶点,还可以作为生物标志物预测疾病风险。
由此,杨剑团队证实了RNA可变剪接在疾病遗传调控机制中发挥着独特的重要作用,揭示了基因组变异通过对可变剪接的遗传调控来影响疾病发生发展的普遍性,为研究人类复杂疾病的遗传机制提供了新方向。