千人基因组计划
来自维基百科,自由的百科全书
千人基因组计划(英语:1000 Genomes Project, 1KGP)启动于2008年1月,是一项国际研究工作,目标是迄今建立最详尽的人类遗传变异目录。科学家们计划在随后三年内,利用新开发的、更快、更便宜的技术,测定来自不同族群的数量至少一千名的匿名参与者的基因组序列。在2010年,该项目完成了前导研究阶段,数据结果发表在《自然 (期刊)》杂志(Nature)上[1]。在2012年10月,1092个基因组的测序结果公布在《自然》杂志上[2]。2015年,两篇关于项目结果和未来展望的论文发表在了《自然》杂志上。项目识别出许多限于密切相关群体的罕见变异和八种结构类变异[3]。

该项目集结来自世界各地机构的多学科研究团队,包括中国、意大利、日本、肯尼亚、尼日利亚、秘鲁、英国和美国。每一个团队将贡献巨大的测序数据集以完善人类基因组计划。最终收集数据建立公共数据库,免费向科学界和社会公众开放。[2]
通过提供所有人类遗传变异的概述,该联盟将为生物科学的所有领域,特别是在遗传学,医学,药理学,生物化学和生物信息学学科打造有价值的科研工具[4]。
背景
在人类基因组计划完成后,人类群体遗传学和比较基因组学的进步使得有可能越来越多地洞察遗传多样性的性质[5]。然而,我们刚刚才开始明白如何随机取样配子,结构变异(插入/删除(indel),拷贝数变异(CNV),反转录转座子),单核苷酸多态性(SNP)和自然选择等过程的塑造了物种内部以及物种之间变化的水平和模式[6][7][8][9]。
有性生殖期间配子的随机抽样导致遗传漂变 - 后代中种群频率的随机波动 - 并且在没有外部影响的情况下会导致所有变异的丧失。 据推测,遗传漂移率与种群规模成反比,并且可能在特定情况下加速,例如种群瓶颈,种群规模减少一段时间,以及奠基者效应(英语:founder effect,指个体在一群人追溯到少数创始人)[6]。
项目介绍
千人基因组计划计划旨在弥补对简单特征产生严重影响的罕见遗传变异(例如囊肿性纤维化、亨廷顿病)与对复杂特征产生轻微影响且与之有关的常见遗传变异(例如认知、糖尿病、心脏病)之间的知识差距。[4]
该项目的主要目标是创建一个完整而详细的人类遗传变异目录,可用于将遗传变异与疾病联系起来的关联研究。该联盟旨在发现>95% 的变异(例如 SNP、CNV、插入/缺失),其中次要等位基因频率在整个基因组中低至 1%,在基因区域中低至 0.1-0.5%,以及估计变异等位基因的种群频率、单倍型背景和连锁不平衡模式。[10]
次要目标包括为未来研究中的基因型分型平台提供更好的 SNP 和探针选择支持,以及改进人类参考序列。完整的数据库有望成为研究选择区域、多个种群中的变异以及了解突变和重组的潜在过程的有用工具。[10]
人类基因组由大约30亿个DNA碱基对组成,估计携带约20,000个蛋白质编码基因。在设计研究时,该联盟需要解决与项目指标有关的几个关键问题,例如技术挑战、数据质量标准和序列覆盖率。[10]
在接下来的三年里[需要解释],维康桑格研究所、深圳华大基因和国家人类基因组研究所大规模测序网络的科学家计划对至少 1,000 个人类基因组进行测序。由于需要大量的序列数据,因此继续招募更多参与者。[4]
在为期两年的生产阶段,每天将测序近 100 亿个碱基,相当于每 24 小时测序两个以上的人类基因组。预期的序列数据集包含 6 万亿个 DNA 碱基,比当时在 DNA 数据库中发布的序列数据多 60 倍。[4]
为了确定整个项目的最终设计,将在项目的第一年进行三项前导阶段(Pilot phase)研究。第一项前导计划以低覆盖率(2x)对 3 个主要地理群体中的 180 人进行基因分型。对于第二项前导研究,将以深度覆盖率(每个基因组 20x)对两个核心家庭(父母和成年子女)的基因组进行测序。第三项前导研究涉及以深度覆盖率(20x)对 1,000 人的 1,000 个基因的编码区(外显子)进行测序。[4][10]

根据项目的总体目标,将选择样本为正在进行常见疾病关联研究的人群提供依据。此外,样本不需要有医学或表型信息,因为拟议的目录将成为人类变异的基本资源。[10]
对于前导阶段研究,将对来自国际人类基因组单体型图计划(HapMap)集合的人类基因组样本进行测序。重点关注具有其他可用数据的样本(例如ENCODE序列、全基因组基因型、fosmid-end 序列、结构变异分析和基因表达)将很有用,以便能够将结果与其他项目的结果进行比较。[10]
千人基因组计划将遵循严格的道德程序,使用来自志愿捐赠者的样本。该研究将纳入以下人群:尼日利亚伊巴丹的约鲁巴人(YRI);东京的日本人(JPT);北京的中国人(CHB);具有北欧和西欧血统的犹他州居民(CEU);肯尼亚韦布耶的卢希亚人(LWK);肯尼亚基尼亚瓦的马赛人(MKK);意大利的托斯卡尼人(TSI);秘鲁利马的秘鲁人(PEL);休斯顿的古吉拉特人印第安人(GIH);丹佛大都市区的中国人(CHD);洛杉矶的墨西哥血统人士(MXL);以及美国西南部非洲血统人士(ASW)。[4]
项目发现
前导阶段(Pilot phase)包括三个项目:
- 来自4个群体的179个个体的低覆盖度全基因组测序
- 2个三人组(母亲-父亲-孩子)的高覆盖率排序
- 来自7个群体的697个个体的外显子靶向测序
结果发现,平均而言,每个人在注释基因中携带约250-300个功能丧失变体,并且先前涉及遗传性疾病的50-100个变体。 基于这2个三人组,估计每个新的种系的从头开始生殖系突变率约为每一对每一代有10−8个[1]。
参见
- 人类基因组计划
- 国际人类基因组单体型图计划
- 千植物基因组计划
参考文献
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.