人類基因組計劃 (英語:Human Genome Project ,縮寫 :HGP )是一項規模高,跨國跨學科的科學探索巨型工程 。其宗旨在於測定組成人類染色體 (指單倍體 )中所包含的六十億對組成的核苷酸 序列,從而繪製人類基因組 圖譜,並且辨識其載有的基因 及其序列,達到破譯人類遺傳資訊的最終目的。基因組計劃是人類為了探索自身的奧秘所邁出的重要一步。截至2005年,人類基因組計劃的測序 工作已經基本完成(92%)。其中,2001年人類基因組工作草圖的發表(由公共基金資助的國際人類基因組計劃和私人企業塞雷拉基因組公司 各自獨立完成,並分別公開發表)被認為是人類基因組計劃成功的里程碑。大多數政府資助的測序是在美國,英國,日本,法國,德國和中國的20所大學和研究中心進行[ 1] 。
此條目
需要補充更多來源 。
(2015年2月28日 )
徽標,取自達文西的維特魯威人
美國能源部 人類基因組計劃 徽標
國際人類基因組計劃的啟動的重要原因是美國能源部 的推動。1984年,在美國猶他州 的Alta,由美國政府資助的旨在討論日益發展的DNA重組 技術的會議上,科學家們第一次討論了人類基因組測序的價值。[ 2] 而首次對於人類基因組測序的可行性進行認真的探討是在1986年由羅伯特·辛舍梅 (Robert Sinsheimer)主持的會議上。[ 3] 與會者的發言:「這計劃(人類基因組啟動計劃)的最終目標是了解人類基因組」,「就像了解人類身體構造 對於目前醫學 發展的貢獻,對人類基因組的了解將對醫學和其他健康科學研究提供必不可少的支持」。隨後,美國健康與環境研究項目主任查爾斯·德利斯 決定對人類基因組啟動計劃進行資助,用於發展關鍵性技術與資源。[ 4] [ 5] [ 6]
1988年,人類基因組計劃再次得到顯著的推動,DNA雙螺旋結構 的發現者和諾貝爾生理學或醫學獎 的獲得者詹姆斯·沃森 領導着美國國家衛生研究院 中新成立的研究中心,加入了這個計劃。對於人類基因組計劃,沃森的評價是:「不儘快將它(人類基因組計劃)完成將是非常不道德」,[ 7] 「能讓我的科學生涯從雙螺旋(指的是組成人類染色體的單倍體中的核苷酸序列組成)跨越到人類基因組是我的榮幸」。[ 8] 但1992年沃森於該計劃的領導角色被弗朗西斯·柯林斯 取代。
1990年,人類基因組計劃由美國能源部和國家衛生研究院投資,預期在15年內完成。隨後,該計劃擴展為國際合作的計劃,英國 、日本 、法國 、德國 和中國 先後加入,形成了國際基因組測序聯盟 。為了協調各國人類基因組研究,1988年在維克多·馬克庫斯克 等科學家的倡導下,國際人類基因組組織 (HUGO)宣告成立。[ 4]
在國際人類基因組計劃(以下簡稱「國際計劃」)啟動八年後的1998年,美國科學家克萊格·凡特 創辦了一家名為塞雷拉基因組(Celera Genomics)的私立公司,邀聘具基因測序之父的陳奕雄 博士擔任首席科學家,開展獨立的人類基因組計劃。與國際人類基因組計劃相比,該公司希望能以更快的速度和更少的投資(3億美元,僅為國際計劃的十分之一)來完成此項工程。塞雷拉基因組的另起計劃被認為對人類基因組計劃是一件好事,因為塞雷拉基因組的競爭促使國際人類基因組計劃不得不改進其策略,進一步加速其工作進程,使得人類基因組計劃得以提前完成。
基於對基因結構的了解及對電子機具的認識,陳奕雄 博士的團隊採用了更快速同時更具風險的技術全基因組霰彈槍測序法 ,進而創造出全世界第一台全自動測序儀ABI3600。霰彈槍測序法的思想是將基因組打斷為數百萬個DNA片段,然後用一定的算法 將片段的序列資訊重新整合在一起,從而得到整個基因組序列。為了提高這一方法的效率,1990年代,測序和片段資訊整合達到了自動化。這一方法雖然已被用於序列長達6百萬個鹼基對的細菌基因組測序,但對於人類基因組中30億鹼基對的序列測定,這一技術能否成功在當時還未有定論。
塞雷拉基因組一開始宣稱只尋求對200至300個基因的專利權 保護,但隨後又修改為尋求對「完全鑑定的重要結構」的總共100至300個靶基因進行知識產權 保護。1999年,塞雷拉申請對6500個完整的或部分的人類基因進行初步專利保護;批評者認為這一舉動將阻礙遺傳學研究。[ 9] 此外,塞雷拉建立之初,同意與國際計劃分享數據,但這一協定很快就因為塞雷拉拒絕將自己的測序數據存入可以自由訪問的公共數據庫GenBank 而破裂。雖然塞雷拉承諾根據1996年百慕達協定 每季度發表他們的最新進展(國際計劃則為每天),但不同於國際計劃的是,他們不允許他人自由發佈或無償使用他們的數據。
2000年,經美國國家衛生研究院院長科林斯與賽雷拉公司集團協調後,由美國總統克林頓 牽着兩個團隊領導人的手,宣佈人類基因體計劃完成,其所有人類基因組數據為人類共同財富,不允許專利保護,且必須對所有研究者公開,[ 10] 塞雷拉最後決定將數據公開。但這一事件也導致塞雷拉的股票價格一路下挫,並使倚重生物技術股的納斯達克 指數受到重挫。
人類基因組計劃的分階段目標如下[ 6] :
遺傳圖譜 的繪製 。遺傳圖譜主要是用遺傳標籤來確定基因在染色體上的排列。1994年9月,完成了包含3000個(原計劃為600-1500)標籤解像度為1-cM(即1%重組率)的遺傳圖譜的繪製。
物理圖譜 的繪製 。物理圖譜是通過序列標籤位點 對構成基因組的DNA分子進行測定,從而對某基因所相對之遺傳訊息及其在染色體上的相對位置做一線性排列。1998年10月,完成了包含52,000個(原計劃為30,000)序列標籤位點的物理圖譜的繪製。
序列測定 。通過測序得到基因組的序列,是一般意義上的人類基因組計劃。2003年4月,包含基因序列中的98%(原預計為95%)獲得了測定,精確度為99.99%。
辨別序列中的個體差異 。每一個人都有唯一的基因序列,因此,人類基因組計劃發佈的數據不可能精確的反映單獨個體的基因序列。它只是很少量匿名捐贈人基因組的組合。人類基因組計劃只是為未來鑑定不同個體間基因組差異做一些基礎的框架性工作。當前主要工作在於鑑定不同個體間包含的單核苷酸多態性 。至2003年2月,已有約3,700,000個單核苷酸多態性位點得到測定。
基因鑑定 。以獲得全長的人類cDNA 文庫為目標。至2003年3月,已獲得15,000個全長的人類cDNA文庫。人類基因組計劃最開始的目標是不但以最小的錯誤率檢測出人類基因的所有30億個鹼基對,還要從如此海量的數據中確認出所有的基因及其序列。這一部分計劃正在進行中,儘管目前的數據顯示在人類基因組中只有大約20,000至25,000個基因,遠遠低於大多數科學家先前的估計。
基因的功能性分析 。今天,人類DNA 序列已經存儲在數據庫 中,任何人都可以通過互聯網 下載。美國國家生物技術資訊中心 和位於歐洲和日本的姊妹組織儲存着整個基因序列,其中包含已知序列,假設基因和蛋白質。其他組織像加州大學聖塔克魯斯分校 和ENSEMBL提供附加數據,註釋和觀察和檢索數據的有力工具。用已開發的電腦程式 來分析數據,因為未經過譯碼的數據基本上沒有用處。而這一過程將要耗費大量的時間。對未加工的DNA數據,其中已知基因的位置的標註被稱為註釋序列 (annotation),對註釋序列進行分析工作屬於生物資訊學 的範疇。如果只由有經驗的生物學家對海量的數據進行標註,經常是非常緩慢的,所以一些特定的對DNA 序列進行判別的電腦程式 正被越來越多地應用在基因排序工程中。當前,分析註釋序列的最佳技術是利用DNA序列和人類語言 之間並行性的統計模型,採用類似於計算機科學中形式文法 的概念。但是,使用自動標註的註釋的準確度仍然不夠理想。而且電腦程式 的自動判定會複製已有註釋中的錯誤,從而使錯誤越來越多。對於這些錯誤的糾正是一個非常巨大的工程。這一階段的另一個目標是研發出更快更有效的方法來進行DNA測序 和序列分析 ,並把這一技術加以產業化。已獲得開發的技術包括高通量寡聚核苷酸的合成(1994年)、DNA微陣列 (1996年)、標準化和消減化cDNA文庫(1996年)、真核(酵母 )全基因組敲除技術(1999年)、大型化雙雜交 定位(2002年)。
國際計劃的資金主要來源於美國國家衛生研究院和英國慈善機構威康信託基金會 ,後者資助了位於英國的桑格研究中心 和其他一些國家的研究機構。
國際人類基因組測序聯盟的所用於測序的基因組取樣於一大批捐獻者的血液 和精子 。只有少量的樣品被用做DNA測序,又由於捐獻者的身份是保密的,因此無論是捐獻者或是科學家都不知道用於測序的DNA是來自哪些人。來自不同文庫 的DNA被克隆 後用於整個計劃,大多數文庫由彼得·楊(Pieter J. de Jong)博士完成。科學家使用來自於兩名男性和兩名女性(捐獻者中隨機選出)的血液中的白血球 ,從中取得分離的DNA文庫。由於質量較高,文庫之一的RP11被較多地使用。有非正式的報道(在基因組計劃的團體內部也盛行的說法)指出用於國際基因組計劃的大部分DNA來自於住在紐約州 布法羅 的一名男性捐獻者(編號為RP11)。[ 11]
塞雷拉基因組計劃使用的DNA樣品來源於五名捐獻者。塞雷拉基因組的首席科學家克萊格·凡特 在一篇寫給《科學 》雜誌的公開信中承認他本人是捐獻者之一。[ 12]
在國際計劃中,基因組被分割成多個片斷(長度接近150,000個鹼基對)。由於這些片斷能被插入細菌中,並利用細菌的DNA複製 機器進行複製,因此被稱為細菌人工染色體 。通過對每一個這樣的片斷分別應用「霰彈槍測序法」,最終將這些片斷通過配對末端法(pair-end)以及其他許多定位數據重新組裝在一起從而獲得完整的基因組。[ 13] 這一手段是先將基因組分成相對較大的片斷,並且在對片斷進行測序前將其定位到每條染色體對應位置,所以被稱為「分級霰彈槍測序法」。
塞雷拉基因組嘗試用全基因組霰彈槍測序法並且沒有使用附加的定位拼接。[ 14] 但他們由於利用了少量的公共數據來完成計劃而招致他人詬病。[ 15]
關於如何界定人類基因組測序完成,有多種定義。根據不同的定義,人類基因組的測序是否完成有不同的看法。曾有多個大眾媒體報道人類基因組計劃「完成」,而且由國際人類基因組計劃所採用的定義,基因組的測序已經完成。有統計數據顯示,[ 16] 截至2003年底,絕大部分的人類基因組已獲得測定;但基因組中仍有許多的區域未獲得測序。這其中的首要原因是在每條染色體的中心區域(稱為着絲粒 )含有大量重複DNA序列,用目前的技術進行測序的難度較大。着絲粒含有數百萬(可能接近千萬)的鹼基對,其中的大多數完全沒有得到測序。第二個原因是在染色體末端區域(稱為端粒 )同樣含有高度重複的DNA序列。而且在46條染色體中,其末端大都不完整,因此無法精確地知道在端粒前還有多少序列;與着絲粒 的情況類似,目前的技術很難測定這些序列。第三個原因是在每個人的基因組中都含有多個包含多基因家族成員的位點,這些位點的測序問題用霰彈槍測序法 難以解決,而包含於這些位點中的多基因家族成員往往編碼具有重要免疫 功能的蛋白質 。對於前兩個原因,可以通過發展新的技術來解決測序問題。除了以上區域,還有一些間隙散佈於基因組中,部分間隙較大,但有希望在數年內解決。總而言之,對於全基因組的大小的估計顯示了92%的基因組已經獲得測定,餘下的高度重複的DNA序列不大可能含有基因,但在完成所有的測序之前,沒有什麼是確定無誤的。
該項目無法對所有人類細胞中發現的DNA進行測序。它只對基因組的真染色質 區域進行測序,這些區域佔人類基因組的92.1%。其他的區域稱為異染色質 ,發現於着絲粒 和端粒 中,而該計劃並未對此測序[ 17] 。人類基因組計劃(HGP)於2003年4月宣佈完成。人類基因組的初步草圖於2000年6月問世,到2001年2月完成並發表了工作草案,隨後在2003年4月14日完成了人類基因組的最終測序。雖然有報導稱,該方法覆蓋了99%的全色人類基因組,準確率為99.99%,但2004年5月27日發表的一份對人類基因組序列的主要質量評估顯示,超過92%的樣本的準確率超過了99.99%,達到了預期目標[ 18] 。關於HGP的進一步分析和論文不斷出現[ 19] 。2009年3月,基因組參考聯盟(GRC)發佈了一個更精確的人類基因組版本,但仍有300多個漏洞。截至2019年6月,GRC仍指出89個「未解決」的漏洞,其中大多數被標註為「暫停」或「正在調查/審查中」[ 20] 。
2000年6月26日,美國總統克林頓 與英國首相貝理雅 共同宣佈人類基因組計劃工作草圖完成;[ 21] 次年2月,工作草圖的具體序列資訊、測序所採用的方法以及序列的分析結果被國際人類基因組測序聯盟和塞雷拉基因組的科學家分別公開發表於《自然 》與《科學 》雜誌。[ 13] [ 14] 這一工作草圖覆蓋了基因組序列的83%,包括常染色質 區域的90%(帶有150,000個空缺,且許多片斷的順序和方位並沒有得到確定)。
1999年至2006年,完成了全部24條染色體的測序工作,具體如下:
1999年12月,22號染色體測序完成;[ 22]
2000年5月,21號染色體測序完成;[ 23]
2001年12月,20號染色體測序完成;[ 24]
2003年2月,14號染色體測序完成;[ 25]
2003年6月,男性特有的Y染色體測序完成;[ 26]
2003年5月和7月,7號染色體測序完成;[ 27] [ 28]
2003年10月,6號染色體測序完成;[ 29]
2004年4月,13號和19號染色體測序完成;[ 30] [ 31]
2004年5月,9號和10號染色體測序完成;[ 32] [ 33]
2004年9月,5號染色體測序完成;[ 34]
2004年12月,16號染色體測序完成;[ 35]
2005年3月,X染色體測序完成;[ 36]
2005年4月,2號和4號染色體測序完成;[ 37]
2005年9月,18號染色體測序完成;[ 38]
2006年1月,8號染色體測序完成;[ 39]
2006年3月,11號,12號和15號染色體測序完成;[ 40] [ 41] [ 42]
2006年4月,17號和3號染色體測序完成;Human Genome Project Information[1] (頁面存檔備份 ,存於互聯網檔案館 )
2006年5月,1號染色體測序完成;Human Genome Project Information[2] (頁面存檔備份 ,存於互聯網檔案館 )
2004年,國際人類基因組測序聯盟的研究者宣佈,人類基因組中所含基因的預計數目從先前的30,000至40,000(在計劃初期的預計數目則高達2,000,000)調整為20,000至25,000。預期還需要多年的時間來確定人類基因組中所含基因的精確數目。
破譯人類遺傳資訊,將對生物學,醫學,乃至整個生命科學產生無法估量的深遠影響。目前基因組資訊的註釋工作仍然處於初級階段。隨着將來對基因組的理解更加深入,新的知識會使醫學 和生物技術 領域發展更為迅速。基於DNA載有的資訊在細胞生命活動中的指導作用,在分子生物學 水平上深入了解疾病的產生過程將大力推動新的療法和新藥的開發研究。對於癌症 、老年痴呆症 等疾病的病因研究也將會受益於基因組遺傳資訊的破解。事實上,在人類基因組計劃完成之前,它的潛在使用價值就已經表現出來。大量的企業,例如巨數遺傳公司 開始提供價格合宜,而且容易使用的基因檢測 ,其聲稱可以預測包括乳腺癌 、凝血 、纖維性囊腫 、肝臟 疾病在內的很多種疾病。[ 43] 。
此外,人類基因組計劃將促成醫學界的「個人化製藥」的發展。對病人的整個基因序列的了解有助於醫療人員相應地提供最適合有效的幫助。的確,發展DNA科技將使得複製病人的基因組成本降低,相應的檢查費用也會大大減少。
人類基因組計劃對許多生物學研究領域有切實的幫助。例如,當科研人員研究一種癌症時,通過人類基因組計劃所提供的資訊,可能會找到某個,或些相關基因。如果在互聯網 上訪問由人類基因組資訊而建立的各種數據庫,可以查詢到其他科學家相關的文章,包括基因的DNA ,cDNA 鹼基順序,蛋白質 立體結構 、功能,多態性,以及和人類其他基因之間的關係。也可找到和小鼠 、酵母、果蠅 等對應基因的進化 關係,可能存在的突變及相關的信號傳導機制。人類基因組計劃對與腫瘤相關的癌基因 ,腫瘤抑制基因 的研究工作,起到了重要的推動作用。
分析不同物種的DNA序列的相似性會給生物進化 和演變的研究提供更廣闊的路徑。事實上,人類基因組計劃提供的數據揭示了許多重要的生物進化史上的里程碑事件。如核糖體 的出現,器官 的產生,胚胎 的發育,脊柱 和免疫系統 等都和DNA載有的遺傳資訊有密切關係。
人類遺傳資訊也為考古學,犯罪學以及社會執法提供了極大的幫助。例如,分子人類學家通過母系遺傳的線粒體DNA以及父系遺傳的染色體Y確定了非洲確實是人類起源的搖籃。DNA證明了早在6萬年前人類始祖便從非洲大陸遷徙到其他大洲的事實;大陸之間數列的異同也使得分子系統學家了解家族及個人的家譜關係。此外,通過收錄已知犯人的DNA序列,有關政府加速了判別及震懾罪犯的措施。此執法方式被證明十分有成效但也常因迅速誤判無辜嫌疑人而飽受爭議。
模式生物 (包括小鼠、果蠅、線蟲 、斑馬魚 、酵母等)的基因組計劃。
人類元基因組計劃 :對人體內所用共生菌群的基因組進行序列測定,並研究與人體發育和健康相關基因的功能。
國際人類基因組單體型圖計劃 (簡稱HapMap計劃):目標是構建人類DNA序列中多態位點的常見模式。由於每個個體(除了孿生 子和克隆 動物)的基因組都有獨特之處,因此有必要對個體之間的差異在基因組上進行定位。其完成將為研究人員確定對人類健康和疾病以及對藥物和環境反應有影響的相關基因提供關鍵資訊。
人類基因組多樣性研究計劃 :對不同人種 、民族 、人群 的基因組進行研究和比較。這一計劃將為疾病監測、人類的進化研究和人類學研究提供重要資訊。
(英文) Barnhart, Benjamin J. DOE Human Genome Program . Human Genome Quarterly. 1989, 1 : 1 [2005-04-20 ] . (原始內容存檔 於2012-04-20). Retrieved 2005-02-03.
(英文) Collins, F.S., Morgan, M., Patrinos, A. The Human Genome Project: Lessons from Large-Scale Biology. Science. 2003, 300 : 286–290.
(英文) Kennedy D. Not wicked, perhaps, but tacky. Science. 2002, 297 : 1237. PMID 12193755 .
Schmutz, Jeremy; Wheeler, Jeremy; Grimwood, Jane; Dickson, Mark; Yang, Joan; Caoile, Chenier; Bajorek, Eva; Black, Stacey; Chan, Yee Man; Denys, Mirian; Escobar, Julio; Flowers, Dave; Fotopulos, Dea; Garcia, Carmen; Gomez, Maria; Gonzales, Eidelyn; Haydu, Lauren; Lopez, Frederick; Ramirez, Lucia; Retterer, James; Rodriguez, Alex; Rogers, Stephanie; Salazar, Angelica; Tsai, Ming; Myers, Richard M. Quality assessment of the human genome sequence. Nature. 2004, 429 (6990): 365–368. Bibcode:2004Natur.429..365S . PMID 15164052 . doi:10.1038/nature02390 .
(英文) Dunham I.; et al. The DNA sequence of human chromosome 22. Nature. 1999, 402 : 489–495.
(英文) Hattori M.; et al. The DNA sequence of human chromosome 21. Nature. 2000, 405 : 311–319.
(英文) Deloukas P.; et al. The DNA sequence and comparative analysis of human chromosome 20. Nature. 2001, 414 : 865–871.
(英文) Heilig R.; et al. The DNA sequence and analysis of human chromosome 14. Nature. 2003, 421 : 601–607.
(英文) Skaletsky H.; et al. The male-specific region of the human Y chromosome is a mosaic of discrete sequence classes. Nature. 2003, 423 : 825–837.
(英文) Scherer SW; et al. Human chromosome 7: DNA sequence and biology. Science. 2003, 300 : 762–772.
(英文) Hillier LW; et al. The DNA sequence of human chromosome 7. Nature. 2003, 424 : 157–164.
(英文) Mungall AJ; et al. The DNA sequence and analysis of human chromosome 6. Nature. 2003, 425 : 805–811.
(英文) Dunham A; et al. The DNA sequence and analysis of human chromosome 13. Nature. 2004, 428 : 522–528.
(英文) Grimwood J; et al. The DNA sequence and biology of human chromosome 19. Nature. 2004, 428 : 529–535.
(英文) Humphray SJ; et al. The DNA sequence and analysis of human chromosome 9. Nature. 2004, 429 : 369–374.
(英文) Deloukas P; et al. The DNA sequence and comparative analysis of human chromosome 10. Nature. 2004, 429 : 375–381.
(英文) Schmutz J; et al. The DNA sequence and comparative analysis of human chromosome 5. Nature. 2004, 431 : 268–274.
(英文) Martin J; et al. The DNA sequence and analysis of duplication-rich human chromosome 16. Nature. 2004, 432 : 988–994.
(英文) Ross MT; et al. The DNA sequence of the human X chromosome. Nature. 2005, 434 : 325–337.
(英文) Hillier LW; et al. Generation and annotation of the DNA sequences of human chromosomes 2 and 4. Nature. 2005, 434 : 724–731.
(英文) Nusbaum C; et al. DNA sequence and analysis of human chromosome 18. Nature. 2005, 437 : 551–555.
(英文) Nusbaum C; et al. DNA sequence and analysis of human chromosome 8. Nature. 2006, 437 : 331–335.
(英文) Taylor TD; et al. Human chromosome 11 DNA sequence and analysis including novel gene identification. Nature. 2006, 440 : 497–500.
(英文) Scherer SE; et al. The finished DNA sequence of human chromosome 12. Nature. 2006, 440 : 346–351.
(英文) Zody MC; et al. Analysis of the DNA sequence and duplication history of human chromosome 15. Nature. 2006, 440 : 671–675.