人類基因組計劃
来自维基百科,自由的百科全书
人類基因組計劃(英語:Human Genome Project,縮寫:HGP)是一項規模高,跨國跨學科的科學探索巨型工程。其宗旨在於測定組成人類染色體(指單倍體)中所包含的六十億對組成的核苷酸序列,從而繪製人類基因組圖譜,並且辨識其載有的基因及其序列,達到破譯人類遺傳資訊的最終目的。基因組計劃是人類為了探索自身的奧秘所邁出的重要一步。截至2005年,人類基因組計劃的定序工作已經基本完成(92%)。其中,2001年人類基因組工作草圖的發表(由公共基金資助的國際人類基因組計劃和私人企業塞雷拉基因組公司各自獨立完成,並分別公開發表)被認為是人類基因組計劃成功的里程碑。大多數政府資助的定序是在美國,英國,日本,法國,德國和中國的20所大學和研究中心進行[1]。
此條目需要補充更多來源。 (2015年2月28日) |
![]() | 此條目需要更新。 (2025年2月15日) |


國際人類基因組計劃
國際人類基因組計劃的啟動的重要原因是美國能源部的推動。1984年,在美國猶他州的Alta,由美國政府資助的旨在討論日益發展的DNA重組技術的會議上,科學家們第一次討論了人類基因組定序的價值。[2]而首次對於人類基因組定序的可行性進行認真的探討是在1986年由羅伯特·辛舍梅(Robert Sinsheimer)主持的會議上。[3]與會者的發言:「這計劃(人類基因組啟動計劃)的最終目標是了解人類基因組」,「就像了解人類身體構造對於目前醫學發展的貢獻,對人類基因組的了解將對醫學和其他健康科學研究提供必不可少的支持」。隨後,美國健康與環境研究項目主任查爾斯·德利斯決定對人類基因組啟動計劃進行資助,用於發展關鍵性技術與資源。[4][5][6]
1988年,人類基因組計劃再次得到顯著的推動,DNA雙螺旋結構的發現者和諾貝爾生理學或醫學獎的獲得者詹姆斯·沃森領導著美國國家衛生研究院中新成立的研究中心,加入了這個計劃。對於人類基因組計劃,沃森的評價是:「不儘快將它(人類基因組計劃)完成將是非常不道德」,[7]「能讓我的科學生涯從雙螺旋(指的是組成人類染色體的單倍體中的核苷酸序列組成)跨越到人類基因組是我的榮幸」。[8]但1992年沃森於該計劃的領導角色被弗朗西斯·柯林斯取代。
1990年,人類基因組計劃由美國能源部和國家衛生研究院投資,預期在15年內完成。隨後,該計劃擴展為國際合作的計劃,英國、日本、法國、德國和中國先後加入,形成了國際基因組定序聯盟。為了協調各國人類基因組研究,1988年在維克多·馬克庫斯克等科學家的倡導下,國際人類基因組組織(HUGO)宣告成立。[4]
塞雷拉人類基因組計劃
在國際人類基因組計劃(以下簡稱「國際計劃」)啟動八年後的1998年,美國科學家克萊格·凡特創辦了一家名為塞雷拉基因組(Celera Genomics)的私立公司,邀聘具基因定序之父的陳奕雄博士擔任首席科學家,開展獨立的人類基因組計劃。與國際人類基因組計劃相比,該公司希望能以更快的速度和更少的投資(3億美元,僅為國際計劃的十分之一)來完成此項工程。塞雷拉基因組的另起計劃被認為對人類基因組計劃是一件好事,因為塞雷拉基因組的競爭促使國際人類基因組計劃不得不改進其策略,進一步加速其工作進程,使得人類基因組計劃得以提前完成。
基於對基因結構的了解及對電子機具的認識,陳奕雄博士的團隊採用了更快速同時更具風險的技術全基因組霰彈槍定序法,進而創造出全世界第一台全自動定序儀ABI3600。霰彈槍定序法的思想是將基因組打斷為數百萬個DNA片段,然後用一定的算法將片段的序列資訊重新整合在一起,從而得到整個基因組序列。為了提高這一方法的效率,1990年代,定序和片段資訊整合達到了自動化。這一方法雖然已被用於序列長達6百萬個鹼基對的細菌基因組定序,但對於人類基因組中30億鹼基對的序列測定,這一技術能否成功在當時還未有定論。
塞雷拉基因組一開始宣稱只尋求對200至300個基因的專利權保護,但隨後又修改為尋求對「完全鑑定的重要結構」的總共100至300個靶基因進行智慧財產權保護。1999年,塞雷拉申請對6500個完整的或部分的人類基因進行初步專利保護;批評者認為這一舉動將阻礙遺傳學研究。[9]此外,塞雷拉建立之初,同意與國際計劃分享資料,但這一協定很快就因為塞雷拉拒絕將自己的定序資料存入可以自由訪問的公共資料庫GenBank而破裂。雖然塞雷拉承諾根據1996年百慕達協定每季度發表他們的最新進展(國際計劃則為每天),但不同於國際計劃的是,他們不允許他人自由發布或無償使用他們的資料。
2000年,經美國國家衛生研究院院長科林斯與賽雷拉公司集團協調後,由美國總統柯林頓牽著兩個團隊領導人的手,宣布人類基因體計劃完成,其所有人類基因組資料為人類共同財富,不允許專利保護,且必須對所有研究者公開,[10]塞雷拉最後決定將資料公開。但這一事件也導致塞雷拉的股票價格一路下挫,並使倚重生物技術股的納斯達克指數受到重挫。
目標
人類基因組計劃的分階段目標如下[6]:
- 遺傳圖譜的繪製。遺傳圖譜主要是用遺傳標籤來確定基因在染色體上的排列。1994年9月,完成了包含3000個(原計劃為600-1500)標籤解析度為1-cM(即1%重組率)的遺傳圖譜的繪製。
- 物理圖譜的繪製。物理圖譜是通過序列標籤位點對構成基因組的DNA分子進行測定,從而對某基因所相對之遺傳訊息及其在染色體上的相對位置做一線性排列。1998年10月,完成了包含52,000個(原計劃為30,000)序列標籤位點的物理圖譜的繪製。
- 序列測定。通過定序得到基因組的序列,是一般意義上的人類基因組計劃。2003年4月,包含基因序列中的98%(原預計為95%)獲得了測定,精確度為99.99%。
- 辨別序列中的個體差異。每一個人都有唯一的基因序列,因此,人類基因組計劃發布的資料不可能精確的反映單獨個體的基因序列。它只是很少量匿名捐贈人基因組的組合。人類基因組計劃只是為未來鑑定不同個體間基因組差異做一些基礎的框架性工作。當前主要工作在於鑑定不同個體間包含的單核苷酸多態性。至2003年2月,已有約3,700,000個單核苷酸多態性位點得到測定。
- 基因鑑定。以獲得全長的人類cDNA文庫為目標。至2003年3月,已獲得15,000個全長的人類cDNA文庫。人類基因組計劃最開始的目標是不但以最小的錯誤率檢測出人類基因的所有30億個鹼基對,還要從如此海量的資料中確認出所有的基因及其序列。這一部分計劃正在進行中,儘管目前的資料顯示在人類基因組中只有大約20,000至25,000個基因,遠遠低於大多數科學家先前的估計。
- 基因的功能性分析。今天,人類DNA序列已經存儲在資料庫中,任何人都可以通過網際網路下載。美國國家生物技術資訊中心和位於歐洲和日本的姊妹組織儲存著整個基因序列,其中包含已知序列,假設基因和蛋白質。其他組織像加州大學聖塔克魯斯分校和ENSEMBL提供附加資料,注釋和觀察和檢索資料的有力工具。用已開發的電腦程式來分析資料,因為未經過解碼的資料基本上沒有用處。而這一過程將要耗費大量的時間。對未加工的DNA資料,其中已知基因的位置的標註被稱為注釋序列(annotation),對注釋序列進行分析工作屬於生物資訊學的範疇。如果只由有經驗的生物學家對海量的資料進行標註,經常是非常緩慢的,所以一些特定的對DNA序列進行判別的電腦程式正被越來越多地應用在基因排序工程中。當前,分析注釋序列的最佳技術是利用DNA序列和人類語言之間並行性的統計模型,採用類似於計算機科學中形式文法的概念。但是,使用自動標註的注釋的準確度仍然不夠理想。而且電腦程式的自動判定會複製已有注釋中的錯誤,從而使錯誤越來越多。對於這些錯誤的糾正是一個非常巨大的工程。這一階段的另一個目標是研發出更快更有效的方法來進行DNA定序和序列分析,並把這一技術加以產業化。已獲得開發的技術包括高通量寡聚核苷酸的合成(1994年)、DNA微陣列(1996年)、標準化和消減化cDNA文庫(1996年)、真核(酵母)全基因組敲除技術(1999年)、大型化雙雜交定位(2002年)。
完成方式
國際計劃的資金主要來源於美國國家衛生研究院和英國慈善機構威康信託基金會,後者資助了位於英國的桑格研究中心和其他一些國家的研究機構。
國際人類基因組定序聯盟的所用於定序的基因組取樣於一大批捐獻者的血液和精子。只有少量的樣品被用做DNA定序,又由於捐獻者的身份是保密的,因此無論是捐獻者或是科學家都不知道用於定序的DNA是來自哪些人。來自不同文庫的DNA被克隆後用於整個計劃,大多數文庫由彼得·楊(Pieter J. de Jong)博士完成。科學家使用來自於兩名男性和兩名女性(捐獻者中隨機選出)的血液中的白血球,從中取得分離的DNA文庫。由於質量較高,文庫之一的RP11被較多地使用。有非正式的報道(在基因組計劃的團體內部也盛行的說法)指出用於國際基因組計劃的大部分DNA來自於住在紐約州布法羅的一名男性捐獻者(編號為RP11)。[11]
塞雷拉基因組計劃使用的DNA樣品來源於五名捐獻者。塞雷拉基因組的首席科學家克萊格·凡特在一篇寫給《科學》雜誌的公開信中承認他本人是捐獻者之一。[12]
在國際計劃中,基因組被分割成多個片斷(長度接近150,000個鹼基對)。由於這些片斷能被插入細菌中,並利用細菌的DNA複製機器進行複製,因此被稱為細菌人工染色體。通過對每一個這樣的片斷分別應用「霰彈槍定序法」,最終將這些片斷通過配對末端法(pair-end)以及其他許多定位資料重新組裝在一起從而獲得完整的基因組。[13]這一手段是先將基因組分成相對較大的片斷,並且在對片斷進行定序前將其定位到每條染色體對應位置,所以被稱為「分級霰彈槍定序法」。
塞雷拉基因組嘗試用全基因組霰彈槍定序法並且沒有使用附加的定位拼接。[14]但他們由於利用了少量的公共資料來完成計劃而招致他人詬病。[15]
關於如何界定人類基因組定序完成,有多種定義。根據不同的定義,人類基因組的定序是否完成有不同的看法。曾有多個大眾媒體報道人類基因組計劃「完成」,而且由國際人類基因組計劃所採用的定義,基因組的定序已經完成。有統計資料顯示,[16]截至2003年底,絕大部分的人類基因組已獲得測定;但基因組中仍有許多的區域未獲得定序。這其中的首要原因是在每條染色體的中心區域(稱為著絲粒)含有大量重複DNA序列,用目前的技術進行定序的難度較大。著絲粒含有數百萬(可能接近千萬)的鹼基對,其中的大多數完全沒有得到定序。第二個原因是在染色體末端區域(稱為端粒)同樣含有高度重複的DNA序列。而且在46條染色體中,其末端大都不完整,因此無法精確地知道在端粒前還有多少序列;與著絲粒的情況類似,目前的技術很難測定這些序列。第三個原因是在每個人的基因組中都含有多個包含多基因家族成員的位點,這些位點的定序問題用霰彈槍定序法難以解決,而包含於這些位點中的多基因家族成員往往編碼具有重要免疫功能的蛋白質。對於前兩個原因,可以通過發展新的技術來解決定序問題。除了以上區域,還有一些間隙散布於基因組中,部分間隙較大,但有希望在數年內解決。總而言之,對於全基因組的大小的估計顯示了92%的基因組已經獲得測定,餘下的高度重複的DNA序列不大可能含有基因,但在完成所有的定序之前,沒有什麼是確定無誤的。
該項目無法對所有人類細胞中發現的DNA進行定序。它只對基因組的真染色質區域進行定序,這些區域佔人類基因組的92.1%。其他的區域稱為異染色質,發現於著絲粒和端粒中,而該計畫並未對此定序[17]。人類基因組計劃(HGP)於2003年4月宣布完成。人類基因組的初步草圖於2000年6月問世,到2001年2月完成並發表了工作草案,隨後在2003年4月14日完成了人類基因組的最終定序。雖然有報導稱,該方法覆蓋了99%的全色人類基因組,準確率為99.99%,但2004年5月27日發表的一份對人類基因組序列的主要質量評估顯示,超過92%的樣本的準確率超過了99.99%,達到了預期目標[18]。關於HGP的進一步分析和論文不斷出現[19]。2009年3月,基因組參考聯盟(GRC)發布了一個更精確的人類基因組版本,但仍有300多個漏洞。截至2019年6月,GRC仍指出89個「未解決」的漏洞,其中大多數被標註為「暫停」或「正在調查/審查中」[20]。
重大事件與進展
- 2000年6月26日,美國總統柯林頓與英國首相布萊爾共同宣布人類基因組計劃工作草圖完成;[21]次年2月,工作草圖的具體序列資訊、定序所採用的方法以及序列的分析結果被國際人類基因組定序聯盟和塞雷拉基因組的科學家分別公開發表於《自然》與《科學》雜誌。[13][14]這一工作草圖覆蓋了基因組序列的83%,包括常染色質區域的90%(帶有150,000個空缺,且許多片斷的順序和方位並沒有得到確定)。
- 1999年至2006年,完成了全部24條染色體的定序工作,具體如下:
- 1999年12月,22號染色體定序完成;[22]
- 2000年5月,21號染色體定序完成;[23]
- 2001年12月,20號染色體定序完成;[24]
- 2003年2月,14號染色體定序完成;[25]
- 2003年6月,男性特有的Y染色體定序完成;[26]
- 2003年5月和7月,7號染色體定序完成;[27][28]
- 2003年10月,6號染色體定序完成;[29]
- 2004年4月,13號和19號染色體定序完成;[30][31]
- 2004年5月,9號和10號染色體定序完成;[32][33]
- 2004年9月,5號染色體定序完成;[34]
- 2004年12月,16號染色體定序完成;[35]
- 2005年3月,X染色體定序完成;[36]
- 2005年4月,2號和4號染色體定序完成;[37]
- 2005年9月,18號染色體定序完成;[38]
- 2006年1月,8號染色體定序完成;[39]
- 2006年3月,11號,12號和15號染色體定序完成;[40][41][42]
- 2006年4月,17號和3號染色體定序完成;Human Genome Project Information[1] (頁面存檔備份,存於網際網路檔案館)
- 2006年5月,1號染色體定序完成;Human Genome Project Information[2] (頁面存檔備份,存於網際網路檔案館)
- 2004年,國際人類基因組定序聯盟的研究者宣布,人類基因組中所含基因的預計數目從先前的30,000至40,000(在計劃初期的預計數目則高達2,000,000)調整為20,000至25,000。預期還需要多年的時間來確定人類基因組中所含基因的精確數目。
意義
破譯人類遺傳資訊,將對生物學,醫學,乃至整個生命科學產生無法估量的深遠影響。目前基因組資訊的注釋工作仍然處於初級階段。隨著將來對基因組的理解更加深入,新的知識會使醫學和生物技術領域發展更為迅速。基於DNA載有的資訊在細胞生命活動中的指導作用,在分子生物學水平上深入了解疾病的產生過程將大力推動新的療法和新藥的開發研究。對於癌症、老年痴呆症等疾病的病因研究也將會受益於基因組遺傳資訊的破解。事實上,在人類基因組計劃完成之前,它的潛在使用價值就已經表現出來。大量的企業,例如巨數遺傳公司開始提供價格合宜,而且容易使用的基因檢測,其聲稱可以預測包括乳腺癌、凝血、纖維性囊腫、肝臟疾病在內的很多種疾病。[43]。
此外,人類基因組計劃將促成醫學界的「個人化製藥」的發展。對病人的整個基因序列的了解有助於醫療人員相應地提供最適合有效的幫助。的確,發展DNA科技將使得複製病人的基因組成本降低,相應的檢查費用也會大大減少。
人類基因組計劃對許多生物學研究領域有切實的幫助。例如,當科研人員研究一種癌症時,通過人類基因組計劃所提供的資訊,可能會找到某個,或些相關基因。如果在網際網路上訪問由人類基因組資訊而建立的各種資料庫,可以查詢到其他科學家相關的文章,包括基因的DNA,cDNA鹼基順序,蛋白質立體結構、功能,多態性,以及和人類其他基因之間的關係。也可找到和小鼠、酵母、果蠅等對應基因的進化關係,可能存在的突變及相關的信號傳導機制。人類基因組計劃對與腫瘤相關的癌基因,腫瘤抑制基因的研究工作,起到了重要的推動作用。
分析不同物種的DNA序列的相似性會給生物進化和演變的研究提供更廣闊的路徑。事實上,人類基因組計劃提供的資料揭示了許多重要的生物進化史上的里程碑事件。如核糖體的出現,器官的產生,胚胎的發育,脊柱和免疫系統等都和DNA載有的遺傳資訊有密切關係。
人類遺傳資訊也為考古學,犯罪學以及社會執法提供了極大的幫助。例如,分子人類學家通過母系遺傳的粒線體DNA以及父系遺傳的染色體Y確定了非洲確實是人類起源的搖籃。DNA證明了早在6萬年前人類始祖便從非洲大陸遷徙到其他大洲的事實;大陸之間數列的異同也使得分子系統學家了解家族及個人的家譜關係。此外,通過收錄已知犯人的DNA序列,有關政府加速了判別及震懾罪犯的措施。此執法方式被證明十分有成效但也常因迅速誤判無辜嫌疑人而飽受爭議。
延伸計劃
問題與爭議
後基因組時代
- 功能基因組學
- 疾病基因組學
- 藥物基因組學
- 進化基因組學
參見
參考文獻
外部連結
Wikiwand - on
Seamless Wikipedia browsing. On steroids.