Loading AI tools
מוויקיפדיה, האנציקלופדיה החופשית
GenBank (בעברית: בנק הגנים) הוא מסד הנתונים עבור רצפים האוסף בגישה פתוחה של כל רצפי הנוקלאוטידים הזמינים לציבור והחלבונים המתורגמים מהם. GenBank הוקם ומתוחזק על ידי המרכז הלאומי למידע ביוטכנולוגי (NCBI; חלק המכונים הלאומיים לבריאות בארצות הברית) כחלק משיתוף הפעולה הבין-לאומי ביצירת מסדי נתונים עבור רצפים (INSDC).
GenBank ושותפיו מקבלים ממעבדות ברחבי העולם רצפים של יותר מ-100,000 אורגניזמים שונים. מסד הנתונים החל לפעול בשנת 1982 על ידי וולטר גוד והמעבדה הלאומית לוס אלמוס. GenBank הפך למסד נתונים חשוב למחקר בתחומים ביולוגיים וצמח בשנים האחרונות בקצב אקספוננציאלי על ידי הכפלה בערך כל 18 חודשים[1][2].
מהדורה 247.0, שיצאה בדצמבר 2021, הכילה למעלה מ-15 טריליון בסיסי נוקלאוטידים ביותר מ-2 מיליארד רצפים[3]. GenBank נבנה על ידי הגשות ישירות ממעבדות בודדות, כמו גם מהגשות בכמות גדולה ממרכזי ריצוף DNA בקנה מידה גדול.
ניתן להגיש ל-GenBank רק רצפים מקוריים. הגשות ישירות מתבצעות ל-GenBank באמצעות BankIt שהוא טופס אינטרנטי, או תוכנת ההגשה העומדת בפני עצמה – Sequin. עם קבלת רצף חדש, צוות GenBank בוחן את מקוריות הנתונים, מקצה מספר גישה לרצף ומבצע בדיקות הבטחת איכות. לאחר מכן, ההגשות משוחררות למסד הנתונים הציבורי, כאשר הערכים ניתנים לאחזור על ידי Entrez או להורדה באמצעות FTP. הגשות בכמות גדולה של נתוני תג רצף מפורש (EST), אתר מתויג ברצף (STS), רצף סקר גנום (GSS) וריצוף גנום בתפוקה גבוהה – (HTGS) מוגשות לרוב על ידי מרכזי ריצוף בקנה מידה גדול. קבוצת ההגשות הישירות של GenBank מעבדת גם רצפי גנום מיקרוביאליים מלאים.
וולטר גוד מקבוצת הביולוגיה והביופיזיקה התאורטית המעבדה הלאומית לוס אלמוס (LANL) ושותפים הקימו את מסד הנתונים של רצפי לוס אלמוס ב-1979, שהגיע לשיאו ב-1982 עם הקמת ה-GenBank הציבורי[4]. המימון ניתן על ידי המכונים הלאומיים לבריאות, הקרן הלאומית למדע, משרד האנרגיה ומשרד ההגנה. LANL שיתפה פעולה ב-GenBank עם חברות נוספות ועד סוף 1983 אוחסנו בה יותר מ-2,000 רצפים.
באמצע שנות ה-80, חברת הביואינפורמטיקה Intelligenetics באוניברסיטת סטנפורד ניהלה את פרויקט GenBank בשיתוף עם LANL[5]. כאחד מפרויקטי הביואינפורמטיקה המוקדמים ביותר באינטרנט, פרויקט GenBank הקים את קבוצות החדשות BIOSCI/Bionet לקידום תקשורת בגישה פתוחה בין מדענים ביולוגיים. במהלך 1989 עד 1992 פרויקט GenBank עבר אל המרכז הלאומי למידע ביוטכנולוגי[6].
הערת השחרור של GenBank לגרסה 162.0 (אוקטובר 2007) קובעים כי "משנת 1982 ועד היום, מספר הבסיסים ב-GenBank הוכפל בערך כל 18 חודשים"[7][8]. על פי נתוני 15 ביוני 2019, גרסה 232.0 של GenBank מכילה 213,383,758 לוקוסים, 329,835,282,370 בסיסים, מתוך 213,383,758 רצפים מדווחים[7].
מסד הנתונים של GenBank כולל מערכי נתונים נוספים שנבנים באופן מכני מאוסף הנתונים ברצף הראשי, ולכן אינם נכללים בספירה זו.
זוגות בסיסים | אורגניזם |
---|---|
172,374,634,626 |
Triticum aestivum |
97,059,428,399 |
Hordeum vulgare subsp. vulgare |
80,497,317,866 |
Severe acute respiratory syndrome coronavirus 2 |
27,714,770,678 |
Homo sapiens |
13,502,686,559 |
Escherichia coli |
10,890,050,390 |
Danio rerio |
10,650,539,694 |
Bos taurus |
10,459,557,283 |
Mus musculus |
9,981,497,962 |
Triticum turgidum subsp. durum |
7,411,312,909 |
Zea mays |
7,083,888,984 |
Klebsiella pneumoniae |
6,749,236,152 |
Secale cereale |
6,547,403,015 |
Rattus norvegicus |
5,775,151,674 |
Canis lupus familiaris |
5,178,626,132 |
Rhinatrema bivittatum |
5,083,049,438 |
Sus scrofa |
4,991,603,121 |
Bufo bufo |
4,548,077,046 |
Microcaecilia unicolor |
4,348,333,235 |
Hordeum vulgare subsp. spontaneum |
4,262,019,239 |
Macrobrachium nipponense |
במאגרי מידע ציבוריים שניתן לחפש על ידי "National Center for Biotechnology Information Basic Local Alignment Search Tool (NCBI BLAST)", חסרים רצפים שעברו ביקורת עמיתים לרצפי type strains ורצפי non-type strains. מנגד, בעוד שמסדי נתונים מסחריים עשויים להכיל נתוני רצף מסוננים באיכות גבוהה, יש מספר מוגבל של רצפי רפרנס.
מאמר שפורסם ב-Journal of Clinical Microbiology[9] העריך את תוצאות רצף הגנים של 16S rRNA שנותחו עם GenBank בשילוב עם מאגרי מידע ציבוריים אחרים זמינים בחינם, בעלי ביקורת איכות ומבוססי אינטרנט, כגון EzTaxon-e[10] ו-BIBI[11] התוצאות הראו כי ניתוחים שבוצעו באמצעות GenBank בשילוב עם EzTaxon-e (kappa = 0.79) היו מובחנים יותר מאשר שימוש ב-GenBank (kappa = 0.66) או מאגרי מידע אחרים בלבד.
GenBank, בהיותו מסד נתונים ציבורי, עשוי להכיל רצפים שיוחסו בצורה מוטעית למין מסוים מכיוון שהזיהוי הראשוני של האורגניזם היה שגוי. מאמר שפורסם ביולי 2020 בכתב העת "Genome" הראה כי 75% מהרצפים של הציטוכרום C אוקסידאז תת-מקטע 1 המיטוכונדריאלי, בטעות יוחסו לדג Nemipterus mesoprion. טעות זאת נבעה משימוש מתמשך ברצפים פרטניים שמלכתחילה זוהו לא נכון[12]. המחברים מספקים המלצות כיצד להימנע מהפצה נוספת של רצפים פומביים עם שמות מדעיים שגויים.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.