Loading AI tools
מוויקיפדיה, האנציקלופדיה החופשית
GPT (ראשי תיבות: Generative pre-trained transformers; בעברית: טרנספורמר מאומן מראש בעל יכולת יצירה) הוא סוג של מודל שפה גדול (LLM)[1] ואחד מכלי הבינה המלאכותית היוצרת (Generative AI) הבולטים.
ה-GPT הראשון הוצג בשנת 2018 על ידי חברת הבינה המלאכותית האמריקאית OpenAI.[2] המודלים של GPT הם רשתות עצביות מלאכותיות המבוססות על ארכיטקטורת הטרנספורמרים, מאומנות מראש על קבוצות נתונים גדולות של טקסט לא מתוייג, ומסוגלות ליצור תוכן טקסטואלי בדומה לתוכן המיוצר על ידי אדם.[3] נכון לשנת 2023, לרוב ה-LLMs יש את המאפיינים הללו[4] ולעיתים הם מכונים באופן נרחב כ-GPTs.[5]
OpenAI פרסמה מודלים של GPT שמוספרו ברצף, כדי להרכיב את סדרת ה-"GPT-n" שלה.[6] כל גרסה הייתה בעלת יכולות גבוהות מקודמתה, בשל גודל (מספר פרמטרים שניתנים לאימון) והאימונים המשופרים. האחרון שבהם, GPT-4, שוחרר במרץ 2023. מודלים אלו מהווים בסיס למערכות מתקדמות המשתמשות בשירותיהם למשימות ספציפיות, כולל שירות הצ'אטבוט ChatGPT.[7]
המונח "GPT" משמש גם בשמות ובתיאורים של מודלים כאלה שפותחו על ידי חברות אחרות. לדוגמה, מודלים אחרים של בסיס GPT כוללים סדרה של דגמים שנוצרו על ידי EleutherAI,[8] ולאחרונה שבעה דגמים שנוצרו על ידי Cerebras. כמו כן, חברות בתעשיות שונות פיתחו מערכות GPT ספציפיות למשימה בתחומיהן, כגון "EinsteinGPT" של Salesforce (עבור CRM)[9] ו-"BloombergGPT" של בלומברג (לפיננסים).[10]
אימון מראש לטובת יצירה (GP) היה מושג ותיק ביישומי למידת מכונה,[11][12] אך ארכיטקטורת הטרנספורמרים לא הייתה זמינה עד 2017, אז הומצאה על ידי עובדים בגוגל.[13] התפתחות זו הובילה להופעתם של מודלים גדולים של שפה כמו BERT ב-2018[14] ו-XLNet ב-2019,[15]
בשנת 2018, פרסמה OpenAI את המאמר שלה שכותרתו "שיפור הבנת השפה באמצעות אימון קדם גנרי", שבו הציגה את מערכת ה־GPT הראשונה.[16]
לפני ארכיטקטורות מבוססות טרנספורמרים, מודלים של NLP עצביים (עיבוד שפה טבעית) בעלי הביצועים הטובים ביותר השתמשו בדרך כלל בלמידה מפוקחת מכמויות גדולות של נתונים מסומנים ידנית. ההסתמכות על למידה מפוקחת הגבילה את השימוש שלהם במערכי נתונים שלא היו מבוארים היטב, וגם הפכה את ההכשרה של מודלים של שפות גדולים במיוחד ליקר וגוזל זמן רב.[16]
הגישה המפוקחת למחצה שבה השתמשה OpenAI כדי ליצור מערכת מחוללת בקנה מידה גדול – שהייתה הראשונה לעשות עם מודל GPT – כללה שני שלבים: שלב " אימון מקדים" מחולל ללא פיקוח לקביעת פרמטרים ראשוניים תוך שימוש במטרת מודלים של שפה, ופיקוח בשלב "כוונון עדין" להתאמת פרמטרים אלו למשימת יעד.[16]
מודל בסיסי הוא מודל בינה מלאכותית שהוכשר על נתונים רחבים בקנה מידה כך שניתן להתאים אותו למגוון רחב של משימות.[17]
עד כה, דגמי הבסיס הבולטים ביותר של GPT היו מסדרת GPT-n של OpenAI. העדכני ביותר מזה הוא GPT-4, שעבורו OpenAI סירבה לפרסם את פרטי הגודל או ההכשרה.[18]
דֶגֶם | ארכיטקטורה | ספירת פרמטרים | נתוני אימון | תאריך הוצאה | עלות הדרכה |
---|---|---|---|---|---|
GPT-1 | מפענח טרנספורמר בעל 12 רמות, 12 ראשים (ללא מקודד), ואחריו ליניארי-softmax. | 117 מיליון | BookCorpus : 4.5 ג'יגה-בייט של טקסט, מתוך 7000 ספרים שלא פורסמו מז'אנרים שונים. | 11 ביוני 2018 | |
GPT-2 | GPT-1, אבל עם נורמליזציה שונה | 1.5 מיליארד | WebText: 40 ג'יגה-בייט של טקסט, 8 מיליון מסמכים, מ-45 מיליון דפי אינטרנט שהצביעו בעדיט ב-Reddit. | 14 בפברואר 2019 | |
GPT-3 | GPT-2, אך עם שינוי כדי לאפשר קנה מידה גדול יותר | 175 מיליארד | 499 מיליארד אסימונים המורכבים מ-CommonCrawl (570 ג'יגה-בייט), WebText, ויקיפדיה באנגלית ושני ספרי קורפוס (Books1 ו-Books2). | 28 במאי 2020 | |
GPT-3.5 | לא נמסר | 175 מיליארד | לא נמסר | 15 במרץ 2022 | לא נמסר |
GPT-4 | מאומן גם עם חיזוי טקסט וגם עם RLHF ; מקבל גם טקסט וגם תמונות כקלט. פרטים נוספים אינם פומביים. | לא נמסר | לא נמסר | 14 במרץ 2023 |
מודלים נוספים מסוג זה כוללים את ה-PaLM של גוגל, מודל שהושווה ל-GPT-3 וזמין למפתחים באמצעות ממשק API,[19][20] ו-GPT-JT של Together, אשר דווח כ- חלופת הקוד הפתוח בעלת הביצועים הקרובים ביותר ל-GPT-3 (ונגזרת מ-GPTs קודם לכן בקוד פתוח).[21] ל- Meta AI (לשעבר פייסבוק) יש גם מודל שפה יסודי גדול המבוסס על טרנספורמרים, המכונה LLaMA.[22]
ה-GPT הבסיסיים יכולים גם להשתמש בשיטות אחרות מלבד טקסט, לקלט או פלט. GPT-4 הוא LLM רב-מודלי המסוגל לעבד קלט טקסט ותמונה (אם כי הפלט שלו מוגבל לטקסט).[23] לגבי פלט רב-מודאלי, חלק מהמודלים המבוססים על טרנספורמרים מחוללים המשמשים לטכנולוגיות טקסט לתמונה כגון דיפוזיה[24] ופענוח מקביל.[25] סוגים כאלה של מודלים יכולים לשמש כמודלי יסוד חזותיים (VFMs) לפיתוח מערכות שיכולות לעבוד עם תמונות.
ניתן להתאים את מודלי GPT כדי לייצר מערכות ממוקדות יותר המכוונות למשימות או תחומי נושא ספציפיים. שיטות להתאמה כזו יכולות לכלול כוונון עדין נוסף (מעבר לזה שנעשה עבור מודל הבסיס) וכן צורות מסוימות של הנדסה מהירה.[26]
דוגמה חשובה לכך היא כוונון עדין של מודלים כך שיפעלו בהתאם להוראות, שזו משימה רחבה למדי אך ממוקדת יותר ממודל יסוד. בינואר 2022, OpenAI הציגה את "InstructGPT" – סדרה של מודלים שהותאמו לעקוב אחר הוראות תוך שימוש בשילוב של אימון בפיקוח ולימוד חיזוק ממשוב אנושי (RLHF) על מודלים בסיסיים של שפות GPT-3. היתרונות שהיו לזה על המודלים הבסיסיים החשופים כללו דיוק גבוה יותר, פחות סנטימנט שלילי, ובאופן כללי התאמה טובה יותר לצורכי המשתמש. לפיכך, OpenAI החלה להשתמש בזה כבסיס לשירותי ה-API שלה.[27] דגמים אחרים המותאמים להוראות שוחררו על ידי אחרים, כולל גרסה פתוחה לחלוטין.[28][29]
סוג אחר של מודלים ספציפיים למשימה הם צ'אטבוטים, העוסקים בשיחה דמוית אדם. בנובמבר 2022, OpenAI השיקה את ChatGPT – ממשק צ'אט מקוון המופעל על ידי מודל שפה מכוון להוראות שהוכשר בצורה דומה ל-InstructGPT. הם אימנו את המודל הזה באמצעות RLHF, כאשר מאמני AI אנושיים סיפקו שיחות שבהן הם שיחקו הן את המשתמש והן את ה-AI, וערבבו את מערך הדיאלוג החדש הזה עם מערך הנתונים של InstructGPT לפורמט שיחה המתאים לצ'אטבוט. צ'אטבוטים מרכזיים אחרים כוללים כיום את Bing Chat של מיקרוסופט, המשתמש ב-GPT-4 של OpenAI (כחלק משיתוף פעולה הדוק רחב יותר בין OpenAI ו-Microsoft),[30] ואת הצ'אט-בוט המתחרה של גוגל בארד (בהתחלה מבוסס על משפחת השיחות שלהם LaMDA -מודלים של שפה מאומנים, עם תוכניות לעבור ל-PaLM).[31]
עוד סוג נוסף של משימה ש-GPT יכול לשמש עבורה הוא מטא-משימה של יצירת הוראות "משלו", כמו פיתוח סדרה של הנחיות ל'עצמה' כדי להיות מסוגל להגשים מטרה כללית יותר שניתן על ידי משתמש אנושי.[32] זה ידוע כסוכן AI, וליתר דיוק רקורסיבי מכיוון שהוא משתמש בתוצאות מההנחיות העצמיות הקודמות שלו כדי לעזור לו ליצור את ההנחיות הבאות שלו; הדוגמה הגדולה הראשונה לכך הייתה Auto-GPT (המשתמשת בדגמי ה-GPT של OpenAI), ומאז פותחו גם אחרים.[33]
מערכות מבוססות טרנספורמרים גנרטיביים יכולות להיות ממוקדות גם למשימות הכוללות אופנים מעבר לטקסט.
לדוגמה, "Visual ChatGPT" של מיקרוסופט משלב ChatGPT עם מודלים של בסיס חזותי (VFMs) כדי לאפשר קלט או פלט הכוללים תמונות וגם טקסט.[34] כמו כן, ההתקדמות בטכנולוגיית "טקסט לדיבור" מציעה כלים רבי עוצמה ליצירת תוכן אודיו בשימוש בשילוב עם מודלים בסיסיים של שפות GPT.[35]
מערכות GPT יכולות להיות מכוונות לתחומים או תחומים מסוימים. כמה דוגמאות מדווחות של דגמים ואפליקציות כאלה הן כדלקמן:
לפעמים ספציפיות לתחום מושגת באמצעות תוספים או תוספות תוכנה. לדוגמה, מספר חברות שונות פיתחו תוספים מסוימים המקיימים אינטראקציה ישירה עם ממשק ChatGPT של OpenAI,[42][43] ול- Google Workspace יש תוספות זמינות כגון "GPT for Sheets and Docs" – אשר מדווחים כמסייעים לשימוש בגיליון אלקטרוני. פונקציונליות ב-Google Sheets.[44][45]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.