Loading AI tools
תקן בינלאומי לקודי שפה מוויקיפדיה, האנציקלופדיה החופשית
תקן ISO 639-3:2007, "קודים לייצוג שמות של שפות – חלק 3: קוד אלפא-3 לכיסוי מקיף של שפות" (במקור: Codes for the representation of names of languages – Part 3: Alpha-3 code for comprehensive coverage of languages), הוא תקן בינלאומי לקודי שפה בסדרת ISO 639. תקן 3–639 מגדיר קודים בני שלוש אותיות לזיהוי שפות. התקן פורסם על ידי ארגון התקינה הבינלאומי (ISO) ב-1 בפברואר 2007.[1]
תקן ISO 639-3 מתווסף על הקודים בתקן "ISO 639-2 אלפא-3" במטרה לכסות את כל השפות הטבעיות המוכרות. הכיסוי המורחב הזה התבסס בעיקר על קודי השפה המשמשים במאגר אתנולוג (כרכים 10–14) שפורסם על ידי הארגון הבלשני הנוצרי SIL International, המשמש כיום כרשות הרישום לתקן ISO 639-3.[2] התקן מספק מִסְפּוּר מלא ככל האפשר של השפות, כולל שפות חיות וכאלה שנכחדו, שפות עתיקות ומתוכננות, שפות נפוצות ושפות מיעוט, שפות כתובות ושפות דבורות חסרות כתב.[1] עם זאת, התקן אינו כולל שפות משוחזרות כגון פרוטו-הודו-אירופית.[3]
הקודים בתקן 3–639 מיועדים לשימוש כקודי מטא-דאטה במגוון רחב של יישומים. הוא בשימוש נרחב במערכות מחשב ומידע, כמו האינטרנט, שדורשות תמיכה בשפות רבות. בארכיונים ובאחסוני מידע אחרים התקן משמש לקִטְלוּג מערכות, ומסייע לציין עבור כל משאב במערכת – באיזו שפה הוא או באיזו שפה הוא עוסק. הקודים משמשים לעיתים קרובות גם בכתיבת מחקרים בלשניים, למשל, כדי להבהיר שמות שפה רב-משמעיים או שאינם ייחודיים לשפה מסוימת.
ISO 639-3 כולל את כל השפות בתקן ISO 639-1 ואת כל השפות הפרטניות בתקן ISO 639-2. שני התקנים הראשונים בסדרה, 639-1 ו-2–639, התמקדו בשפות מרובות-הדוברים, המיוצגות רבות בספרות המחקר. מכיוון שתקן 2 כולל גם קבוצות שפות, וחלק 3 לא, הרי ש-ISO 639-3 אינו כולל בתוכו את כל ISO 639-2. במקרים שבהם תקן 2 מציע שני קודים לאותה שפה, האחד "B" ("ביבליוגרפי", השם הזר לשפה) והשני "T" ("טרמינולוגי", המונח הילידי לשפה), קוד 3–639 נוקט באופציית T הילידית (ראו דוגמאות בטבלה להלן).
שפה | 639-1 | 639-2 (B/T) | סוג 3–639 | קוד 3–639 |
---|---|---|---|---|
אנגלית | en | eng | שפה יחידה | eng |
גרמנית | de | ger/deu | שפה יחידה | deu |
ערבית | ar | ara | מאקרו-שפה | ara |
ערבית סטנדרטית | שפה יחידה | arb | ||
ערבית מצרית | שפה יחידה | arz | ||
שפות סיניות | zh | chi/zho[4][5] | מאקרו-שפה | zho |
מַנדרינית | שפה יחידה | cmn | ||
קנטונזית | שפה יחידה | yue | ||
מין דרומית | שפה יחידה | nan |
נכון ל-18.2.21, התקן מכיל 7,893 ערכים.[6] מלאי השפות מבוסס על מספר מקורות, כולל: השפות הפרטניות הכלולות בתקן 2–639, שפות מודרניות ממאגר אתנולוג, וריאנטים היסטוריים, שפות עתיקות ושפות מתוכננות מלינגוויסט ליסט,[7] וכן שפות שהציבור ביקש להוסיפן.
רשות הרישום מספקת את קובצי הנתונים הקריאים למכונה.[8] ניתן למפות את הנתונים מתקן 1–639 או 2–639 אל 3–639 באמצעות קבצים אלה.
639-3 מאפשר להניח כהנחת מוצא הבחנות, המבוססות על קריטריונים שאינם אובייקטיביים לחלוטין.[9] הוא לא נועד לתעד או לספק מזהים לניבים או לווריאנטים אחרים שלא הוגדרו כשפות.[10] למרות זאת, הבחנה בין שפות עשויה להיות סובייקטיבית, במיוחד במקרה של וריאנטים לשוניים ללא ביסוס של מסורת כתיבה, שימוש בשפה במערכת החינוך, בתקשורת או גורמים אחרים התורמים להפיכת השפה לשגורה. לכן אין לראות בתקן סמכות בשאלה, אילו שפות מובחנות קיימות בעולם (בנושא זה עשויה להיות מחלוקות מהותיות), אלא פשוט דרך שימושית אחת לקודד במדויק וריאנטים לשוניים.
מכיוון שהקוד בן שלוש אותיות, תאורטית המספר המקסימלי של שפות הניתנות לייצוג הוא 26 × 26 × 26 = 17,576. עם זאת, מאחר שתקן 2–639 מגדיר קודים מיוחדים (4 כאלה), טווח שמור (ל-520) וקודים שעבורם יש רק סוג B (קיימים 22), 546 קודים לא ניתנים לשימוש בתקן 3–639. על כן, המקסימום המחמיר הוא 17,576 – 546 = 17,030 שפות.
הגבול העליון מחמיר עוד יותר אם מפחיתים את מקבצי השפות שהוגדרו בתקן 2–639 ואת אלה שטרם הוגדרו בתקן הבא, ISO 639-5.
קיימות 58 שפות בתקן 2–639 הנחשבות, לצורך התקן, כ"מאקרו-שפות" בתקן 3–639.[11]
חלק מהמאקרו-שפות הללו לא כללו שפה פרטנית בהגדרה של תקן 3–639 במערך הקוד של 2–639, למשל "ara" (הקוד לערבית באופן כללי). אחרים פוצלו לשני קודים נפרדים כבר בתקן 2–639, דוגמת "nor" עבור נורווגית, שפוצל ל-"nno" עבור נורווגית חדשה ול-"nob" עבור נורווגית ספרותית.
המשמעות היא שכמה שפות (למשל 'arb', ערבית סטנדרטית) שנחשבו על פי ISO 639-2 לניבים של שפה אחת ('ארה') נמצאות כעת ב-ISO 639-3 בהקשרים מסוימים הנחשבים כשפות בודדות עצמן.
זה נעשה בניסיון להתמודד עם קידוד וריאנטים שעשויים להיות שונים זה מזה מבחינה לשונית, אך בעיני הדוברים שלהם הם שתי צורות של אותה שפה, למשל במקרים של דיגלוסיה.
לדוגמה, ערבית ספרותית/תקנית מתקיימת לצד ערבית מדוברת. תקן 2–639 מספק את קוד "ara" לערבית באופן כללי, ואילו תקן 3–639 מספק את קוד "arb" ספציפית לערבית תקנית.
לרשימה מלאה, ראו את מיפוי המאקרו-שפות באתר SIL.[12]
ארגון SIL מגדיר אלמנט קוד-שפה קולקטיבי כ"מזהה המייצג קבוצה של שפות פרטניות, שאינן נחשבות שפה אחת בהקשר שימוש כלשהו."[13] קודים קולקטיביים כאלה אינם מייצגים במדויק שפה מסוימת או אף מאקרו-שפה.
בעוד שתקן 2–639 כולל מזהי שפות קולקטיביים בני שלוש אותיות, קודים אלה אינם נכללים בתקן 3–639. מכאן שתקן 3–639 אינו כולל בתוכו את כל קודי 2–639.
תקן ISO 639-5 מגדיר קודים קולקטיביים בני שלוש אותיות למשפחות-שפה ולקבוצות-שפות קטנות יותר, כולל קודי השפה הקולקטיביים מתקן 2–639.
ארבעה קודים הושארו ללא שימוש בתקנים 2–639 ו-3–639, למקרים שבהם אף אחד מהקודים הספציפיים אינו מתאים. הקודים המיוחדים מיועדים בעיקר ליישומים כמו מסדי נתונים שבהם צריך לייצג קוד ISO שלא בהכרח קיים עדיין.
mis
(קיצור של miscellaneous "שוֹנוֹת") נועד לשפות שעדיין לא הוקצה להן קוד בתקן ISO.mul
(קיצור של multiple, "שפות מרובות") מיועד למקרים שבהם הנתונים כוללים יותר משפה אחת אך נדרש קוד יחיד, למשל במקרה שמסד הנתונים צריך נתון בודד.und
(קיצור של undetermined "לא הוכרע") מיועד למקרים שבהם השפה המופיעה בנתונים טרם זוהתה, למשל כשהיא מסומנת באופן שגוי, או שמעולם לא סומנה. הקוד אינו מיועד למקרים כמו לשון העיר טרויה שעדיין לא הוכרע לגביה מה הייתה ואם הייתה שפה יחידה.zxx
מייצג מצב של "אין הקשר לשוני" או של "זיהוי לשוני אינו רלוונטי", ונועד לנתונים שאינם שפה אנושית כלל, כגון קריאות בעלי חיים.[14]בנוסף, 520 קודים בטווח qaa
–qtz
"שמורים לשימוש מקומי". לדוגמה, המתכנתת רבקה בטנקורט מנהלת הקצאת קודים לשפות מתכוננות בטווח זה.[15] לינגוויסט ליסט משתמש בהם לשפות שנכחדו, לדוגמה הם הקצו לאחת מהן ערך גנרי, qnp
, פרוטו-שפה תאורטית כלשהי חסרת שם, בכדי שיוכלו לשבץ אותה בתוך עץ משפחה מוּצע תאורטי, עד שיוכרע מעמדה.
טבלת הקודים עבור ISO 639-3 פתוחה לשינויים. כדי להגן על יציבות השימוש הקיים, השינויים המותרים מוגבלים לפעולות האלה:[16]
הקוד המוקצה לשפה אינו משתנה, אלא אם כן ישנו שינוי בזיהוי השפה או בשמה.[17]
השינויים נעשים במועד שנתי קבוע מראש, וכל בקשה פתוחה לפחות שלושה חודשים להערות הציבור טרם קבלתה.
באתר של ISO 639-3 יש תיאורים של "תחומי הגדרה"[18] עבור ישויות לשוניות (לנגואיד) וסוגי שפות,[19] המסבירים אילו מושגים נמצאים בתחום המקודד ובאילו קריטריונים צריך לעמוד. לדוגמה, ניתן לקודד שפות מתוכננות, אך רק אם הן מיועדות לתקשורת אנושית ובעלות גוף ספרותי, ובכך נמנעות בקשות להקצאת קודים עבור המצאות אידיוסינקרטיות.
הבלשנים מורי, פוסט ופרידמן העלו ביקורות שונות על תקן ISO 639 בכלל, ובפרט על 639-3:[17]
jnj"
, שנגזר משם הממלכה בפי עמים אתיופים אחרים (שם חיצוני, אקסונים), שנעשה בו שימוש פוגעני, ולא על פי השם העצמי (אנדונים) של דוברי השפה עצמם, "יֵם" או "יֵמְסָה". (עם זאת, ניתן לשנות קודים באמצעות הגשת בקשה באתר SIL).מרטין הספלמאת הסכים עם ארבע מנקודות אלה, אך לא עם הנקודה בנושא השתנותה של שפה.[20] הוא חולק על כך, כי לטענתו כל מחקר תיאורי של שפה דורש זיהוי ומיון שלה, ושלבים שונים של שפה ניתנים לזיהוי בקלות. הוא מציע שבלשנים ישתמשו בקידוד כבר בשלב זיהוי הישות הלשונית, בטרם הבנת מעמדן (לנגואיד), שכן "רק לעיתים רחוקות זה משנה לבלשנים אם מה שהם מדברים עליו הוא שפה, ניב או משפחת שפות קרובות זו לזו". הוא גם מעלה את השאלה, האם תקן ISO מתאים לזיהוי שפות, שכן זהו ארגון תעשייתי, בעוד שהספלמאת רואה בתיעוד ובמינוח של השפה עבודה מדעית. הספלמאת מציין את הצורך המקורי במזהי שפה מתוקננים (שעברו סטנדרטיזציה) שכן הן בעלות "משמעות כלכלית לתרגום וללוקליזציה של תוכנות", אשר לשמם נוצרו תקני 1–639 ו-2–639. עם זאת, הוא מעלה ספקות לגבי השאלה, האם התעשייה זקוקה לכיסוי המקיף שמספק תקן 3–639, גם כיוון שהוא מטפל ב"שפות אשר בקושי מוכרות, של קהילות קטנות, שלעולם או כמעט אף פעם אינן נכתבות ולעיתים קרובות נמצאות בסכנת הכחדה".
{{cite journal}}
: (עזרה){{cite journal}}
: (עזרה){{cite journal}}
: (עזרה)Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.