यूनिकोड प्रत्येक अक्षर के लिए एक विशेष संख्या प्रदान करता है, चाहे कोई भी कम्प्यूटर प्लेटफॉर्म, प्रोग्राम अथवा कोई भी भाषा हो। यूनिकोड स्टैंडर्ड को एपल, एच.पी., आई.बी.एम., जस्ट सिस्टम, माइक्रोसॉफ्ट, ऑरेकल, सैप, सन, साईबेस, यूनिसिस जैसी उद्योग की प्रमुख कम्पनियों और कई अन्य ने अपनाया है। यूनिकोड की आवश्यकता आधुनिक मानदंडों, जैसे एक्स.एम.एल, जावा, एकमा स्क्रिप्ट (जावास्क्रिप्ट), एल.डी.ए.पी., कोर्बा ३.०, डब्ल्यू.एम.एल के लिए होती है और यह आई.एस.ओ/आई.ई.सी. १०६४६ को लागू करने का अधिकारिक तरीका है। यह कई संचालन प्रणालियों, सभी आधुनिक ब्राउजरों और कई अन्य उत्पादों में होता है। यूनिकोड स्टैंडर्ड की उत्पति और इसके सहायक उपकरणों की उपलब्धता, हाल ही के अति महत्वपूर्ण विश्वव्यापी सॉफ्टवेयर प्रौद्योगिकी रुझानों में से हैं।
यूनिकोड को ग्राहक-सर्वर अथवा बहु-आयामी उपकरणों और वेबसाइटों में शामिल करने से, परंपरागत उपकरणों के प्रयोग की अपेक्षा खर्च में अत्यधिक बचत होती है। यूनिकोड से एक ऐसा अकेला सॉफ्टवेयर उत्पाद अथवा अकेला वेबसाइट मिल जाता है, जिसे री-इंजीनियरिंग के बिना विभिन्न प्लेटफॉर्मों, भाषाओं और देशों में उपयोग किया जा सकता है। इससे आँकड़ों को बिना किसी बाधा के विभिन्न प्रणालियों से होकर ले जाया जा सकता है।
यूनिकोड प्रत्येक अक्षर के लिए एक विशेष नम्बर प्रदान करता है,
चाहे कोई भी प्लैटफ़ॉर्म हो,
चाहे कोई भी प्रोग्राम हो,
चाहे कोई भी भाषा हो।
कम्प्यूटर, मूल रूप से, नम्बरों से सम्बन्ध रखते हैं। ये प्रत्येक अक्षर और वर्ण के लिए एक नम्बर निर्धारित करके अक्षर और वर्ण संग्रहित करते हैं। यूनिकोड का आविष्कार होने से पहले, ऐसे नम्बर देने के लिये सैंकड़ों विभिन्न संकेत लिपि प्रणालियाँ थीं। किसी एक संकेत लिपि में पर्याप्त अक्षर नहीं हो सकते हैं: उदाहरण के लिए, यूरोपीय संघ को अकेले ही, अपनी सभी भाषाओं को कवर करने के लिये अनेक विभिन्न संकेत लिपियों की आवश्यकता होती है। अंग्रेजी जैसी भाषा के लिये भी, सभी अक्षरों, विरामचिह्नों और सामान्य प्रयोग के तकनीकी प्रतीकों हेतु एक ही संकेत लिपि पर्याप्त नहीं थी।
ये संकेत लिपि प्रणालियाँ परस्पर विरोधी भी हैं। इसीलिए, दो संकेत लिपियाँ दो विभिन्न अक्षरों के लिए, एक ही नम्बर प्रयोग कर सकती हैं, अथवा समान अक्षर के लिए विभिन्न नम्बरों का प्रयोग कर सकती हैं। किसी भी कम्प्यूटर (विशेष रूप से सर्वर) को विभिन्न संकेत लिपियाँ संभालनी पड़ती है; फिर भी जब दो विभिन्न संकेत लिपियों अथवा प्लेटफ़ॉर्मों के बीच डाटा भेजा जाता है तो उस डाटा के हमेशा खराब होने का जोखिम रहता है।
यूनिकोड से यह सब कुछ बदल रहा है!
(1) यह विश्व की सभी लिपियों से सभी संकेतों के लिए एक अलग कोड बिन्दु प्रदान करता है।
(2) यह वर्णों (कैरेक्टर्स) को एक कोड देता है, न कि ग्लिफ (glyph) को।
(3) जहाँ भी सम्भव यूनिकोड होता है, यह भाषाओं का एकीकरण करने का प्रयत्न करता है। इसी नीति के अन्तर्गत सभी पश्चिम यूरोपीय भाषाओं को लैटिन के अन्तर्गत समाहित किया गया है; सभी स्लाविक भाषाओं को सिरिलिक (Cyrilic) के अन्तर्गत रखा गया है; हिन्दी, संस्कृत, मराठी, नेपाली, सिन्धी, कश्मीरी आदि के लिये 'देवनागरी' नाम से एक ही खण्ड दिया गया है; चीनी, जापानी, कोरियाई, वियतनामी भाषाओं को 'युनिहान्' (UniHan) नाम से एक खण्ड में रखा गया है; अरबी, फारसी, उर्दू आदि को एक ही खण्ड में रखा गया है।
(4) बायें से दायें लिखी जाने वाली लिपियों के अतिरिक्त दायें-से-बायें लिखी जाने वाली लिपियों (अरबी, हिब्रू आदि) को भी इसमें शामिल किया गया है। ऊपर से नीचे की तरफ लिखी जाने वाली लिपियों का अभी अध्ययन किया जा रहा है।
(5) यह ध्यान रखना आवश्यक है कि यूनिकोड केवल एक कोड-सारणी है। इन लिपियों को लिखने/पढ़ने के लिए इनपुट मैथड एडिटर और फॉण्ट-फाइलें आवश्यक हैं।
एक ही दस्तावेज में अनेकों भाषाओं के अक्षर लिखे जा सकते हैं।
अक्षरों को केवल एक निश्चित तरीके से संस्कारित करने की आवश्यकता पड़ती है। जिससे विकास-व्यय एवं अन्य व्यय कम लगते हैं।
किसी सॉफ़्टवेयर-उत्पाद का एक ही संस्करण पूरे विश्व में चलाया जा सकता है। क्षेत्रीय बाजारों के लिए अलग से संस्करण निकालने की आवश्यकता नहीं पड़ती है।
किसी भी भाषा का अक्षर पूरे जगत में बिना किसी रुकावट के चल जाता है। पहले इस तरह की बहुत समस्याएँ आती थीं।
हानियाँ
यूनिकोड, आस्की तथा अन्य कैरेकटर कोडों की अपेक्षा अधिक स्मृति (मेमोरी) लेता है। कितनी अधिक स्मृति लगेगी यह इस बात पर निर्भर करता है कि आप कौन सा यूनिकोड प्रयोग कर रहे हैं। UTF7, UTF8, UTF16 या वास्तविक यूनिकोड - एक अक्षर अलग-अलग बाइट प्रयोग करते हैं।
देवनागरी यूनिकोड की परास (रेंज) 0900 से 097F तक है।[1] (दोनो संख्याएँ षोडषाधारी हैं)
क्ष, त्र एवं ज्ञ के लिये अलग से कोड नहीं है। इन्हें संयुक्त वर्ण मानकर अन्य संयुक्त वर्णों की भाँति इनका अलग से कोड नहीं दिया गया है।
इस परास (रेंज) में बहुत से ऐसे वर्णों के लिये भी कोड दिये गये हैं जो सामान्यतः हिन्दी में व्यवहृत नहीं होते। किन्तु मराठी, सिन्धी, मलयालम आदि को देवनागरी में सम्यक ढँग से लिखने के लिये आवश्यक हैं।
नुक्ता वाले वर्णों (जैसे ज़) के लिये यूनिकोड निर्धारित किया गया है। इसके अलावा नुक्ता के लिये भी अलग से एक यूनिकोड दे दिया गया है। अतः नुक्तायुक्त अक्षर यूनिकोड की दृष्टि से दो प्रकार से लिखे जा सकते हैं - एक बाइट यूनिकोड के रूप में या दो बाइट यूनिकोड के रूप में। उदाहरण के लिये ज़ को ' ज ' के बाद नुक्ता (़) टाइप करके भी लिखा जा सकता है।
यूनिकोड कन्सॉर्शियम, एक लाभ न कमाने वाला एक संगठन है। जिसकी स्थापना यूनिकोड स्टैंडर्ड, जो आधुनिक सॉफ़्टवेयर उत्पादों और मानकों में पाठ की प्रस्तुति को निर्दिष्ट करता है, के विकास, विस्तार और इसके प्रयोग को बढ़ावा देने के लिये की गयी थी। इस कन्सॉर्शियम के सदस्यों में, कम्प्यूटर और सूचना उद्योग में विभिन्न निगम और संगठन शामिल हैं। इस कन्सॉर्शियम का वित्तपोषण पूर्णतः सदस्यों के शुल्क से किया जाता है। यूनिकोड कन्सॉर्शियम में सदस्यता, विश्व में कहीं भी स्थित उन संगठनों और व्यक्तियों के लिये खुली है जो यूनिकोड का समर्थन करते हैं और जो इसके विस्तार और कार्यान्वयन में सहायता करना चाहते हैं।
यूनिकोड का मतलब है सभी लिपिचिह्नों की आवश्यकता की पूर्ति करने में सक्षम 'एकसमान मानकीकृत कोड'।
पहले सोचा गया था कि केवल 16 बिट के माध्यम से ही दुनिया के सभी लिपिचिह्नों के लिये अलग-अलग कोड प्रदान किये जा सकेंगे। बाद में पता चला कि यह कम है। फिर इसे 32 बिट कर दिया गया। अर्थात इस समय दुनिया का कोई संकेत नहीं है जिसे 32 बिट के कोड में कहीं न कहीं जगह न मिल गयी हो।
8 बिट के कुल 2 पर घात 8 = 256 अलग-अलग बाइनरी संख्याएँ बन सकती हैं; 16 बिट से 2 पर घात 16 = 65536 और 32 बिट से 4294967296 भिन्न (distinct) बाइनरी संख्याएँ बन सकती हैं।
यूनिकोड के तीन रूप प्रचलित हैं। UTF-8, UTF-16 और UTF-32.
इनमें अन्तर क्या है? मान लीजिये आपके पास दस पेज का कोई टेक्स्ट है जिसमें रोमन, देवनागरी, अरबी, गणित के चिन्ह आदि बहुत कुछ हैं। इन चिन्हों के यूनिकोड अलग-अलग होंगे। यहाँ ध्यान देने योग्य बात है कि कुछ संकेतों के ३२ बिट के यूनिकोड में शुरू में शून्य ही शून्य हैं (जैसे अंग्रेजी के संकेतों के लिये)। यदि शुरुआती शून्यों को हटा दिया जाय तो इन्हें केवल 8 बिट के द्वारा भी निरूपित किया जा सकता है और कहीं कोई भ्रम या कॉन्फ़्लिक्ट नहीं होगा। इसी प्रकार रूसी, अरबी, हिब्रू आदि के यूनिकोड ऐसे हैं कि शून्य को छोड़ देने पर उन्हें प्राय: 16 बिट = 2 बाइट से निरूपित किया जा सकता है। देवनागरी, जापानी, चीनी आदि को आरम्भिक शून्य हटाने के बाद प्राय: 24 बिट = तीन बाइट से निरूपित किया जा सकता है। किन्तु बहुत से संकेत होंगे जिनमें आरम्भिक शून्य नहीं होंगे और उन्हें निरूपित करने के लिये चार बाइट ही लगेंगे।
बिन्दु (5) में बताए गये काम को UTF-8, UTF-16 और UTF-32 थोड़ा अलग अलग ढंग से करते हैं। उदाहरण के लिये यूटीएफ़-8 क्या करता है कि कुछ लिपिचिह्नों के लिये 1 बाइट, कुछ के लिये 2 बाइट, कुछ के लिये तीन और चार बाइट इस्तेमाल करता है। लेकिन UTF-16 इसी काम के लिये १६ न्यूनतम बिटों का इस्तेमाल करता है। अर्थात जो चीजें UTF-8 में केवल एक बाइट जगह लेती थीं वे अब 16 बिट == 2 बाइट के द्वारा निरूपित होंगी। जो UTF-8 में 2 बाइट लेतीं थी यूटीएफ-16 में भी दो ही लेंगी। किन्तु पहले जो संकेतादि 3 बाइट या चार बाइट में निरूपित होते थे यूटीएफ-16 में 32 बिट = ४
4 बाइट के द्वारा निरूपित किये जायेंगे। (आपके पास बड़ी-बडी ईंटें हों और उनको बिना तोड़े खम्भा बनाना हो तो खम्भा ज्यादा बड़ा ही बनाया जा सकता है।)
लगभग स्पष्ट है कि प्राय: UTF-8 में इनकोडिंग करने से UTF-16 की अपेक्षा कम बिट्स लगेंगे।
इसके अलावा बहुत से पुराने सिस्टम 16 बिट को हैंडिल करने में अक्षम थे। वे एकबार में केवल 8-बिट ही के साथ काम कर सकते थे। इस कारण भी UTF-8 को अधिक अपनाया गया। यह अधिक प्रयोग में आता है।
UTF-16 और UTF-32 के पक्ष में अच्छाई यह है कि अब कम्प्यूटरों का हार्डवेयर 32 बिट या 64 बिट का हो गया है। इस कारण UTF-8 की फाइलों को 'प्रोसेस' करने में UTF-16, UTF-32 वाली फाइलों की अपेक्षा अधिक समय लगेगा।
UniView - An XHTML-based application to look up characters, character blocks, paste in and discover unknown characters, store your own info about characters, search on character names, do hex/dec/ncr conversions, highlight character types, etc. etc.
अगर कोई लेख किसी जगह पर किसी ऐसे फ़ॉण्ट को प्रयोग कर के लिखा गया है। जो कि यूनिकोड नहीं है, तो फ़ॉण्ट परिवर्तक प्रोग्रामों का प्रयोग करके उसे यूनिकोड में बदला जा सकता है।
Alan Wood's Unicode Resources Contains lists of word processors with Unicode capability; fonts and characters are grouped by type; characters are presented in lists, not grids.
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.