यूनिकोड कन्वर्टर

वर्ण (यूनिकोड)

यूनिकोड टेक्स्ट को एन्कोड करने, प्रदर्शित करने और संभालने के लिए एक अंतरराष्ट्रीय मानक है। यह प्रत्येक लेखन प्रणाली के प्रत्येक वर्ण के साथ-साथ प्रतीकों, इमोजी और नियंत्रण वर्णों को एक अद्वितीय संख्या (कोडपॉइंट) प्रदान करता है। यूनिकोड का लक्ष्य सार्वभौमिक वर्ण सेट बनना है, जिसमें वर्तमान में 161 लिपियों को कवर करने वाले 149,000 से अधिक वर्ण शामिल हैं।

यूनिकोड एन्कोडिंग

यूनिकोड कोडपॉइंट को विभिन्न प्रारूपों में एन्कोड किया जा सकता है: UTF-8 (परिवर्तनीय 1-4 बाइट्स, ASCII-संगत), UTF-16 (2 या 4 बाइट्स, JavaScript/Windows द्वारा उपयोग किया जाता है), और UTF-32 (निश्चित 4 बाइट्स)। UTF-8 वेब पर प्रमुख एन्कोडिंग बन गया है, जो ASCII टेक्स्ट के लिए कुशल रहते हुए सभी भाषाओं को संभालता है।

सामान्य उपयोग के मामले

टेक्स्ट में एन्कोडिंग समस्याओं को डिबग करना
विशेष वर्ण कोडपॉइंट खोजना
एस्केप्ड यूनिकोड अनुक्रमों को परिवर्तित करना
वर्ण संरचना का विश्लेषण करना
अंतरराष्ट्रीयकरण (i18n) के साथ काम करना

समर्थित प्रारूप

U+XXXX मानक यूनिकोड नोटेशन (जैसे, 'A' के लिए U+0041)

\uXXXX JavaScript/JSON एस्केप अनुक्रम

&#DDDD; HTML दशमलव इकाई (decimal entity)

&#xHHHH; HTML हेक्साडेसिमल इकाई (hexadecimal entity)

अक्सर पूछे जाने वाले प्रश्न

UTF-8 और यूनिकोड में क्या अंतर है?

यूनिकोड वर्ण सेट (वर्णों का संख्याओं से मिलान) है। UTF-8 उन संख्याओं को बाइट्स के रूप में एन्कोड करने का एक तरीका है। अन्य एन्कोडिंग में UTF-16 और UTF-32 शामिल हैं।

कुछ वर्ण बक्से या प्रश्न चिह्न जैसे क्यों दिखते हैं?

ऐसा तब होता है जब आपके सिस्टम में ऐसा फ़ॉन्ट नहीं होता जिसमें वह वर्ण शामिल हो, या जब एन्कोडिंग गलत तरीके से पहचानी जाती है। वर्ण मौजूद है लेकिन प्रदर्शित नहीं किया जा सकता।