वर्ण गणना, बाइट गणना (UTF-8/ASCII), शब्द गणना और लाइन गणना की गणना करें।
स्ट्रिंग की लंबाई को अलग-अलग तरीकों से मापा जा सकता है: वर्ण गणना (विज़ुअल इकाइयाँ), बाइट गणना (स्टोरेज आकार), कोडपॉइंट गणना (यूनिकोड इकाइयाँ), या ग्राफीम गणना (उपयोगकर्ता द्वारा समझे जाने वाले वर्ण)। अंतरराष्ट्रीय टेक्स्ट, आकार सीमा वाले डेटाबेस, या वर्ण प्रतिबंधों वाले API के साथ काम करते समय इन भेदों को समझना महत्वपूर्ण है।
एन्कोडिंग के आधार पर वर्ण गणना अलग-अलग होती है: एक इमोजी विज़ुअली 1 वर्ण हो सकता है लेकिन UTF-8 में 4 बाइट्स। शब्द गणना आमतौर पर व्हाइटस्पेस पर विभाजित होती है। लाइन गणना न्यूलाइन वर्णों पर निर्भर करती है। बाइट गणना वास्तविक स्टोरेज आकार को दर्शाती है और एन्कोडिंग (UTF-8, UTF-16, आदि) के साथ बदलती रहती है।
इमोजी कई यूनिकोड कोडपॉइंट से बने हो सकते हैं। एक फैमिली इमोजी ज़ीरो-विड्थ जॉइनर्स द्वारा जुड़े कई वर्ण हो सकते हैं। अलग-अलग सिस्टम इन्हें अलग-अलग तरह से गिनते हैं।
यह टूल UTF-8 का उपयोग करता है, जो सबसे आम वेब एन्कोडिंग है। UTF-8 प्रति वर्ण 1-4 बाइट्स का उपयोग करता है: ASCII 1 बाइट का उपयोग करता है, अधिकांश अन्य भाषाएं 2-3 बाइट्स का उपयोग करती हैं, और इमोजी 4 बाइट्स का उपयोग करते हैं।