Calcular el conteo de caracteres, bytes (UTF-8/ASCII), palabras y líneas.
La longitud de la cadena se puede medir de diferentes maneras: recuento de caracteres (unidades visuales), recuento de bytes (tamaño de almacenamiento), recuento de puntos de código (unidades Unicode) o recuento de grafemas (caracteres percibidos por el usuario). Comprender estas distinciones es crucial cuando se trabaja con texto internacional, bases de datos con límites de tamaño o APIs con restricciones de caracteres.
El recuento de caracteres varía según la codificación: un emoji puede ser 1 carácter visualmente pero 4 bytes en UTF-8. El recuento de palabras suele dividirse por espacios en blanco. El recuento de líneas depende de los caracteres de nueva línea. El recuento de bytes refleja el tamaño de almacenamiento real y varía con la codificación (UTF-8, UTF-16, etc.).
Los emojis pueden estar compuestos por múltiples puntos de código Unicode. Un emoji de familia puede ser varios caracteres unidos por uniones de ancho cero (Zero-Width Joiners). Diferentes sistemas los cuentan de manera distinta.
Esta herramienta utiliza UTF-8, la codificación web más común. UTF-8 utiliza de 1 a 4 bytes por carácter: ASCII utiliza 1 byte, la mayoría de los demás idiomas utilizan de 2 a 3 bytes y los emojis utilizan 4 bytes.