Convertidor Unicode - ComUtil.Com

Caracteres (Unicode)

Unicode es un estándar internacional para codificar, representar y manejar texto. Asigna un número único (punto de código) a cada carácter de cada sistema de escritura, además de símbolos, emojis y caracteres de control. Unicode aspira a ser el conjunto de caracteres universal, que actualmente contiene más de 149.000 caracteres que cubren 161 escrituras.

Codificaciones Unicode

Los puntos de código Unicode se pueden codificar en diferentes formatos: UTF-8 (variable de 1 a 4 bytes, compatible con ASCII), UTF-16 (2 o 4 bytes, utilizado por JavaScript/Windows) y UTF-32 (4 bytes fijos). UTF-8 se ha convertido en la codificación dominante en la web, manejando todos los idiomas y manteniendo la eficiencia para el texto ASCII.

Casos de uso comunes

Depuración de problemas de codificación en el texto
Búsqueda de puntos de código de caracteres especiales
Conversión de secuencias Unicode escapadas
Analizando la composición de caracteres
Trabajando con internacionalización (i18n)

Formatos soportados

U+XXXX Notación Unicode estándar (ej., U+0041 para 'A')

\uXXXX Secuencia de escape JavaScript/JSON

&#DDDD; Entidad decimal HTML

&#xHHHH; Entidad hexadecimal HTML

Preguntas Frecuentes

¿Cuál es la diferencia entre UTF-8 y Unicode?

Unicode es el conjunto de caracteres (mapeo de caracteres a números). UTF-8 es una forma de codificar esos números como bytes. Otras codificaciones incluyen UTF-16 y UTF-32.

¿Por qué algunos caracteres se ven como cuadros o signos de interrogación?

Esto sucede cuando su sistema no tiene una fuente que incluya ese carácter, o cuando la codificación se detecta incorrectamente. El carácter existe pero no se puede mostrar.