Qué son los caracteres UTF-8 y qué ventajas tienen en la web

UTF-8 son las siglas de «8-bit Unicode Transformation Format», un formato de codificación de caracteres Unicode e ISO 10646 que, como particularidad, utiliza símbolos de longitud variable. Tiene una serie de características que lo hacen perfecto para la codificación de correos electrónicos y páginas web.

De hecho, es una de las codificaciones contempladas por el IETF (Internet Engineering Task Force) para todos los protocolos de Internet, que deben especificar qué codificación utilizan para los textos. Por otro lado, el Internet Mail Consortium (IMC) recomienda que todas las aplicaciones de email sean compatibles con UTF-8.

Características de UTF-8

UTF-8 tiene una serie de características que lo hacen perfecto para los emails y la visualización de páginas webs:

  • Es un formato capaz de representar cualquier carácter Unicode. Unicode es el estándar de codificación de caracteres pensado para representar cada carácter o símbolo mediante un nombre e identificador numérico, además de incluir información como el sistema de escritura, categoría, direccionalidad, mayúsculas y otros atributos.
  • Usa símbolos de longitud variable. Es un formato basado en bytes, así que las representaciones se realizan utilizando de 1 a 4 bytes:
    • 1 byte, caracteres incluidos en US-ASCII (128 caracteres).
    • 2 bytes, 1920 caracteres que incluyen los caracteres romances más signos diacríticos, y los alfabetos griego, cirílico, copto, armenio, hebreo, árabe, siríaco y Thaana entre otros.
    • 3 bytes, caracteres del plano básico multilingüe de Unicode, incluyendo los caracteres del grupo CJK: chino, japonés y coreano.
    • 4 bytes, caracteres del plano suplementario multilingüe: símbolos matemáticos y alfabetos clásicos para uso principalmente académico; y también el plano suplementario ideográfico: caracteres Han de uso poco común.
  • Incluye la especificación US-ASCII de 7 bits.
  • Incluye sincronía. Es posible determinar el inicio de cada símbolo sin reiniciar la lectura desde el principio de la comunicación.
  • Los conjuntos de valores que contiene cada byte de un carácter de más de un byte son disjuntos: no es posible confundirlos entre sí.

La importancia de UTF-8

Este formato de codificación de caracteres nació de la necesidad de unificar los diferentes formatos particulares creados en zonas distintas para los mismos o similares idiomas. Como sucede a veces en la tecnología, el idioma de partida es el inglés, para el que basta con el ASCII de 7 bits para representar todos los caracteres del idioma.

Pensemos ahora en nuestra eñe española. O en el alfabeto cirílico, completamente diferente. En los caracteres del alfabeto griego, las comillas alemanas („”) o los idiomas orientales, como el japonés o el chino y sus variantes. Todo esto resulta en una complejidad enorme que se puede resolver ideando un formato universal, cosa que, a su vez, es muy complicado. El fondo del asunto es que, con diferentes formatos incoherentes entre sí, las comunicaciones internacionales se hacían imposibles en la práctica. O extremadamente difíciles, como poco.

Solucionar esto llevó muchos meses de trabajo desde que Joseph D. Becker desarrolló para Xerox el juego de caracteres universal Unicode, entre 1988 y 1991. Tras varias iteraciones que fracasaron, Ken Thompson y Rob Pike desarrollaron una codificación autosincronizada (es decir, una en la que cada carácter indica la longitud que necesita para su representación). Además, resolvieron el problema de la codificación de caracteres con varias representaciones (las vocales acentuadas o con otros signos ortográficos como ä, ê, etc.). Nacía UTF-8.

Este formato se ha convertido en el más extendido en el mundo, facilitando las comunicaciones internacionales y siendo, entre otras cosas, eficiente en el uso de memoria y muy robusto (con una tasa de errores de codificación muy baja). Sin duda, un formato que ha cambiado el mundo digital.

La copia de seguridad que necesitas para tus dispositivos, tus proyectos y tus datos
Accede a tus archivos desde cualquier dispositivo y lugar de forma segura
pack
10 GB
GRATIS
Consigue tu backup ahora