Saltar al contenido

Codificación UTF-8

El Formato de Transformación de Unicode de 8 bits, llamado UTF-8, es una codificación de caracteres de ancho variable que puede codificar los 1.114.112 puntos de código válidos de Unicode utilizando de uno a cuatro bytes de 8 bits. El número "8" significa que UTF utiliza bloques de 8 bits para representar un carácter.

Desde 2009, UTF-8 ha sido la codificación líder para la World Wide Web.

Para caracteres iguales o inferiores a 127 (hex 0x7F), la representación UTF-8 ocupa un solo byte. Esto es similar al valor ASCII.

Para cualquier carácter igual o inferior a 2047 (hex 0x07FF), la representación UTF-8 se distribuye en dos bytes.

Para cualquier carácter igual o superior a 2048 pero menor que 65535 (0xFFFF), la representación UTF-8 se distribuirá en tres bytes.

Para cualquier carácter igual o superior a 65536 (0x10000) hasta el punto de código máximo de Unicode (0x10FFFF), la representación UTF-8 se distribuye en cuatro bytes.

La siguiente lista muestra algunos códigos de caracteres UTF-8 que son compatibles con HTML5:

Códigos de caracteresDecimalHexadecimal
Controles C0 y Latín básico0-1270000-007F
Controles C1 y Suplemento Latín-1128-2550080-00FF
Latín extendido-A256-3830100-017F
Latín extendido-B384-5910180-024F
Modificadores de espaciado688-76702B0-02FF
Marcas diacríticas768-8790300-036F
Griego y copto880-10230370-03FF
Cirílico básico1024-12790400-04FF
Cirílico suplemento1280-13270500-052F
Puntuación general8192-83032000-206F
Símbolos de moneda8352-839920A0-20CF
Símbolos similares a letras8448-85272100-214F
Flechas8592-87032190-21FF
Operadores matemáticos8704-89592200-22FF
Dibujos de cajas9472-95992500-257F
Elementos de bloque9600-96312580-259F
Formas geométricas9632-972725A0-25FF
Símbolos varios9728-99832600-26FF
Dingbats9984-101752700-27BF

Práctica

¿Cuál es el propósito de Unicode en HTML, según el contenido de w3docs.com?

¿Te resulta útil?

Vista previa dual-run — compárala con las rutas Symfony en producción.