www.tqm.com.uy

Caracteres Web

 

1 Caracteres ISO-8859-1
2 Caracteres inseguros
3 Caracteres no-ISO posiblemente utilizables
      3.1 Signos de puntuación con estilo
4 Letras Griegas y símbolos matemáticos
5 Otros símbolos comunes
6 Unicode

 

Caracteres ISO-8859-1

Los siguientes caracteres del conjunto ISO-8859-1 (uno de los códigos ASCII extendido) se pueden usar con seguridad en todas las páginas. La siguiente tabla lista el carácter en sí, el código para cada carácter en decimal y en hexadecimal, el nombre de la entidad HTML, y el nombre común del carácter.

Los 4 caracteres inpresindibles

Literal Hex Dec Entidad Carácter
"   0034 " comilla doble
  0038 &  
<   0060 &lt;  
>   0062 &gt;  

NOTA: La entidad &quot; inexplicablemente fue omitida dentro la especificación HTML 3,2. Mientras que uso del &quot genera informes del error al validar contra la especificación 3,2, los navegadores y demas agentes de usuario han continuado reconociendo la entidad y su uso es generalmente seguro. La omisión se ha corregido en la especificación del HTML 4,0 y al validar contra la especificación 4,0 no se producen errores a raís de esta entidad.

Los demás:

Literal Hex Dec Entidad Carácter
  00A0 0160 &nbsp; espacio que no produce saltos de línea
¡ 00A1 0161 &iexcl; exclamación de apertura
¢ 00A2 0162 &cent; signo de centavo
£ 00A3 0163 &pound; signo de libra
¤ 00A4 0164 &curren; signo de moneda internacional
¥ 00A5 0165 &yen; signo de yen
§ 00A7 0167 &sect; signo de sección
¨ 00A8 0168 &uml; diéresis
© 00A9 0169 &copy; signo de copyright
ª 00AA 0170 &ordf; indicador ordinal femenino
« 00AB 0171 &laquo; comillas anguladas de apertura
¬ 00AC 0172 &not; signo de negación lógica
® 00AE 0174 &reg; signo de marca registrada
¯ 00AF 0175 &macr; raya alta
° 00B0 0176 &deg; signo de grado
± 00B1 0177 &plusmn; signo de más/menos
´ 00B4 0180 &acute; acento agudo
µ 00B5 0181 &micro; signo de micro
00B6 0182 &para; signo de fin de parágrafo
· 00B7 0183 &middot; punto medio (coma Georgiana)
¸ 00B8 0184 &cedil; cedilla
º 00BA 0186 &ordm; indicador ordinal masculino
» 00BB 0187 &raquo; comillas anguladas de cierre
¿ 00BF 0191 &iquest; signo de interrogación de apertura
À 00C0 0192 &Agrave; A con acento grave
Á 00C1 0193 &Aacute; A con acento agudo
 00C2 0194 &Acirc; A con acento circunflejo
à 00C3 0195 &Atilde; A con tilde
Ä 00C4 0196 &Auml; A con diéresis
Å 00C5 0197 &Aring; A con anillo
Æ 00C6 0198 &AElig; Diptongo (ligadura) AE
Ç 00C7 0199 &Ccedil; C cedilla
È 00C8 0200 &Egrave; E con acento grave
É 00C9 0201 &Eacute; E con acento agudo
Ê 00CA 0202 &Ecirc; E con acento circunflejo
Ë 00CB 0203 &Euml; E con diéresis
Ì 00CC 0204 &Igrave; I con acento grave
Í 00CD 0205 &Iacute; I con acento agudo
Î 00CE 0206 &Icirc; I con acento circunflejo
Ï 00CF 0207 &Iuml; I con diéresis
Ñ 00D1 0209 &Ntilde; N con tilde
Ò 00D2 0210 &Ograve; O con acento grave
Ó 00D3 0211 &Oacute; O con acento agudo
Ô 00D4 0212 &Ocirc; O con acento circunflejo
Õ 00D5 0213 &Otilde; O con tilde
Ö 00D6 0214 &Ouml; O con diéresis
Ø 00D8 0216 &Oslash; O con barra
Ù 00D9 0217 &Ugrave; U con acento grave
Ú 00DA 0218 &Uacute; U con acento agudo
Û 00DB 0219 &Ucirc; U con acento circunflejo
Ü 00DC 0220 &Uuml; U con diéresis
ß 00DF 0223 &szlig; doble s (alemán) - beta minúscula
à 00E0 0224 &agrave; a con acento grave
á 00E1 0225 &aacute; a con acento agudo
â 00E2 0226 &acirc; a con acento circunflejo
ã 00E3 0227 &atilde; a con tilde
ä 00E4 0228 &auml; a con diéresis
å 00E5 0229 &aring; a con anillo
æ 00E6 0230 &aelig; diptongo (ligadura) ae
ç 00E7 0231 &ccedil; c cedilla
è 00E8 0232 &egrave; e con acento grave
é 00E9 0233 &eacute; e con acento agudo
ê 00EA 0234 &ecirc; e con acento circunflejo
ë 00EB 0235 &euml; e con diéresis
ì 00EC 0236 &igrave; i con acento grave
í 00ED 0237 &iacute; i con acento agudo
î 00EE 0238 &icirc; i con acento circunflejo
ï 00EF 0239 &iuml; i con diéresis
ñ 00F1 0241 &ntilde; n con tilde
ò 00F2 0242 &ograve; o con acento grave
ó 00F3 0243 &oacute; o con acento agudo
ô 00F4 0244 &ocirc; o con acento circunflejo
õ 00F5 0245 &otilde; o con tilde
ö 00F6 0246 &ouml; o con diéresis
÷ 00F7 0247 &divide; signo de división
ø 00F8 0248 &oslash; o con barra
ù 00F9 0249 &ugrave; u con acento grave
ú 00FA 0250 &uacute; u con acento agudo
û 00FB 0251 &ucirc; u con acento circunflejo
ü 00FC 0252 &uuml; u con diéresis
ÿ 00FF 0255 &yuml; y con diéresis

Estos caracteres son un subconjunto de los símbolos más frecuentemente usados en Internet del juego de caracteres ASCII extendido, ISO 8859-1. Las páginas de TQM son identificadas por el servidor como páginas con texto ISO-8859-1. Los caracteres mencionados anteriormente son un grupo seleccionado para mejorar la compatibilidad con otras máquinas.

Por ejemplo, el Apple Macintosh se utiliza con frecuencia para su uso en Internet, no se encuentra limitado a ningún idioma en especial, y su juego de caracteres nativo (que no es ISO-8859-1) contiene muchos de los caracteres internacionales. Varios navegadores para Macintosh traducen correctamente texto ISO en el juego de caracteres nativo, siempre y cuando los caracteres usados estén disponibles. Así que la tabla descrita antes es un subconjunto de caracteres ISO-8859-1 que también se encuentran disponibles en el juego de caracteres nativo de Macintosh. El documento de código estándar 1252 de Microsoft Windows es un conjunto ampliado de ISO-8859-1, así que estos caracteres también están disponibles en máquinas Windows. Los juegos de caracteres Latinos más comunes aparte del ISO-8859-1 son el documento de código MS-DOS 437 (pre-Windows), el Macintosh Roman, y otros conjuntos ISO como el ISO-8859-2. El número de máquinas pre-Windows MS-DOS con navegadores web es reducido y con frecuencia son máquinas dedicadas a un propósito específico que no usarían tus páginas web de todas formas, así que es razonablemente seguro sacrificar la compatibilidad con aquellas máquinas a favor de los caracteres extranjeros necesitados. Otros conjuntos ISO por lo general están orientados para ser leídos por otros navegadores que usan el mismo juego de caracteres en un mismo país, y por lo tanto esas páginas deberían utilizar un juego de caracteres específico a tal idioma.

Estos caracteres pueden ingresarse bien sea usando referencias a entidades HTML conocidas como &agrave;, directamente por medio de teclados extranjeros, o por medio de cualquier tipo de recurso que esté disponible al autor de páginas que necesite ingresar estos caracteres. Por ejemplo, autores que usan máquinas Windows pueden ingresar estos caracteres manteniendo pulsada la tecla Alt mientras que escriben el código decimal de 4 dígitos correspondientes al carácter en el sector numérico del teclado. Es importante que todos los 4 dígitos (incluyendo el 0 del comienzo) se ingresen; usando un código de 3 dígitos producirá que se ingresen caracteres del obsoleto documento de código 437. Autores que usan máquinas Macintosh deben tener cuidado de usar recursos especiales para ingresar estos caracteres en formato ISO-8859-1 en lugar de hacerlo con el juego de caracteres nativo, o bien puede usar las referencias a entidades HTML conocidas. Note que algunos usuarios de Windows pueden experimentar problemas con versiones del navegador Microsoft Internet Explorer que utilizan "Alt-Flecha Izquierda" y "Alt-Flecha Derecha" para el desplazamiento entre páginas. Estas combinaciones interfieren con el ingreso de códigos que contienen los dígitos 4 y 6. En este caso use referencias a entidades HTML.

Los caracteres de la tabla descrita pueden ser utilizados directamente como caracteres 8-bit en todas las páginas, y son suficientes para todas las páginas escritas principalmente en inglés, español, francés, alemán e idiomas que no requieren caracteres especiales aparte de aquellos (como el Catalán).

Caracteres inseguros

Note en especial lo que hace falta aquí del juego de caracteres ISO-8859-1 completo: La barra vertical partida (0166=&brvbar;), el guión suave (0173=&shy;), los dígitos en superíndice (0178=&sup2;, 0179=&sup3;), las fracciones comunes (0188=&frac14;, 0189=&frac12;, 0190=&frac34;), los caracteres eth y thorn islandeses (0208=&ETH;, 0240=&eth;, 0222=&THORN;, 0254=&thorn;), y el signo de multiplicación (0215=&times;). Estos deberían considerarse inseguros (aparte existen sustitutos adecuados para muchos de ellos).

Debe tenerse especial cuidado con aquellos caracteres que existen en el juego de caracteres nativo de algunas máquinas populares pero no en el conjunto mencionado anteriormente. No son seguros, aun cuando posiblemente usted los vea correctamente cuando los usa. Entre los caracteres que hacen parte del documento de código 1252 Windows pero no en el ISO-8859-1 se encuentran el signo del euro (&euro;), la cruz y la doble cruz (&dagger;, &Dagger;), la viñeta (&bull;), el signo de marca registrada (&trade;), los signos de puntuación con estilo (ver más adelante), el signo por mil (&permil;), algunas letras con acento caron del Este de Europa, y los diptongos oe. Entre los caracteres del juego de caracteres Macintosh Roman que no hacen parte del ISO-8859-1 se encuentran la cruz y doble cruz, la viñeta, el signo de marca registrada, algunos pocos símbolos matemáticos como el infinito (&infin;) y el no-igual (&ne;), algunas letras Griegas comúnmente usadas como pi (&pi;), diptongos (ligaduras) como oe y fl, signos de puntuación con estilo, el signo de por mil, y algunos acentos como el breve, onogek y el caron.

El lenguaje de etiquetas HTML 4.0 (http://www.w3.org/TR/html4/) define entidades para algunos caracteres Latinos no incluidos en el ISO-8859-1 y que son utilizados por idiomas populares, como el diptongo OE (&OElig;, &oelig;), la Y mayúscula con diéresis (&Yuml;), y algunos caracteres del Este de Europa con acentos como &scaron;. Estos también son inseguros; aun cuando si se ingresan como referencias a entidades HTML, puede que se muestren correctamente en algunas máquinas.

En resumen, no asuma que es seguro utilizar algún carácter especial solo porque se ve bien en su máquina. Utilice los caracteres de la tabla listada antes, y lea y entienda como usar los otros que se mencionan más abajo.

Caracteres no-ISO posiblemente utilizables

Algunos caracteres que no fueron listados como seguros antes aún pueden resultar utilizables cuando se ingresan como referencias a entidades HTML, ya que los navegadores web los reconocen e interpretan correctamente, quizás utilizando fuentes de carácter alternativas según se requiera. Todos estos caracteres deben ser considerados menos seguros que los mencionados antes, pero solo en el sentido de que puede que no se muestren apropiadamente en algunas máquinas, aunque en forma de referencias a entidades HTML no resultan ambiguos, y preservan la integridad de los datos.

Para muchos de estos, se encuentran disponibles sustitutos adecuados y arreglos, y deberían ser utilizados cuando la importancia de hacer el texto adecuado para usuarios de máquinas y software antiguo sobrepasa la importancia que puede tener una buena presentación para aquellos con software más reciente (a juicio del autor o editor).


Signos de puntuación con estilo

Ausentes en el juego de caracteres ISO-8859-1, pero utilizados con frecuencia y presentes tanto en los conjuntos Macintosh Roman y el documento de código Windows 1252, existen algunos signos de puntuación (comillas y rayas) apropiados para idiomas como el inglés y el español que poseen cierto estilo único. Estos pueden ingresarse como referencias a entidades, y deberían mostrarse correctamente en la mayoría de máquinas que posean software reciente. Incluso en máquinas basadas en estándares ISO como Unix/X, los navegadores deberían ser capaces de interpretar estas referencias y realizar las sustituciones apropiadas utilizando simples comillas y rayas de ASCII plano (Mozilla (http://www.mozilla.org) hace esto correctamente, por ejemplo). Estas referencias no existían en versiones antiguas de HTML, por lo que es posible que no sean reconocidas por software poco reciente. Ya que utilizando estos caracteres se mantiene la integridad de los datos incluso en aquellas máquinas que no los muestran correctamente, se pueden considerar seguros de usar a menos que un despliegue adecuado en software antiguo sea crítico. Las comillas alemanas "low-9" son un caso similar, pero es menos frecuente que sean traducidas por software, y por lo tanto no son tan seguras. La siguiente tabla muestra estos caracteres a continuación de una "O" mayúscula para mejor visibilidad:

‘O &lsquo; comilla izquierda sencilla
O’ &rsquo; comilla derecha simple
“O &ldquo; comilla izquierda doble
O” &rdquo; comilla derecha doble
—O &mdash; raya larga
–O &ndash; raya corta
‚O &sbquo; comilla low-9 sencilla
„O &bdquo; comilla low-9 doble

Muchos sitios web orientados a una audiencia de usuarios de Windows utilizan referencias del documento de código 1252 para estos caracteres: por ejemplo, utilizando &#151; para la raya larga. Esta no es una práctica recomendada. Con el propósito de asegurar la futura integridad de los datos y máxima compatibilidad, se deben reescribir estos caracteres a referencias como &mdash;.

Letras Griegas y símbolos matemáticos

Los estándares web para escribir expresiones matemáticas son muy recientes (de hecho MathML 2.0 fue publicado apenas en Febrero de 2001), por lo que muchos navegadores que fueron creados antes de que estos estándares aparecieran trataron de compensar esta limitación permitiendo al menos el uso de algunos caracteres utilizados con frecuencia en matemáticas, incluyendo gran parte del alfabeto Griego. Estos necesariamente se ingresan como referencias a entidades. Algunos navegadores con frecuencia interpretan estos símbolos utilizando la fuente de carácter "Symbol" o algo similar.

Las letras Griegas mayúsculas y minúsculas simplemente usan sus nombres completos como entidades. Estos caracteres deberían, por supuesto, ser utilizados únicamente para representar letras Griegas ocasionales en texto principalmente Latino. Texto realmente Griego debería ser escrito utilizando un juego de caracteres griego para evitar archivos sobrecargados y de pobre respuesta. Aquí hay algunos ejemplos:

α &alpha;
Γ &Gamma;
β &beta;
Λ &Lambda;
γ &gamma;
Σ &Sigma;
π &pi;
Π &Pi;
σ &sigma;
Ω &Omega;
ς &sigmaf; (sigma "final", únicamente en minúscula)

Otros símbolos matemáticos comunes:

&ne;
&prime;
&le;
&Prime;
&ge;
&part;
&equiv;
&int;
&asymp;
&sum;
&infin;
&prod;
&radic;

Muchos de los símbolos en la fuente de carácter de Windows "Symbol" usados para interpretar símbolos matemáticos (como los segmentos de corchetes expandibles) no están presentes on muchas otras máquinas, y ni siquiera están presentes en el Unicode 3.1 o como entidades HTML (aunque se encuentran planeados para Unicode 3.2). Estos son utilizados en productos como TtH para interpretar ecuaciones. Debe saber que si usted utiliza esos símbolos, usted estará restringiendo su audiencia a usuarios de Windows (sea aceptable o no es un juicio que usted tendrá que hacer como autor).

Otros símbolos comunes

Algunos caracteres como la viñeta, el signo de la moneda euro, y el signo de marca registrada son casos especiales. Es muy factible que sean asimilados e interpretados de alguna manera en muchos navegadores. Debido a que son importantes para el comercio internacional, muchos sistemas los agregan a fuentes de carácter en alguna ubicación no-estándar y los interpretan cuando se solicitan, o de lo contrario simplemente los interpreta en modos especiales que no requieren que se encuentren presentes en alguna fuente. Consulte la tabla a continuación para ver cómo interpreta su navegador los siguientes símbolos:

&bull; Viñeta
&euro; Signo de la moneda euro
&trade; Signo de marca registrada

Entre otros símbolos un poco menos comunes se encuentran los siguientes:

&dagger; cruz
&Dagger; doble cruz
&loz; diamante
&permil; signo por mil
&larr; flecha hacia la izquierda
&uarr; flecha hacia arriba
&rarr; flecha hacia la derecha
&darr; flecha hacia abajo
&spades; pinta negra de espadas
&clubs; pinta negra de picas
&hearts; pinta negra de corazones
&diams; pinta negra de diamantes
&lsaquo; comilla angulada sencilla de apertura
&rsaquo; comilla angulada sencilla de cierre

El uso de estos símbolos debe considerarse inseguro excepto quizá en páginas orientadas a una audiencia específica que muy probablemente utilice software bastante actualizado sobre máquinas populares.

Unicode

La codificación de caracteres Unicode UCS-4 es la codificación de caracteres oficial en HTML 4.0 (http://www.w3.org/TR/html4/charset.html#entities). Muchos navegadores, sin embargo, solo son capaces de mostrar un pequeño subconjunto del repertorio completo UCS-4. Por ejemplo, los códigos &#1049; &#1511; &#1605; se despliegan en su navegador como Й, ק, y م, los cuales idealmente deberían verse como la letra cirílica "I corta", la letra hebrea "Qof", y la letra arábiga "Meem", respectivamente. Es poco probable que su computador tenga todas esas fuentes y las muestre correctamente, aunque puede que muestre algunas de ellas. En cualquier caso, debido a que estos caracteres están codificados de acuerdo al estándar, deberán mostrarse correctamente en cualquier sistema que cumpla con el estándar y tenga disponibles los caracteres. Referencias a entidades numéricas son la mejor manera de ingresar estos caracteres en una página por el momento. Note que codificarlos utilizando decimal en lugar de hexadecimal (por ejemplo &#1049; en lugar de &#x419;) incrementará el número de navegadores en los que la referencia dará resultado.

 

Reconocimiento y Reproductibilidad: Aún cuando ha sido levemente modificada y mejorada, la presente página se basa fundamentalmente en http://es.wikipedia.org/wiki/Wikipedia:Caracteres_especiales_Wiki reconociéndose por este medio el origen de la mayor parte del texto aquí reproducido de acuerdo a los términos del las licencias. Este texto por tanto es libre y más allá de las mejoras que pueda haberle realizado www.tqm.com.uy puede reproducirse total o parcialmente en otras páginas web siempre y cuando se reconzca su autoría inmediata anterior, tal cual lo hacemos nosotros. En caso de reproducir este texto debe agregarse en algúna parte de la página el texto "basado en http://www.tqm.com.uy/datosu/caracteres-web.htm " o texto similar con un enlace a esta página.

Todos los derechos reservados ® 1996-2010 TQM | Contacto