Diferentes tipos de pruebas e investigaciones

Es posible distinguir entre las pruebas que se realizan como parte del proceso de diseño y las pruebas de los productos terminados.

Las evaluaciones formativas, es decir, antes de finalizar el diseño, pueden enriquecer las decisiones de diseño ya sea detectando problemas con algunos aspectos de un elemento individual (por ejemplo, que el tipo sea demasiado pequeño) o indicando cuál de dos o más versiones resulta más fácil de leer. Esta clase de pruebas se describe como una prueba de diagnóstico cuando se señalan problemas específicos, y se utiliza idealmente como parte de un proceso de diseño iterativo. Una vez que se ha detectado un problema, se resuelve y se vuelven a aplicar pruebas.
Las pruebas con usuarios o investigación de usuarios comparan diferentes versiones, y puede llevarse a cabo como una evaluación formativa para determinar qué versión seguir desarrollando.
Si la prueba con usuarios se lleva a cabo como una evaluación acumulativa, es decir, se prueba el producto final, los resultados pueden proporcionar recomendaciones para el diseño de productos similares en el futuro. Sin embargo, esta guía práctica será limitada si no permite determinar por qué una versión fue mejor que otra.
Los estudios de investigación hacen comparaciones entre versiones diferentes a la vez que controlan la manera en que varían. A partir de los resultados, debería ser posible decir, por ejemplo, qué variable tipográfica afecta la velocidad de lectura. Por consiguiente, la investigación puede generalizarse a otras situaciones de diseño y considerarse una investigación robusta, si se lleva a cabo adecuadamente.

Pregunta: Reflexiona si has utilizado una evaluación formativa como parte de tu proceso de diseño. Por ejemplo, ¿has pedido a colegas o amigos que te hagan observaciones sobre distintos aspectos de un diseño tuyo?

Desafíos

Criterios cruciales

Los métodos utilizados para los tres primeros tipos de pruebas mencionados pueden ser menos formales que los utilizados para estudios de investigación. En algunas circunstancias, quizás no sea necesario cumplir con todos los criterios enumerados a continuación, o tal vez sean menos importantes. Sin embargo, resulta útil saber cuáles son los principales desafíos para llevar a cabo una investigación robusta que sea valiosa y relevante para investigadores y diseñadores.

Aunque los tres criterios se indican por separado, los tres se relacionan entre sí. Es posible que la solución a un desafío entre en conflicto con otro, por lo que se debe evaluar y determinar las prioridades.

Los criterios cruciales al diseñar un estudio son:

Sensibilidad: encontrar un método para medir la ejecución de algún aspecto de la lectura, que sea suficientemente sensible para captar las diferencias entre varias tipografías.
Confiabilidad: asegurar que los resultados obtenidos se puedan repetir. Es decir, si realizaras el mismo estudio, ¿obtendrías los mismos resultados? Una solución es aumentando la cantidad de datos recopilados. Puedes hacerlo utilizando un número suficientemente grande de participantes en el estudio y, cuando sea práctico, dando a los participantes múltiples ejemplos de cada condición del experimento. Estos requisitos presentan sus propios desafíos, como son encontrar suficientes participantes y que el experimento se ajuste a una duración razonable.
Validez: determinar que el estudio mida lo que se pretende medir. La investigación de mayor relevancia sobre legibilidad y para la perspectiva del diseñador, es la validez ecológica, una forma de ‘validez externa’ que describe el grado en que un estudio se aproxima a condiciones normales, lo que también se conoce como “validez aparente”. En nuestro contexto, esto puede significar una situación de lectura natural y material de lectura apropiado. Otra forma de validez es la ‘validez interna’, la que describe la relación entre los resultados del estudio y el objeto de estudio. Esto se explica más adelante.

Condiciones de lectura

La validez ecológica no solo concierne a los profesionales del diseño, sino también a los psicólogos que realizan investigación aplicada. Sin embargo, las situaciones de lectura en los experimentos son a menudo artificiales y no representan la práctica de lectura cotidiana. Como se menciona en el Capítulo 2, la investigación ha examinado con frecuencia la lectura de letras o palabras individuales, en lugar de textos continuos. A menudo, la letra o la palabra se muestra solo por un corto periodo, y es posible que a los participantes en los estudios se les pida que respondan rápidamente. Además, se elimina el contexto, lo cual significa que:

Si se prueban letras individuales, no hay indicios de otras letras que pudieran ayudar en la identificación. El Panel 4.1 ofrece un ejemplo del modo en que las características estilísticas de una fuente en particular, o un estilo de manuscrita, pueden ayudarnos a identificar las letras.
Si la prueba es con palabras, no hay el contexto de una oración.

Panel 4.1: Consistencia estilística dentro de una fuente

En el Capítulo 2, describí la manera en que somos capaces de leer diferentes formas visuales de una misma letra. Sin embargo, al leer textos normales (a diferencia de las notas de rescate), no necesitamos pasar muchas veces de una fuente a otra. Leemos párrafos de texto en los que las características estilísticas de las letras proporcionan pistas sobre como serán otras letras (véase el Panel 2.3: Sintonización de fuentes). Las partes que se repiten en las formas de las letras, como las curvas, son estilísticamente consistentes en cuanto a forma, peso, etc. (véase la Figura 4.1)

Figura 4.1: Grupos de letras en 4 fuentes diferentes que muestran la consistencia estilística dentro de cada fuente. Los diseñadores de tipos agrupan las letras con formas similares para aplicar atributos estilísticos congruentes.

Evidentemente, éstas no son condiciones cotidianas de lectura, pero hay razones convincentes para llevar a cabo un estudio de esta manera. Estas técnicas pueden ser necesarias para detectar diferencias muy pequeñas en el modo en que leemos, pues los lectores expertos pueden reconocer palabras muy rápidamente (en una fracción de segundo). Se necesita eliminar cualquier diferencia en la legibilidad, concentrándose en una parte del proceso de lectura y haciendo que el proceso sea lo suficientemente difícil para detectar el cambio. De esta manera, se logra que la medida sea sensible (uno de los tres criterios descritos anteriormente), pero a expensas de la validez ecológica. Aunque algunas investigaciones utilizan oraciones completas y párrafos, éstas quizás no siempre revelan las diferencias o tal vez se estén probando diferentes aspectos del proceso de lectura.

En particular, los diseñadores también pueden criticar los estudios que miden la velocidad de lectura, afirmando que ésta no es un tema de importancia para ellos. Además, la velocidad de lectura, o la velocidad de respuesta a una sola letra o palabra, son técnicas usadas para detectar pequeñas diferencias, y pueden usarse porque son medidas razonablemente sensibles. No es la velocidad en sí lo importante, sino lo que ésta revela; por ejemplo, la facilidad de lectura o el reconocimiento.

Material utilizado en los estudios

Otra crítica que se relaciona con las condiciones artificiales de los experimentos es la escasa selección de material tipográfico, por ejemplo, la tipografía o la manera en que se compone el texto (espaciamiento, longitud de la línea, etc.). La objeción a tal material es que los diseñadores nunca crearían material de esta forma y, por lo tanto, resulta inútil someterlo a prueba; los resultados no servirán a la práctica del diseño. En algunos casos, no hay razón para usar tipografía pobre en el material empleado en un estudio, más que la falta de conocimientos sobre diseño del investigador. Es posible que el investigador no esté consciente de que esa no es una práctica normal. En otros casos, tal vez el investigador necesite controlar el diseño del material tipográfico para asegurar que los resultados sean válidos internamente. Si me interesase el efecto de la longitud de línea de texto, yo podría:

Comparar las longitudes de dos líneas, y además variar la separación interlínea (véase la Figura 4.2). Un diseñador tipográfico experto aumenta la separación entre líneas cuando éstas son más largas. Pero si compongo el texto de esta manera, no puedo asegurar que la longitud o la separación de líneas, o ambas, hayan influido en mis resultados. La separación entre líneas constituye una variable de confusión.
Comparar las longitudes de dos líneas de texto sin variar la separación entre las mismas (véase la Figura 4.3). Sin embargo, los diseñadores dirán que jamás crearían algo parecido a esto.

Comparison of line lengths of around 50 and 100 characters
per line — **Figura 4.2:** Comparación de longitud de líneas de aproximadamente 50 y 100 caracteres por línea (cpl), con ajustes a la separación entre líneas. El texto de menor longitud tiene un tipo de 10 puntos con una separación de 12 puntos; el texto más largo es de 10 puntos con separación de 14 puntos.

En estos dos ejemplos, existe un conflicto entre la validez interna, que asegura que el estudio se ha planificado correctamente, y la validez ecológica. Véase el Panel 4.2 para más detalles sobre el diseño del experimento.

Pregunta: ¿Te han convencido las razones que he dado en cuanto a la utilización de condiciones y material de prueba artificiales? Si no, ¿qué dudas te quedan?

Panel 4.2: Explicación de las variables tipográficas interactivas en los experimentos de Psicología

Los diseñadores tipográficos y gráficos aprenden a tomar decisiones sobre el tamaño del tipo, la longitud de línea y la separación entre líneas. Se considera que estas variables tipográficas se interrelacionan. En experimentos de Psicología, dicha interrelación puede demostrarse encontrando interacciones entre las variables. En el ejemplo de las longitudes de línea y el interlineado (Figuras 4.2 y 4.3), si el tamaño del tipo permanece constante, podríamos esperar que una legibilidad óptima se logra cuando a mayor longitud de renglón se tiene un mayor interlineado, y que a una menor longitud de línea se tiene un interlineado menor.

En la Figura 4.4, he graficado algunos datos de Paterson y Tinker, reproducidos en Tinker (1963, p. 95). El estudio utilizó un tipo de 10 puntos, y yo he seleccionado tres longitudes de línea (aproximadamente de 40, 54 y 90 caracteres por línea) con un interlineado que comienza en 10 puntos y aumenta a 11, 12 y 14 puntos. En los tres casos, la separación interlinea de 10 puntos disminuye la velocidad de la lectura, mientras que el efecto de la longitud es mínimo. Sin embargo, los resultados con respecto a las combinaciones óptimas de longitud e interlineado no son como las predije anteriormente: el interlineado óptimo para la longitud más larga (90 cpl) es de 12 puntos; que a su vez resulta también óptimo para las dos longitudes más cortas (40 y 54 cpl).

Sin embargo, éste es un ejemplo de interacción entre longitud de línea y separación entre líneas. El efecto en la velocidad de lectura del espacio interlínea depende de la longitud de línea. Podemos ver esto en la gráfica, mientras que las tres líneas que representan las longitudes de línea tengan diferentes formas, esto indica un patrón diferente de datos. La consecuencia de esta diferencia es que si yo hubiera decidido no ajustar el interlineado al variar la longitud (como en la Figura 4.3), sino que hubiera hecho la prueba con un interlineado de 11 puntos para todas las longitudes de línea, habría concluido que:

una longitud de 40 cpl se lee más rápido
una de 90 cpl es bastante más lenta
pero la de 90 cpl se lee más rápido que la de 54 cpl

Ahora, si yo hubiera elegido un interlineado de 12 puntos, habría llegado a una conclusión diferente:

las líneas de 40 y 54 cpl se leen a la misma velocidad (rápido)
las líneas de 90 cpl se leen más lentamente

Figura 4.4: La gráfica muestra la relación entre dos variables tipográficas (separación inter línea y longitud de línea) y cómo esto afecta la legibilidad medida como velocidad de lectura. La gráfica se basa en un subconjunto de datos reportados en Tinker (1963).

Este uso selectivo de datos se emplea únicamente para ilustrar cómo traducir el respeto de los diseñadores por la relación entre variables tipográficas en un diseño experimental. Sería imprudente considerar estos resultados específicos como una guía para la práctica del diseño. El Capítulo 5 reseña una gama más amplia de investigaciones, la que es más representativa de los resultados encontrados y, por lo tanto, una mejor guía.

Los datos de la Figura 4.4 se extrajeron de una enorme serie de estudios, en que los experimentadores incluyeron todas las combinaciones de longitudes de línea, separación entre líneas y diferentes tamaños de tipo. Actualmente, nadie realizaría pruebas a esta escala, ya que no se consideraría un enfoque viable ni eficiente. En cambio, las opciones se limitarían a las que se muestran en las Figuras 4.2 y 4.3,

ajustando la separación que se adapte a cada longitud de línea
manteniendo constante la separación entre líneas con todas las longitudes

Pregunta: Si te pidieran que asesoraras a un investigador que estuviera interesado en encontrar la longitud óptima de línea para lectura en pantalla, ¿cuál de las dos opciones anteriores recomendarías? ¿Por qué?

Comparación de tipografías

Un problema aún mayor surge cuando se incorpora más de un tipo de variación en el material de prueba. El ejemplo clásico es la comparación entre una tipografía serif con otra sans serif. Si se encontrara una diferencia en la velocidad de lectura, esto podría deberse a la presencia o ausencia de serifs, aunque también a otras formas en que los dos tipos de fuente difieren (por ejemplo, el contraste entre trazos gruesos y finos). Es posible que los investigadores no sean sensibles a las variables de confusión (que además cambian junto con la variable de interés); pero, su existencia puede invalidar las inferencias que se pueden extraer. Si nos interesa menos cuál de las características estilísticas de la tipografía contribuye a la legibilidad, y más al efecto global, los resultados pueden ser válidos.

Muchos estudios han comparado la legibilidad de diferentes fuentes a pesar de las posibles dificultades para decidir cómo hacer comparaciones válidas. Dado que se ha demostrado que diferentes características estilísticas de una tipografía afectan la legibilidad, las comparaciones deben considerar:

Cómo igualar diferentes tamaños. Aunque a muchos les puede parecer algo simple, quienes tienen conocimientos tipográficos están conscientes de que los tipos de letra parecen tener diferentes tamaños dependiendo de la altura de las ascendentes y las mayúsculas, la altura x, y el tamaño de los espacios negativos (separación entre letras). La certeza de que los tipos de letra coinciden por su altura x, y no por el tamaño en puntos, ayuda a hacer que parezcan de tamaño similar (véase la Figura 4.5).
Cómo controlar las diferencias en peso y proporción, contraste de trazos, y serifs.

The word 'hand' set in different typefaces — **Figura 4.5:** En el par de la izquierda, se comparan Georgia de 24 puntos con Garamond de 24 puntos; Georgia parece ser bastante más grande. Para hacer que ambas parezcan de un tamaño similar, es necesario aumentar la Garamond a aproximadamente 29 puntos (par a la derecha).

Las colaboraciones interdisciplinarias han dado lugar a que diseñadores tipográficos hagan modificaciones experimentales de los tipos de letra (Recuadro 4.1). Este enfoque parecería proporcionar la solución ideal, pero requiere una contribución significativa de los diseñadores de tipografía.

Recuadro 4.1: Modificaciones experimentales de los tipos de letra

Morris, Aquilante, Yager y Bigelow (2002) compararon una versión serif con otra sans serif de Lucida (Figure 4.6), diseñada por Bigelow y Holmes

… los diseñadores produjeron un par con y sin remates o serifs, cuyas formas subyacentes son idénticas en pesos de asta o fuste, ancho de caracteres, separación y ajuste de caracteres y modulación de grueso a delgado. La única diferencia es la presencia o ausencia de serifs y un ligero aumento del área negra en la variante con serif. (p. 245)

Figura 4.6: Lucida Bright y Lucida Sans.

Beier ha diseñado varios tipos de letra específicamente para pruebas (Beier y Larson, 2010, 2013; Beier y Dyson, 2014; Dyson y Beier, 2016). La Figura 4.7 muestra las fuentes utilizadas en Dyson y Beier (2016).

Figura 4.7: Las fuentes diseñadas por Beier que controlan la variación añadiendo rasgos estilísticos a la primera fuente (superior): cursiva, peso, contraste y ancho.

Ilustración del material de prueba

Los diseñadores gráficos trabajan con material visual, y pueden sentirse frustrados al descubrir que muchos de los estudios publicados en revistas, no ilustran qué material fue utilizado en las pruebas. Por lo tanto, no nos queda más que imaginar lo que se presentó a los participantes. Esto puede reflejar que los investigadores dan prioridad a los resultados del estudio (ilustran datos en las gráficas). Sin embargo, algunas revistas impresas han impuesto restricciones, debido a consideraciones económicas. Actualmente, muchas revistas se publican en línea e incluyen versiones interactivas de los artículos, lo cual permite agregar material complementario. Esto ha dado como resultado la inclusión de más ilustraciones y una mayor transparencia en el reporte de los métodos, materiales y procedimientos utilizados en el estudio.

Familiaridad

Algunos autores opinan que los resultados de pruebas de legibilidad reflejan la familiaridad de los participantes con el material que se les presenta, según se señala en el Capítulo 1. Conforme a esta noción, es más fácil leer algo que uno ha estado acostumbrado a leer. Esto parece tener mucho sentido en la medida en que se mejora con la práctica. Sin embargo, esto también genera un problema significativo para los experimentadores. ¿Cómo podemos someter a prueba un tipo de letra diseñado recientemente contra las tipografías existentes, o proponer una diagramación inusual sin que el material nuevo quede en desventaja? Fundamentalmente, cuando la investigación sobre legibilidad confirma las prácticas existentes, basadas en el conocimiento tradicional del oficio, ¿podemos estar seguros de que estas prácticas son las óptimas? ¿y no podría solo tratarse de que son las formas que estamos más acostumbrados a leer? Este dilema fue planteado por Dirk Wendt al escribir sobre los criterios para juzgar la legibilidad (Wendt, 1970, p. 43).

La investigación de Beier y Larson (2013) que se describe con más detalle en el Capítulo 7, examina la familiaridad directamente, y no como una variable de confusión que causa problemas. Dicho estudio tiene como objetivo abordar una posible manera de mejorar los diseños existentes, sin quedar limitados por lo que hemos leído en el pasado.

Métodos

Resulta evidente que las herramientas utilizadas para medir la legibilidad han cambiado con el tiempo, sobre todo porque los dispositivos controlados por computadoras han suplido a los mecánicos. Los métodos anteriores se resumen en Spencer (1968) y se describen con más detalle en Tinker (1963, 1965) y (1965). A pesar de los cambios en la tecnología, muchos de los principios fundamentales siguen siendo los mismos, aunque actualmente utilizamos maneras diferentes de capturar los datos. Existen dos grandes categorías de métodos:

los objetivos, que miden el comportamiento o las respuestas físicas
los subjetivos, que piden su opinión a los lectores

Umbral y medidas conexas

Como se describe en el Capítulo 1, para poder leer, primero debemos ser capaces de experimentar la sensación de imágenes (letras) en nuestra retina. Sabemos además, que leemos al identificar letras, que posteriormente combinamos para formar palabras (Capítulo 2). Sabiendo esto, tiene sentido medir la facilidad para identificar letras o palabras, con la posibilidad de variar la forma tipográfica (es decir, diferentes tipos de letra o tamaños). Una técnica utilizada es el método del umbral, que busca medir el primer momento en que podemos detectar e identificar una letra o palabra, lo que podría determinar la mayor distancia o el menor contraste, o el tipo de menor tamaño.

Recientemente se ha introducido una nueva tabla (logMAR) en la práctica clínica, que se utilizó inicialmente como un instrumento de investigación (Bailey y Lovie, 1976). La tabla está diseñada para asegurar que las letras tengan prácticamente la misma legibilidad: cada fila tiene el mismo número de letras y un espaciado consistente entre letras y líneas. Estos ajustes en la tabla de Snellen reflejan el conocimiento de los investigadores sobre la influencia del aglomeramiento: otras diferencias se relacionan con la ampliación del tamaño de letra. La fuente SLOAN se emplea en las tablas de Snellen y logMAR. Ouise Soan diseñó diez letras (CDHKNORSVZ), un conjunto de optotipos (Sloan, 1959).

Las letras de SLOAN arriba vienen del archivo de la fuente creada por Denis Pelli basadas en las especificaciones de Sloan. Pelli incluye el alfabeto de mayúsculas completo, no solo las 10 letras. La altura y el ancho de las letras son iguales al tamaño nominal en puntos (11 puntos en este ejemplo) y los caracteres contiguos se tocan.

El archivo de la fuente puede ser descargado desde https://github.com/denispelli/Eye-Chart-Fonts

Las pruebas oculares por lo general se realizan de manera similar para obtener una medida de umbral de distancia. Cuando se evalúa nuestra vista, nos piden que leamos una tabla de Snellen en el que las letras disminuyen de tamaño en cada línea descendente (Figura 4.8). Nos detenemos en donde ya no podemos descifrar las letras, llegando así a nuestro umbral. Esta prueba examina la agudeza visual para las letras, utilizando letras sin relación alguna y un tiempo ilimitado de visualización.

Snellen eye chart — **Figura 4.8:** Un ejemplo de la tabla de agudeza visual de Snellen, nombrada en honor del oftalmólogo holandés en 1862. Las letras más pequeñas que se pueden leer con precisión indican la agudeza visual de un ojo (cada ojo se mide por separado). La fila inferior (9) corresponde a la visión 20/20, lo cual significa que las letras se pueden leer a una distancia de 20 pies (aprox. 6 metros).

La prueba visual utiliza un principio similar a los umbrales de distancia, excepto por la variación del tamaño del tipo, y que permanecemos sentados a la misma distancia de la tabla. El ángulo visual cambia en ambos casos, ya que depende del tamaño y la distancia (véase la Figura 3.2). En el procedimiento de la prueba de la vista, el ángulo visual disminuye hasta que ya no podemos leer las letras; el umbral de distancia mide un trabajo en la dirección opuesta, aumentando el ángulo visual hasta que podamos identificar la imagen.

Pregunta: Explica por qué la medida del umbral de distancia debe empezar con una imagen muy lejana para identificarla y, a continuación, se va acercando. Si no estás seguro/a, continúa leyendo para encontrar la respuesta.

Los informes sobre métodos más antiguos para evaluar la legibilidad incluyen descripciones de herramientas que medían umbrales y enfoques más generales al uso de umbrales:

El medidor de visibilidad utilizaba filtros para variar el contraste entre la imagen y el fondo. El objetivo era identificar el menor contraste con que aún se mantenía la legibilidad. Este medidor se ha utilizado para medir la legibilidad relativa de diferentes tipos de letra utilizando letras o palabras.
El variador focal utilizaba un principio similar al del medidor de visibilidad; se proyectaba una imagen borrosa sobre una pantalla de vidrio opaco y se medía la distancia a la cual la imagen se podía reconocer. Este dispositivo se limitaba a usar letras.
Un método más general para medir los umbrales de distancia, que todavía se utiliza, consiste simplemente en determinar desde qué distancia puede reconocerse un objeto. Se inicia a una gran distancia y se acerca gradualmente el material al participante. La respuesta a la pregunta anterior es que resulta necesario hacer la prueba en esta dirección, ya que no podemos reportar con precisión cuando ya no podemos ver algo porque ya lo hemos identificado. El método es adecuado para examinar letreros u otro material que normalmente se leería a distancia, pero también se aplica en otros contextos. (Véase Capítulo 5)
Un principio similar se aplica cuando se mide hasta qué distancia puede colocarse un objeto en la periferia de la vista (por ejemplo, una letra) para poder todavía reconocerlo. Se pide a los participantes que fijen la vista en un punto específico, de modo que no muevan los ojos para enfocar en el objeto. Nuestra agudeza visual para las letras en la visión periférica disminuye con la excentricidad (es decir, al alejarse de la fóvea).

El Panel 4.3 describe una manera sofisticada de utilizar el umbral para tener en cuenta las diferencias entre los lectores.

Panel 4.3: Cómo establecer un nivel de dificultad para cada persona

El método del umbral también puede aplicarse de una manera más flexible para controlar la facilidad con que un participante identifica letras o palabras, para mejorar la sensibilidad de la medición. La técnica ajusta la presentación para cada persona, ya sea variando la distancia de visualización o la duración del tiempo en que se muestra. En lugar de limitarse a medir el umbral, esta medición se utiliza para asegurar que el nivel de dificultad se fije en un cierto nivel por encima del umbral, de modo que los participantes en el estudio no obtengan un 100% correcto o cerca del 0%. Por ejemplo, si la tarea de identificar letras es demasiado fácil, ningún efecto de la forma tipográfica resultará evidente ya que –aunque la identificación de las letras sean un poco más difícil¬– de cualquier manera se podrá realizar. Del mismo modo, si la tarea es demasiado difícil, o será imposible dar respuestas o el participante adivinará, y se equivocará en la mayoría de las respuestas. Pero si podemos establecer la dificultad a tal grado que algunas letras puedan ser identificadas y otras no, seguramente esto ayudará a revelar las diferencias.

Las personas varían, no sólo en cuanto a las características más obvias, tales como la vista (agudeza visual) y la capacidad de lectura, sino también la atención, la motivación, la fatiga, la confianza y la ansiedad al participar en un experimento. En consecuencia, resultará útil poder establecer un nivel para cada persona. Esta técnica puede ser particularmente valiosa en relación con el diseño inclusivo, ya que éste permite evaluar a los participantes con una gama más amplia de habilidades que otras técnicas, debido a que el nivel de dificultad puede ajustarse a cada participante. La desventaja de este planteamiento es que se necesita dedicar tiempo adicional antes de que comience el experimento principal.

El método de exposición breve puede utilizarse para medir el umbral (cuánto tiempo se necesita para identificar una letra o una palabra) o para establecer un nivel adecuado de dificultad para cada participante. Antes de que las computadoras se utilizasen rutinariamente en experimentos, un taquistoscopio controlaba el tiempo de fijación presentando y luego eliminando la imagen. Hoy en día, esto se controla por medio de computadora y un ejemplo de presentación de exposición breve es la ‘Presentación Visual Serial Rápida’ (RSVP, por sus siglas en inglés). Se exhiben secuencialmente palabras individuales en la misma posición en una pantalla, lo cual implica que el participante no tiene que realizar movimientos oculares (sacádicos).

RSVP se ha utilizado en la investigación de la lectura desde 1970, pero recientemente se ha retomado como una técnica práctica para lectura en pantallas pequeñas, ya que la presentación secuencial ocupa un menor espacio. Además, la RSVP se ha desarrollado en aplicaciones para dispositivos móviles, promoviéndose como una técnica para aumentar la velocidad de lectura. El valor de la RSVP como método de investigación para evaluar la legibilidad, radica en que el experimentador puede ajustar la velocidad de presentación de una serie de palabras, las que pueden formar oraciones. Sin embargo, al igual que con algunas de las demás técnicas mencionadas con anterioridad, sólo es posible investigar variables tipográficas a nivel de letras y palabras (por ejemplo, tipos de letra, variantes tipográficas, tamaño de la letra, separación entre letras).

En los métodos anteriores relacionados con las mediciones de umbral, se suele solicitar al participante que identifique lo que ve (por ejemplo, una letra o una palabra). Estas respuestas comprenden ya sea los resultados (por ejemplo, número de respuestas correctas) o se registra la distancia/tiempo de exposición/excentricidad, lo que corresponde a un cierto nivel de respuestas correctas.

Medidas de velocidad y precisión

Como se mencionó en el Capítulo 3 y anteriormente en este capítulo, la velocidad de lectura es una forma común de medir la facilidad de lectura, aunque tal vez el interés principal de los diseñadores no sea facilitar una lectura más rápida. Si cuesta trabajo identificar las letras, hacemos más fijaciones de la vista (pausas) y la detenemos por más tiempo, lo que disminuye la velocidad de la lectura; probablemente requiera hacer un mayor esfuerzo.

Las medidas de velocidad a menudo se combinan con cierta medida de precisión; podemos referirnos a la precisión en:

identificar letras o palabras aisladas
leer palabras en oraciones y texto corrido
hacer corrección de pruebas
recordar (lo que a menudo se remite a la memoria)
entender (comprensión)

Por lo tanto, es posible que la precisión rebase la mera captación correcta de letras o palabras e implique medidas de memoria o comprensión. Si lo que se prueba es el reconocimiento de letras o palabras, la precisión se puede medir junto con el tiempo de exposición. Dado que podemos sustituir la velocidad por la precisión cuando leemos, algunos investigadores combinan ambas medidas. Si decido leer muy rápidamente, es probable que recuerde y entienda menos del texto porque estoy sacrificando la velocidad y la precisión. Si se lee texto continuo, resulta importante incluir una prueba de comprensión para comprobar que se obtiene cierto nivel de entendimiento.

Pregunta: ¿Crees que sea más importante recordar o entender qué leer rápido? ¿Hay circunstancias en las que la velocidad sea más importante?

Medir la legibilidad por medio de la velocidad de lectura de texto continuo, puede ser similar a la situación de lectura habitual. Los investigadores han utilizado tanto lectura silenciosa como lectura en voz alta, aunque la lectura silenciosa tiende a ser más común. Si se lee en voz alta, es posible medir el número de palabras identificadas correctamente. Las medidas de comprensión para la lectura silenciosa incluyen:

hacer resumen de lo que se ha leído
identificar un error en una oración que afecte el significado
procedimiento Cloze o procedimiento de llenado de omisiones en el que se suprimen palabras a intervalos regulares dentro de un texto y el participante debe insertar una palabra adecuada en la omisión
preguntas abiertas o de respuesta corta
preguntas con opción múltiple de respuestas

Como investigador, he tenido que decidir qué medida de comprensión utilizaré. Al hacerlo, he sopesado la dificultad de preparar el material de la prueba contra la dificultad de calificar los resultados. La Tabla 4.1 resume mi evaluación de cada una de las medidas respecto a estas dos consideraciones. El Panel 4.4 explica las razones de mi evaluación e incluye indicaciones sobre algunas prácticas adecuadas al realizar un estudio.

Tabla 4.1: qué considerar al elegir un método para evaluar la comprensión

	Preparación sencilla	Preparación razonablemente sencilla	Preparación bastante difícil	Preparación difícil
Evaluación sencilla		Identificación de errores		Multiple-choice
Evaluación razonablemente sencilla	Procedimiento Cloze (de llenado de omisiones)	Preguntas abiertas	Preguntas de respuestas breves
Evaluación difícil	Resúmenes

Panel 4.4: Consideraciones en la planeación de pruebas de comprensión

Los resúmenes no requieren preparación de preguntas, pero es más difícil evaluar que las respuestas sean exactas y completas. Hay que decidir si las respuestas son 100% correctas o solo parcialmente correctas. Esta dificultad reduce la fiabilidad de las calificaciones.
Lo mismo ocurre, aunque en menor medida, con las preguntas abiertas, dado que las respuestas se concentrarán más y restringirán su contenido, por lo que será un poco más fácil calificarlas.
El procedimiento Cloze o llenado de omisiones es similar a los resúmenes en cuanto a su preparación, ya que es bastante fácil eliminar palabras, pero las respuestas requieren juicios sobre lo que constituyen sinónimos aceptables, ya que rara vez se insertará la palabra exacta.
Las preguntas de respuesta breve pueden estar más enfocadas, eliminando cierta ambigüedad de la evaluación.
Las preguntas con opción múltiple de respuestas son fáciles de evaluar.
Existe una clara relación entre la mayor facilidad para calificar las respuestas y una mayor dificultad para prepararlas. La excepción es la identificación de un error en una oración que tenga la ventaja de ser relativamente fácil de preparar y calificar.

¿Por qué son difíciles de crear las preguntas específicas? Como con todas las mediciones, estas preguntas deben ser suficientemente sensibles para detectar diferentes niveles de comprensión. Si los textos son fácticos, se debe considerar la posibilidad de que los participantes conozcan las respuestas antes de leer el texto, lo que puede requerir una prueba de conocimiento previo, antes de realizar la parte central del estudio. La calificación se convierte entonces en la diferencia entre las pruebas previa y posterior, siendo esta última la que tiene lugar después de la lectura del texto. Las preguntas más difíciles de crear son las de opción múltiple, ya que las respuestas alternativas incorrectas deben ser verosímiles para hacer que las preguntas sean suficientemente difíciles.

Es una buena práctica pilotear preguntas que se utilizarán en un estudio, a fin de detectar cualquier problema, y que no sean demasiado fáciles o difíciles, o contengan ambigüedades o elementos engañosos o confusos. Un estudio piloto es un estudio a pequeña escala, con quizás sólo 2 ó 3 personas, y no necesita incluir todos los aspectos del experimento.

Al comparar los resultados entre diferentes textos, con diferentes contenidos, las preguntas sobre cada texto deben tener un nivel de dificultad similar, y las respuestas deben estar en ubicaciones similares en los textos. Del mismo modo, al identificar errores, se requiere prestar atención cuidadosa a las palabras particularmente se cambien, a su posición y a la manera como son cambiadas. Se han desarrollado diversas pruebas estandarizadas que abordan estos temas:

La prueba de Nelson-Denny (1981), desarrollado originalmente en 1929, es una prueba de opción múltiple.
La prueba de velocidad de lectura de Chapman-Cook (1923) contiene 30 reactivos de 30 palabras cada uno. En cada reactivo hay una palabra que altera el significado, y se pide al lector que tache dicha palabra. Hay un límite de tiempo de 1 minuto y 45 segundos.

Pregunta: ¿Cuál es la palabra que altera el significado en el reactivo siguiente?

Si mi padre hubiera sabido que yo iba a nadar, me lo habría prohibido. Se enteró después de que volví, y me hizo prometer que nunca volvería a patinar sin informárselo.

• La prueba de velocidad de lectura de Tinker (1947) es similar a la de Chapman-Cook, pero con 450 reactivos de 30 palabras cada uno. El límite de tiempo es de 30 minutos.

Pregunta: ¿Cuál es la palabra que altera el significado en el reactivo siguiente?

Moríamos por tomar unas buenas fotos de la bebé, así que para poder tomar unas cuando fuimos de paseo de campo, metimos la estufa en el coche.

Algunos autores se refieren a la velocidad de la lectura como “ritmo de trabajo”. Este término más genérico puede abarcar otros tipos de lectura, como leer rápidamente un texto para encontrar ciertas palabras (como cuando buscas una palabra en un diccionario o un párrafo en un texto impreso), leer por encima o llenar un formulario.

Mediciones fisiológicas

En los métodos descritos anteriormente, la medición es la respuesta del participante, o con qué rapidez responde, o algún aspecto relacionado con el material (por ejemplo, tiempo de exposición, distancia del material). Otro planteamiento consiste en tomar mediciones físicas de los participantes, incluyendo la frecuencia cardiaca, la velocidad del parpadeo involuntario y los movimientos oculares, los que se han descrito como procesos inconscientes (Pyke, 1926, p. 30) que son automáticos, mientras que somos conscientes de las mediciones de umbral, velocidad y precisión. Se supone que un aumento de la frecuencia cardiaca indica que el participante está esforzándose más. De modo similar, se supone que un aumento en la velocidad del parpadeo implica que la legibilidad se reduce. Sin embargo, en ambos casos, otros factores (de confusión) pueden estar influyendo en la medición.

Las mediciones del movimiento ocular, también conocidas como rastreo ocular, han sobrevivido como técnica, la que actualmente utiliza tecnología mucho más sofisticada que la empleada a comienzos del siglo XX (véase el Capítulo 3: Perspectiva histórica). La técnica que hoy día se utiliza más ampliamente, registra los movimientos oculares dirigiendo un haz de luz invisible hacia el ojo, cuyo reflejo es captado en un dispositivo de detección. A partir de esto, es posible calcular hacia dónde la persona dirige su mirada. Las mediciones normales incluyen:

frecuencia o número de fijaciones (pausas)
duración de las fijaciones
número de regresiones

La ventaja de registrar estas medidas individuales, en lugar de la velocidad total de lectura, es que puede haber una compensación entre el número de fijaciones y su duración. Es posible hacer numerosas fijaciones, pero por periodos muy cortos, o por el contrario, hacer pocas fijaciones más prolongadas. Y es posible que ambas den como resultado el mismo tiempo total de lectura. Las regresiones indican una dificultad en la identificación de letras o palabras, requiriéndose retrocesos para volver a fijar la vista en el segmento pertinente del texto. Otra ventaja de esta técnica es que permite medir la lectura de corrido en una situación razonablemente natural. Sin embargo, no es del todo natural, ya que los participantes normalmente necesitan usar dispositivos sujetados a la cabeza. Además, el rastreo ocular se emplea para explorar regiones de interés (ROI, por sus siglas en inglés) específicas en anuncios o páginas web para averiguar qué atrae la atención.

Aunque se introdujeron para medir las emociones del lector, los cambios en la expresión facial también pueden indicar el grado de esfuerzo ejercido y, en consecuencia, la facilidad de lectura (Larson, Hazlett, Chaparro y Picard, 2006). La electromiografía facial (EMG) mide cambios minúsculos en la actividad eléctrica de los músculos. Por ejemplo, se cree que el músculo que controla la sonrisa del ojo es más bien un proceso inconsciente y, por lo tanto, puede reflejar emoción o esfuerzo que tal vez el sujeto no reporte (léase sobre los juicios subjetivos más adelante).

Como se mencionó anteriormente, al describir el modo en que leemos diferentes tipos de letra (Capítulo 2), la tecnología de los electroencefalogramas (EEG) se ha aplicado recientemente en la investigación del reconocimiento de letras. Aunque los objetivos de esta investigación no eran investigar cuestiones de legibilidad, se descubrieron diferencias en el nivel de actividad neuronal para tipografías que produjeron legibilidad baja y alta. Por consiguiente, este método puede ser un medio potencial para medir la actividad cerebral, con el fin de inferir la manera en que las variables tipográficas influyen en la legibilidad.

Juicios subjetivos

En este procedimiento, se pide a los participantes que opinen sobre diferentes ejemplos de material de acuerdo con un criterio particular. De esta manera se ha medido la fatiga visual, pidiendo a las personas que califiquen su fatiga en una escala que va de ninguna molestia a incomodidad extrema. También se ha estimado la carga de trabajo mental o percibida utilizando también el índice de carga de tareas de la NASA (NASA-TLX). Dado que estas estimaciones se pueden ver influenciadas por otros factores, una medida más confiable es evaluar la fatiga visual objetivamente (con una medición fisiológica). Se ha logrado empleando equipos que pueden medir simultáneamente el cambio pupilar, el ajuste de enfoque y los movimientos oculares.

Una manera común de emplear juicios subjetivos en un estudio es preguntando a los participantes qué material de lectura consideran más sencillo, o cuál prefieren. Estos juicios se combinan a menudo con otros métodos, tales como velocidad y exactitud de la lectura. El procedimiento puede abarcar desde pedir al participante que categorice o califique una serie de alternativas, hasta pedirle que haga comparaciones de pares. (Panel 4.5).

Panel 4.5: Diferentes maneras de recopilar juicios subjetivos

Categorización

La categorización implica pedir a un participante que ponga una serie de ejemplos de material de lectura (digamos, 8) en un orden que vaya desde 1, que designa a la lectura más fácil, hasta 8, la más difícil de leer. Este método es apto si no hay que categorizar demasiados ejemplos. Hacer comparaciones de este tipo llega a ser bastante arduo si hay alrededor de 10 o más ejemplos.

Calificación

Es posible que resulte más fácil calificar que categorizar cuando hay demasiados ejemplos, ya que el participante da una calificación a cada muestra individual, sin tener que comparar todas las muestras en conjunto. Los participantes pueden hacer comparaciones cuando califiquen, pero éstas no constituyen un requisito. La escala de calificación puede tener diferentes rangos, por ejemplo: del 1 al 5, o del 1 al 7, en donde 1 podría indicar ‘de muy fácil lectura’ y 5 (ó 7), ‘de muy difícil lectura’. Esta técnica difiere de la categorización, a pesar de que el juicio subjetivo parezca muy similar, debido a que no hay necesidad de poner en orden los ejemplos.

Y por supuesto, debemos percatarnos de que los participantes variarán en función de su manera de emplear una escala de calificación. Hay quienes tal vez utilicen toda la escala, es decir, del 1 al 7; otros quizás no usen los extremos para que al ejemplo que piensan que es el más fácil de leer, puedan darle un 2 ó 3, pues no consideran que sea ‘muy fácil de leer’. Por esta razón, los investigadores ocasionalmente exhortan a los participantes a que utilicen toda la escala.

Si la escala tiene un rango que sea un número impar (es decir, 5 ó 7), permite una calificación media neutral que no es “ni fácil ni difícil de leer” o “aceptable”. Algunos investigadores prefieren emplear una escala de calificación de rango par para evitar una calificación neutral, acaso por su parecido a la respuesta “No sé”. Una calificación media no es exactamente lo mismo que ‘No sé’. Mientras se hagan distinciones entre los ejemplos (es decir, se den diferentes calificaciones), la escala cumple con su cometido. Se cotejan los resultados de todos los participantes para ver si concuerdan.

Una escala diferencial semántica es un tipo específico de escala en que pueden emplearse adjetivos para calificar la idoneidad de ciertos tipos de letra para ciertos propósitos (véase la Figura 4.9). Los dos extremos de la escala (de 5 ó 7 puntos) están marcados con significados opuestos, por ejemplo: 1 indica fuerte y 7, débil; 1 indica barato y 7, caro. Se da a los participantes un conjunto de escalas que emplean una gran diversidad de pares de adjetivos, y por medio de una técnica estadística (análisis de factores) se determina un número menor de conceptos que engloban a todas las demás calificaciones de adjetivos. Estos conceptoss describen la naturaleza de los tipos de letra.

Figura 4.9: Escalas diferenciales semánticas para dos dimensiones. Se pide al participante que seleccione el círculo que mejor representa su juicio.

Comparaciones de pares

Otra manera de facilitar a los participantes la tarea de comparar un gran número de muestras, es comparando por pares, en lugar de comparar todo el conjunto a la vez (categorización). Cada muestra se compara con cada una de las demás, lo que implica un número bastante grande de comparaciones. Sin embargo, para adquirir una mayor confianza resulta más fácil decir que A es más fácil de leer que B, y que B es más fácil de leer que C, etc., que poner un conjunto grande en un orden categórico. Además, este método detecta cualquier incertidumbre o incongruencia, como el caso de que un participante respondiera:

A es más fácil de leer que B
B es más fácil de leer que C
C es más fácil de leer que A

ahí está siendo incongruente, lo cual podría tomarse como falta de opiniones sólidas acerca de las diferencias. Para un experimentador, puede resultar tentador incluir la opción de ‘No sé’ al emplear comparaciones de pares. Aconsejo no utilizarla, pues las incongruencias revelaran dicha incertidumbre sin dar a los participantes la posibilidad de eludir la respuesta con “No sé”. Como participante, puede ser bastante tentador usar “No sé” en demasiadas ocasiones. Con las comparaciones de pares, a diferencia de una escala de calificación, no es de gran ayuda tener respuestas de “No sé” ya que sería pérdida de datos.

Resumen

Se considera como positivo el hecho de que exista una variedad de métodos para evaluar la legibilidad, ya que éstos pueden tener diferentes aplicaciones o pueden combinarse dentro del mismo estudio. Sin embargo, se ha cuestionado que los estudios en base a letras o palabras individuales puedan informarnos sobre la lectura en la vida cotidiana. Resulta atractiva la tendencia a desestimar los resultados de las mediciones de umbral de los caracteres individuales, pero debemos recordar que la lectura comienza con la identificación de caracteres individuales. Cuando no es posible identificar fácilmente los caracteres individuales, seguramente habrá un problema en la lectura. Además, con frecuencia es más fácil encontrar diferencias al utilizar mediciones de umbral que al emplear medidas que se aproximan más al proceso de lectura en la vida diaria. Resulta bastante inútil defender el uso de un método que probablemente no sea suficientemente sensible para detectar diferencias de legibilidad, asumiendo que estas diferencias existan. Además, no es factible estudiar integralmente la experiencia natural de la lectura, la que se verá influida por diversas variables.

No obstante, debemos estar conscientes de las limitaciones de los métodos que no involucran la lectura de texto continuo. Al mostrar letras o palabras individualmente, se modifica el entorno de lectura, imposibilitando que se evalúen los efectos de muchas variables tipográficas. Así, ya no podemos probar los efectos al cambiar la separación entre palabras, la longitud de línea, la separación entre líneas, el número de columnas, la alineación, los márgenes y los encabezados. Si deseamos investigar estos aspectos de la tipografía, es probable que sea necesario aproximarnos a condiciones más naturales de lectura.

Así mismo, los objetivos del estudio orientarán la elección del método. Debemos hacer una clara distinción entre la evaluación de alternativas como parte del proceso de diseño, y los estudios de investigación que están destinados a informar a investigadores y diseñadores. Al evaluar el valor, la idoneidad, la validez y la fiabilidad de cualquier estudio, el contexto determinará la manera y el objeto de la medición.

Legibilidad

4. ¿Qué y cómo se mide?