Chapter 4
Mary C. Dyson

4. ¿Qué y cómo se mide?

Diferentes tipos de pruebas e investigaciones

Es posible distinguir entre las pruebas que se realizan como parte del proceso de diseño y las pruebas de los productos terminados.

Pregunta: Reflexiona si has utilizado una evaluación formativa como parte de tu proceso de diseño. Por ejemplo, ¿has pedido a colegas o amigos que te hagan observaciones sobre distintos aspectos de un diseño tuyo?

Desafíos

Criterios cruciales

Los métodos utilizados para los tres primeros tipos de pruebas mencionados pueden ser menos formales que los utilizados para estudios de investigación. En algunas circunstancias, quizás no sea necesario cumplir con todos los criterios enumerados a continuación, o tal vez sean menos importantes. Sin embargo, resulta útil saber cuáles son los principales desafíos para llevar a cabo una investigación robusta que sea valiosa y relevante para investigadores y diseñadores.

Aunque los tres criterios se indican por separado, los tres se relacionan entre sí. Es posible que la solución a un desafío entre en conflicto con otro, por lo que se debe evaluar y determinar las prioridades.

Los criterios cruciales al diseñar un estudio son:

Condiciones de lectura

La validez ecológica no solo concierne a los profesionales del diseño, sino también a los psicólogos que realizan investigación aplicada. Sin embargo, las situaciones de lectura en los experimentos son a menudo artificiales y no representan la práctica de lectura cotidiana. Como se menciona en el Capítulo 2, la investigación ha examinado con frecuencia la lectura de letras o palabras individuales, en lugar de textos continuos. A menudo, la letra o la palabra se muestra solo por un corto periodo, y es posible que a los participantes en los estudios se les pida que respondan rápidamente. Además, se elimina el contexto, lo cual significa que:

Evidentemente, éstas no son condiciones cotidianas de lectura, pero hay razones convincentes para llevar a cabo un estudio de esta manera. Estas técnicas pueden ser necesarias para detectar diferencias muy pequeñas en el modo en que leemos, pues los lectores expertos pueden reconocer palabras muy rápidamente (en una fracción de segundo). Se necesita eliminar cualquier diferencia en la legibilidad, concentrándose en una parte del proceso de lectura y haciendo que el proceso sea lo suficientemente difícil para detectar el cambio. De esta manera, se logra que la medida sea sensible (uno de los tres criterios descritos anteriormente), pero a expensas de la validez ecológica. Aunque algunas investigaciones utilizan oraciones completas y párrafos, éstas quizás no siempre revelan las diferencias o tal vez se estén probando diferentes aspectos del proceso de lectura.

En particular, los diseñadores también pueden criticar los estudios que miden la velocidad de lectura, afirmando que ésta no es un tema de importancia para ellos. Además, la velocidad de lectura, o la velocidad de respuesta a una sola letra o palabra, son técnicas usadas para detectar pequeñas diferencias, y pueden usarse porque son medidas razonablemente sensibles. No es la velocidad en sí lo importante, sino lo que ésta revela; por ejemplo, la facilidad de lectura o el reconocimiento.

Material utilizado en los estudios

Otra crítica que se relaciona con las condiciones artificiales de los experimentos es la escasa selección de material tipográfico, por ejemplo, la tipografía o la manera en que se compone el texto (espaciamiento, longitud de la línea, etc.). La objeción a tal material es que los diseñadores nunca crearían material de esta forma y, por lo tanto, resulta inútil someterlo a prueba; los resultados no servirán a la práctica del diseño. En algunos casos, no hay razón para usar tipografía pobre en el material empleado en un estudio, más que la falta de conocimientos sobre diseño del investigador. Es posible que el investigador no esté consciente de que esa no es una práctica normal. En otros casos, tal vez el investigador necesite controlar el diseño del material tipográfico para asegurar que los resultados sean válidos internamente. Si me interesase el efecto de la longitud de línea de texto, yo podría:

Comparison of line lengths of around 50 and 100 characters
per line
Figura 4.2: Comparación de longitud de líneas de aproximadamente 50 y 100 caracteres por línea (cpl), con ajustes a la separación entre líneas. El texto de menor longitud tiene un tipo de 10 puntos con una separación de 12 puntos; el texto más largo es de 10 puntos con separación de 14 puntos.
Comparison of line lengths of around 50 and 100 characters
per line
Figura 4.3: Comparación de longitud de líneas de texto de aproximadamente 50 y 100 caracteres por línea, sin ajustes a la separación entre líneas. En ambas longitudes se utiliza un tipo de 10 puntos con una separación de 12 puntos.

En estos dos ejemplos, existe un conflicto entre la validez interna, que asegura que el estudio se ha planificado correctamente, y la validez ecológica. Véase el Panel 4.2 para más detalles sobre el diseño del experimento.

Pregunta: ¿Te han convencido las razones que he dado en cuanto a la utilización de condiciones y material de prueba artificiales? Si no, ¿qué dudas te quedan?

Los datos de la Figura 4.4 se extrajeron de una enorme serie de estudios, en que los experimentadores incluyeron todas las combinaciones de longitudes de línea, separación entre líneas y diferentes tamaños de tipo. Actualmente, nadie realizaría pruebas a esta escala, ya que no se consideraría un enfoque viable ni eficiente. En cambio, las opciones se limitarían a las que se muestran en las Figuras 4.2 y 4.3,

Pregunta: Si te pidieran que asesoraras a un investigador que estuviera interesado en encontrar la longitud óptima de línea para lectura en pantalla, ¿cuál de las dos opciones anteriores recomendarías? ¿Por qué?

Comparación de tipografías

Un problema aún mayor surge cuando se incorpora más de un tipo de variación en el material de prueba. El ejemplo clásico es la comparación entre una tipografía serif con otra sans serif. Si se encontrara una diferencia en la velocidad de lectura, esto podría deberse a la presencia o ausencia de serifs, aunque también a otras formas en que los dos tipos de fuente difieren (por ejemplo, el contraste entre trazos gruesos y finos). Es posible que los investigadores no sean sensibles a las variables de confusión (que además cambian junto con la variable de interés); pero, su existencia puede invalidar las inferencias que se pueden extraer. Si nos interesa menos cuál de las características estilísticas de la tipografía contribuye a la legibilidad, y más al efecto global, los resultados pueden ser válidos.

Muchos estudios han comparado la legibilidad de diferentes fuentes a pesar de las posibles dificultades para decidir cómo hacer comparaciones válidas. Dado que se ha demostrado que diferentes características estilísticas de una tipografía afectan la legibilidad, las comparaciones deben considerar:

The word 'hand' set in different typefaces
Figura 4.5: En el par de la izquierda, se comparan Georgia de 24 puntos con Garamond de 24 puntos; Georgia parece ser bastante más grande. Para hacer que ambas parezcan de un tamaño similar, es necesario aumentar la Garamond a aproximadamente 29 puntos (par a la derecha).

Las colaboraciones interdisciplinarias han dado lugar a que diseñadores tipográficos hagan modificaciones experimentales de los tipos de letra (Recuadro 4.1). Este enfoque parecería proporcionar la solución ideal, pero requiere una contribución significativa de los diseñadores de tipografía.

Ilustración del material de prueba

Los diseñadores gráficos trabajan con material visual, y pueden sentirse frustrados al descubrir que muchos de los estudios publicados en revistas, no ilustran qué material fue utilizado en las pruebas. Por lo tanto, no nos queda más que imaginar lo que se presentó a los participantes. Esto puede reflejar que los investigadores dan prioridad a los resultados del estudio (ilustran datos en las gráficas). Sin embargo, algunas revistas impresas han impuesto restricciones, debido a consideraciones económicas. Actualmente, muchas revistas se publican en línea e incluyen versiones interactivas de los artículos, lo cual permite agregar material complementario. Esto ha dado como resultado la inclusión de más ilustraciones y una mayor transparencia en el reporte de los métodos, materiales y procedimientos utilizados en el estudio.

Familiaridad

Algunos autores opinan que los resultados de pruebas de legibilidad reflejan la familiaridad de los participantes con el material que se les presenta, según se señala en el Capítulo 1. Conforme a esta noción, es más fácil leer algo que uno ha estado acostumbrado a leer. Esto parece tener mucho sentido en la medida en que se mejora con la práctica. Sin embargo, esto también genera un problema significativo para los experimentadores. ¿Cómo podemos someter a prueba un tipo de letra diseñado recientemente contra las tipografías existentes, o proponer una diagramación inusual sin que el material nuevo quede en desventaja? Fundamentalmente, cuando la investigación sobre legibilidad confirma las prácticas existentes, basadas en el conocimiento tradicional del oficio, ¿podemos estar seguros de que estas prácticas son las óptimas? ¿y no podría solo tratarse de que son las formas que estamos más acostumbrados a leer? Este dilema fue planteado por Dirk Wendt al escribir sobre los criterios para juzgar la legibilidad (Wendt, 1970, p. 43).

La investigación de Beier y Larson (2013) que se describe con más detalle en el Capítulo 7, examina la familiaridad directamente, y no como una variable de confusión que causa problemas. Dicho estudio tiene como objetivo abordar una posible manera de mejorar los diseños existentes, sin quedar limitados por lo que hemos leído en el pasado.

Métodos

Resulta evidente que las herramientas utilizadas para medir la legibilidad han cambiado con el tiempo, sobre todo porque los dispositivos controlados por computadoras han suplido a los mecánicos. Los métodos anteriores se resumen en Spencer (1968) y se describen con más detalle en Tinker (1963, 1965) y (1965). A pesar de los cambios en la tecnología, muchos de los principios fundamentales siguen siendo los mismos, aunque actualmente utilizamos maneras diferentes de capturar los datos. Existen dos grandes categorías de métodos:

Umbral y medidas conexas

Como se describe en el Capítulo 1, para poder leer, primero debemos ser capaces de experimentar la sensación de imágenes (letras) en nuestra retina. Sabemos además, que leemos al identificar letras, que posteriormente combinamos para formar palabras (Capítulo 2). Sabiendo esto, tiene sentido medir la facilidad para identificar letras o palabras, con la posibilidad de variar la forma tipográfica (es decir, diferentes tipos de letra o tamaños). Una técnica utilizada es el método del umbral, que busca medir el primer momento en que podemos detectar e identificar una letra o palabra, lo que podría determinar la mayor distancia o el menor contraste, o el tipo de menor tamaño.

Las pruebas oculares por lo general se realizan de manera similar para obtener una medida de umbral de distancia. Cuando se evalúa nuestra vista, nos piden que leamos una tabla de Snellen en el que las letras disminuyen de tamaño en cada línea descendente (Figura 4.8). Nos detenemos en donde ya no podemos descifrar las letras, llegando así a nuestro umbral. Esta prueba examina la agudeza visual para las letras, utilizando letras sin relación alguna y un tiempo ilimitado de visualización.

Snellen eye chart
Figura 4.8: Un ejemplo de la tabla de agudeza visual de Snellen, nombrada en honor del oftalmólogo holandés en 1862. Las letras más pequeñas que se pueden leer con precisión indican la agudeza visual de un ojo (cada ojo se mide por separado). La fila inferior (9) corresponde a la visión 20/20, lo cual significa que las letras se pueden leer a una distancia de 20 pies (aprox. 6 metros).

La prueba visual utiliza un principio similar a los umbrales de distancia, excepto por la variación del tamaño del tipo, y que permanecemos sentados a la misma distancia de la tabla. El ángulo visual cambia en ambos casos, ya que depende del tamaño y la distancia (véase la Figura 3.2). En el procedimiento de la prueba de la vista, el ángulo visual disminuye hasta que ya no podemos leer las letras; el umbral de distancia mide un trabajo en la dirección opuesta, aumentando el ángulo visual hasta que podamos identificar la imagen.

Pregunta: Explica por qué la medida del umbral de distancia debe empezar con una imagen muy lejana para identificarla y, a continuación, se va acercando. Si no estás seguro/a, continúa leyendo para encontrar la respuesta.

Los informes sobre métodos más antiguos para evaluar la legibilidad incluyen descripciones de herramientas que medían umbrales y enfoques más generales al uso de umbrales:

El Panel 4.3 describe una manera sofisticada de utilizar el umbral para tener en cuenta las diferencias entre los lectores.

El método de exposición breve puede utilizarse para medir el umbral (cuánto tiempo se necesita para identificar una letra o una palabra) o para establecer un nivel adecuado de dificultad para cada participante. Antes de que las computadoras se utilizasen rutinariamente en experimentos, un taquistoscopio controlaba el tiempo de fijación presentando y luego eliminando la imagen. Hoy en día, esto se controla por medio de computadora y un ejemplo de presentación de exposición breve es la ‘Presentación Visual Serial Rápida’ (RSVP, por sus siglas en inglés). Se exhiben secuencialmente palabras individuales en la misma posición en una pantalla, lo cual implica que el participante no tiene que realizar movimientos oculares (sacádicos).

RSVP se ha utilizado en la investigación de la lectura desde 1970, pero recientemente se ha retomado como una técnica práctica para lectura en pantallas pequeñas, ya que la presentación secuencial ocupa un menor espacio. Además, la RSVP se ha desarrollado en aplicaciones para dispositivos móviles, promoviéndose como una técnica para aumentar la velocidad de lectura. El valor de la RSVP como método de investigación para evaluar la legibilidad, radica en que el experimentador puede ajustar la velocidad de presentación de una serie de palabras, las que pueden formar oraciones. Sin embargo, al igual que con algunas de las demás técnicas mencionadas con anterioridad, sólo es posible investigar variables tipográficas a nivel de letras y palabras (por ejemplo, tipos de letra, variantes tipográficas, tamaño de la letra, separación entre letras).

En los métodos anteriores relacionados con las mediciones de umbral, se suele solicitar al participante que identifique lo que ve (por ejemplo, una letra o una palabra). Estas respuestas comprenden ya sea los resultados (por ejemplo, número de respuestas correctas) o se registra la distancia/tiempo de exposición/excentricidad, lo que corresponde a un cierto nivel de respuestas correctas.

Medidas de velocidad y precisión

Como se mencionó en el Capítulo 3 y anteriormente en este capítulo, la velocidad de lectura es una forma común de medir la facilidad de lectura, aunque tal vez el interés principal de los diseñadores no sea facilitar una lectura más rápida. Si cuesta trabajo identificar las letras, hacemos más fijaciones de la vista (pausas) y la detenemos por más tiempo, lo que disminuye la velocidad de la lectura; probablemente requiera hacer un mayor esfuerzo.

Las medidas de velocidad a menudo se combinan con cierta medida de precisión; podemos referirnos a la precisión en:

Por lo tanto, es posible que la precisión rebase la mera captación correcta de letras o palabras e implique medidas de memoria o comprensión. Si lo que se prueba es el reconocimiento de letras o palabras, la precisión se puede medir junto con el tiempo de exposición. Dado que podemos sustituir la velocidad por la precisión cuando leemos, algunos investigadores combinan ambas medidas. Si decido leer muy rápidamente, es probable que recuerde y entienda menos del texto porque estoy sacrificando la velocidad y la precisión. Si se lee texto continuo, resulta importante incluir una prueba de comprensión para comprobar que se obtiene cierto nivel de entendimiento.

Pregunta: ¿Crees que sea más importante recordar o entender qué leer rápido? ¿Hay circunstancias en las que la velocidad sea más importante?

Medir la legibilidad por medio de la velocidad de lectura de texto continuo, puede ser similar a la situación de lectura habitual. Los investigadores han utilizado tanto lectura silenciosa como lectura en voz alta, aunque la lectura silenciosa tiende a ser más común. Si se lee en voz alta, es posible medir el número de palabras identificadas correctamente. Las medidas de comprensión para la lectura silenciosa incluyen:

Como investigador, he tenido que decidir qué medida de comprensión utilizaré. Al hacerlo, he sopesado la dificultad de preparar el material de la prueba contra la dificultad de calificar los resultados. La Tabla 4.1 resume mi evaluación de cada una de las medidas respecto a estas dos consideraciones. El Panel 4.4 explica las razones de mi evaluación e incluye indicaciones sobre algunas prácticas adecuadas al realizar un estudio.

Al comparar los resultados entre diferentes textos, con diferentes contenidos, las preguntas sobre cada texto deben tener un nivel de dificultad similar, y las respuestas deben estar en ubicaciones similares en los textos. Del mismo modo, al identificar errores, se requiere prestar atención cuidadosa a las palabras particularmente se cambien, a su posición y a la manera como son cambiadas. Se han desarrollado diversas pruebas estandarizadas que abordan estos temas:

Pregunta: ¿Cuál es la palabra que altera el significado en el reactivo siguiente?

Si mi padre hubiera sabido que yo iba a nadar, me lo habría prohibido. Se enteró después de que volví, y me hizo prometer que nunca volvería a patinar sin informárselo.

Pregunta: ¿Cuál es la palabra que altera el significado en el reactivo siguiente?

Moríamos por tomar unas buenas fotos de la bebé, así que para poder tomar unas cuando fuimos de paseo de campo, metimos la estufa en el coche.

Algunos autores se refieren a la velocidad de la lectura como “ritmo de trabajo”. Este término más genérico puede abarcar otros tipos de lectura, como leer rápidamente un texto para encontrar ciertas palabras (como cuando buscas una palabra en un diccionario o un párrafo en un texto impreso), leer por encima o llenar un formulario.

Mediciones fisiológicas

En los métodos descritos anteriormente, la medición es la respuesta del participante, o con qué rapidez responde, o algún aspecto relacionado con el material (por ejemplo, tiempo de exposición, distancia del material). Otro planteamiento consiste en tomar mediciones físicas de los participantes, incluyendo la frecuencia cardiaca, la velocidad del parpadeo involuntario y los movimientos oculares, los que se han descrito como procesos inconscientes (Pyke, 1926, p. 30) que son automáticos, mientras que somos conscientes de las mediciones de umbral, velocidad y precisión. Se supone que un aumento de la frecuencia cardiaca indica que el participante está esforzándose más. De modo similar, se supone que un aumento en la velocidad del parpadeo implica que la legibilidad se reduce. Sin embargo, en ambos casos, otros factores (de confusión) pueden estar influyendo en la medición.

Las mediciones del movimiento ocular, también conocidas como rastreo ocular, han sobrevivido como técnica, la que actualmente utiliza tecnología mucho más sofisticada que la empleada a comienzos del siglo XX (véase el Capítulo 3: Perspectiva histórica). La técnica que hoy día se utiliza más ampliamente, registra los movimientos oculares dirigiendo un haz de luz invisible hacia el ojo, cuyo reflejo es captado en un dispositivo de detección. A partir de esto, es posible calcular hacia dónde la persona dirige su mirada. Las mediciones normales incluyen:

La ventaja de registrar estas medidas individuales, en lugar de la velocidad total de lectura, es que puede haber una compensación entre el número de fijaciones y su duración. Es posible hacer numerosas fijaciones, pero por periodos muy cortos, o por el contrario, hacer pocas fijaciones más prolongadas. Y es posible que ambas den como resultado el mismo tiempo total de lectura. Las regresiones indican una dificultad en la identificación de letras o palabras, requiriéndose retrocesos para volver a fijar la vista en el segmento pertinente del texto. Otra ventaja de esta técnica es que permite medir la lectura de corrido en una situación razonablemente natural. Sin embargo, no es del todo natural, ya que los participantes normalmente necesitan usar dispositivos sujetados a la cabeza. Además, el rastreo ocular se emplea para explorar regiones de interés (ROI, por sus siglas en inglés) específicas en anuncios o páginas web para averiguar qué atrae la atención.

Aunque se introdujeron para medir las emociones del lector, los cambios en la expresión facial también pueden indicar el grado de esfuerzo ejercido y, en consecuencia, la facilidad de lectura (Larson, Hazlett, Chaparro y Picard, 2006). La electromiografía facial (EMG) mide cambios minúsculos en la actividad eléctrica de los músculos. Por ejemplo, se cree que el músculo que controla la sonrisa del ojo es más bien un proceso inconsciente y, por lo tanto, puede reflejar emoción o esfuerzo que tal vez el sujeto no reporte (léase sobre los juicios subjetivos más adelante).

Como se mencionó anteriormente, al describir el modo en que leemos diferentes tipos de letra (Capítulo 2), la tecnología de los electroencefalogramas (EEG) se ha aplicado recientemente en la investigación del reconocimiento de letras. Aunque los objetivos de esta investigación no eran investigar cuestiones de legibilidad, se descubrieron diferencias en el nivel de actividad neuronal para tipografías que produjeron legibilidad baja y alta. Por consiguiente, este método puede ser un medio potencial para medir la actividad cerebral, con el fin de inferir la manera en que las variables tipográficas influyen en la legibilidad.

Juicios subjetivos

En este procedimiento, se pide a los participantes que opinen sobre diferentes ejemplos de material de acuerdo con un criterio particular. De esta manera se ha medido la fatiga visual, pidiendo a las personas que califiquen su fatiga en una escala que va de ninguna molestia a incomodidad extrema. También se ha estimado la carga de trabajo mental o percibida utilizando también el índice de carga de tareas de la NASA (NASA-TLX). Dado que estas estimaciones se pueden ver influenciadas por otros factores, una medida más confiable es evaluar la fatiga visual objetivamente (con una medición fisiológica). Se ha logrado empleando equipos que pueden medir simultáneamente el cambio pupilar, el ajuste de enfoque y los movimientos oculares.

Una manera común de emplear juicios subjetivos en un estudio es preguntando a los participantes qué material de lectura consideran más sencillo, o cuál prefieren. Estos juicios se combinan a menudo con otros métodos, tales como velocidad y exactitud de la lectura. El procedimiento puede abarcar desde pedir al participante que categorice o califique una serie de alternativas, hasta pedirle que haga comparaciones de pares. (Panel 4.5).

Resumen

Se considera como positivo el hecho de que exista una variedad de métodos para evaluar la legibilidad, ya que éstos pueden tener diferentes aplicaciones o pueden combinarse dentro del mismo estudio. Sin embargo, se ha cuestionado que los estudios en base a letras o palabras individuales puedan informarnos sobre la lectura en la vida cotidiana. Resulta atractiva la tendencia a desestimar los resultados de las mediciones de umbral de los caracteres individuales, pero debemos recordar que la lectura comienza con la identificación de caracteres individuales. Cuando no es posible identificar fácilmente los caracteres individuales, seguramente habrá un problema en la lectura. Además, con frecuencia es más fácil encontrar diferencias al utilizar mediciones de umbral que al emplear medidas que se aproximan más al proceso de lectura en la vida diaria. Resulta bastante inútil defender el uso de un método que probablemente no sea suficientemente sensible para detectar diferencias de legibilidad, asumiendo que estas diferencias existan. Además, no es factible estudiar integralmente la experiencia natural de la lectura, la que se verá influida por diversas variables.

No obstante, debemos estar conscientes de las limitaciones de los métodos que no involucran la lectura de texto continuo. Al mostrar letras o palabras individualmente, se modifica el entorno de lectura, imposibilitando que se evalúen los efectos de muchas variables tipográficas. Así, ya no podemos probar los efectos al cambiar la separación entre palabras, la longitud de línea, la separación entre líneas, el número de columnas, la alineación, los márgenes y los encabezados. Si deseamos investigar estos aspectos de la tipografía, es probable que sea necesario aproximarnos a condiciones más naturales de lectura.

Así mismo, los objetivos del estudio orientarán la elección del método. Debemos hacer una clara distinción entre la evaluación de alternativas como parte del proceso de diseño, y los estudios de investigación que están destinados a informar a investigadores y diseñadores. Al evaluar el valor, la idoneidad, la validez y la fiabilidad de cualquier estudio, el contexto determinará la manera y el objeto de la medición.