Después de haber realizado las preguntas, de llenar los cuestionarios, tenemos una gran cantidad de datos. ¿Qué se hace con ellos?
La serie sobre encuestas continúa. Comenzamos por el principio, preguntándonos cómo se plantea una pregunta de investigación. Hemos hablado también de las diferentes maneras de definir la muestra de personas a las que aplicaremos las preguntas. Y recientemente les conté cómo se aplican esas preguntas en los operativos de campo. Ahora, después de haber realizado las preguntas, de llenar los cuestionarios, tenemos una gran cantidad de datos. ¿Qué se hace con ellos? Ese es el tema de esta nueva entrega en la serie que hemos pensado para que conozcan cómo funcionan y cuáles son los componentes de estos instrumentos para conocer la opinión de las personas sobre diversos temas.
Hay que decir, primero que nada, que desde antes de recabar los datos se tiene que tener un plan para saber qué hacer con ellos. Desde el diseño del cuestionario y la selección de la muestra, también se tiene que considerar el modo en el que se ordenarán las respuestas que se anticipan. Al tener claros esos detalles -de qué modo se catalogarán, cómo se procesarán los diferentes tipos de respuestas, qué programas estadísticos y qué tipo de reporte final se va a generar- el proceso se volverá mucho más eficiente y se minimizarán los potenciales errores. Esta planeación previa implica cuestiones tan básicas como definir si se contarán las negativas a responder como “no sabe” o como “no responde”, o si se dejarán fuera de la cuenta. También tiene que ver con considerar si las respuestas serán dadas para que las personas escojan o si habrá preguntas que requieran respuestas abiertas, o el modo en el que se identificará a quienes participen para no identificarlos por nombre o algún otro dato no anónimo.
Una vez recolectados los datos después de la operación de campo, el proceso regresa a los teclados y las pantallas. Hay que procesar toda esa información. Ese proceso implica varios pasos que requieren mucha meticulosidad y rigor, de otro modo es sencillo perder el orden. En general, son tres grandes pasos que hay que realizar con los datos para la mayoría de los modelos de encuesta que hayamos elegido –telefónica, en persona, en línea. Primero, los datos deben organizarse y limpiarse. Después deben analizarse para generar las tablas y los datos. Y por último, hay que emplearlos para responder la pregunta de investigación inicial con la evidencia de los datos.
Al hablar de organizar los datos quiero decir que es preciso transformar las preguntas del cuestionario en variables identificadas y a cada una de las respuestas posibles se le asigna un valor numérico. La fase de planeación previa a la recolección de datos deberá tomar en cuenta cómo organizar las preguntas con respuestas abiertas si la encuesta las incluye. A grandes rasgos es el modo en el que se va llenando la base de datos. Las encuestas en línea suelen realizar este proceso de manera automática. Esas bases de datos, si no fueron creadas directamente en un programa de software estadístico, tendrán que importarse a uno para facilitar el procesamiento.
Junto con la creación de la base de datos, hay que realizar la importante tarea de crear el documento que incluya todos los metadatos y las definiciones. A este documento se le conoce como codebook o descriptor de variables. Servirá como una especie de glosario y referencia para quien quiera conocer a qué variable corresponden los códigos empleados y demás datos.
La no respuesta de preguntas en una operación de campo es un tema muy amplio, tanto que le dedicaré un texto en especial. Por ahora valga decir que hay que estar pendiente y decidir desde la fase de planeación cómo se considerarán estas no respuestas en la base de datos. Porque no todas las no respuestas son iguales. Lo mismo pasa con las preguntas para las que la respuesta es doble, o no es clara. Esto sucede sobre todo en las encuestas autoaplicadas –las encuestas en persona suelen cancelar esta problemática.
Una vez que estén los datos están vaciados en las bases de datos, el paso siguiente es limpiar esos datos. Hay que considerar que puede haber números que no corresponden, o datos faltantes, pequeñas inconsistencias y datos que, en las conversiones numéricas, terminan siendo improbables. Como ya he dicho, hay que poner especial atención en las preguntas con respuestas abiertas, cuando estas formen parte de la encuesta. Su conversión a valores numéricos implica un proceso en el que los programas estadísticos pueden ser muy útiles, pero existe el potencial para la aparición de errores, inconsistencias o faltantes y para eso también es preciso realizar la limpieza de datos.
A partir de este momento, comienza el emocionante proceso del análisis de los datos. Ese será el tema de una entrega próxima.