DATOS SINTÉTICOS · 07 mayo 2026

Datos sintéticos: entre la eficiencia analítica y la responsabilidad investigadora

A veces una va a un evento pensando que escuchará una nueva declinación del mismo discurso sobre la inteligencia artificial —más velocidad, más automatización, más promesas— y, sin embargo, sale con la cabeza llena de preguntas relevantes. Eso me ocurrió el pasado 6 de mayo, en la jornada “Datos sintéticos: expectativas y realidades”, organizada por Insights + Analytics España en la EAE Business School de Madrid.

Fue una sesión especialmente interesante porque abordó un tema complejo, muy actual y todavía lleno de zonas grises, pero lo hizo con algo que no siempre abunda cuando hablamos de IA: criterio, claridad y anclaje en casos reales. No se trató de celebrar la tecnología por la tecnología, ni de alimentar el entusiasmo acrítico; al contrario, el encuentro permitió pensar con los pies en el suelo qué pueden aportar los datos sintéticos a la investigación de mercados, cuáles son sus límites y qué papel debe seguir ocupando el criterio humano en todo este proceso.

Quizá por eso me pareció importante recoger algunas de las ideas principales para quienes no pudisteis asistir. Estamos en un momento que podríamos llamar de metainvestigación: no solo investigamos mercados, marcas o personas, sino que también estamos obligados a investigar nuestras propias herramientas, nuestras fuentes de información, nuestros procedimientos y los nuevos intermediarios tecnológicos que empiezan a formar parte del proceso de análisis.

Para enriquecer esta lectura, al final del post he incluido un resumen en audio generado con NotebookLM a partir de las ponencias, así como una infografía que sintetiza los principales aprendizajes del evento. Me parecía una forma coherente —y casi inevitable— de poner en práctica, con transparencia, parte de lo que allí se debatió.

1. Datos sintéticos: no son “datos inventados”, sino datos construidos

La base conceptual de la jornada la estableció Eduard Nafría, ingeniero informático y doctor en Estadística, quien explicó que los datos sintéticos no deben entenderse como una invención arbitraria, sino como una representación artificial de la realidad generada a partir de patrones, relaciones y estructuras identificadas previamente en datos reales.

Esta distinción es importante. Porque “sintético” no significa necesariamente “falso”, del mismo modo que lo artificial no siempre implica una pérdida de función. Nafría utilizó una analogía muy clarificadora: el césped artificial o el parqué no son “naturales”, pero pueden cumplir una función específica de manera eficaz. La pregunta, por tanto, no sería si un dato sintético es “real” en sentido estricto, sino para qué sirve, bajo qué condiciones se ha generado y qué decisiones permite sostener.

Ahora bien, el punto clave está en el anclaje. Para que un dato sintético tenga valor, debe partir de datos reales de calidad. Sin ese vínculo con la realidad, el modelo corre el riesgo de convertirse en una arquitectura formalmente elegante, pero metodológicamente débil. En otras palabras: si la materia prima es frágil, la sofisticación del modelo no la convierte mágicamente en evidencia sólida.

2. Casos de uso: de la biometría a la estrategia creativa

Uno de los valores del evento fue que no se quedó en la teoría. Se presentaron casos concretos que mostraron cómo los datos sintéticos ya están siendo utilizados en diferentes ámbitos de la investigación, la calidad del dato y la publicidad.

En el caso de Neurologyca, presentado por Juan Graña, vimos cómo los datos sintéticos pueden utilizarse para mejorar la calidad biométrica cuando la señal de entrada es deficiente. Por ejemplo, cuando hay problemas de iluminación, ángulo o captura, el sistema puede inferir y completar información a partir de patrones previamente aprendidos, mejorando la fiabilidad del dato. Aquí lo sintético funciona como una especie de “prótesis analítica”: no sustituye la realidad, pero ayuda a completar sus zonas borrosas.

Por su parte, Ipsos, a través de Jame Ferrand-Gutiérrez, presentó el modelo ARI, orientado a combatir uno de los grandes problemas de la investigación cuantitativa actual: la fatiga del encuestado. Mediante procesos de imputación, el sistema permite que las personas respondan a bloques clave del cuestionario mientras la IA completa el resto a partir de patrones de respuesta, reduciendo la duración de la encuesta y manteniendo niveles de precisión agregada muy relevantes. Aquí la pregunta de fondo es especialmente interesante: ¿hasta dónde podemos reducir la carga de respuesta sin empobrecer la calidad de la información?

El tercer caso, presentado por Raquel Espantaleón de Sra. Rushmore, llevó el debate al terreno de la estrategia creativa. La agencia está trabajando con agentes especializados —por ejemplo, perfiles sintéticos que pueden actuar como sociólogos, estrategas o perfiles de contraste— para retar briefings y explorar hipótesis antes de llegar a determinadas fases del proceso creativo. Sin embargo, Raquel también introdujo una advertencia fundamental: la IA puede analizar muy bien el pasado, identificar patrones y devolver consistencia, pero todavía está lejos de igualar la imaginación disruptiva, la intuición cultural y la capacidad de ruptura que requiere la creatividad publicitaria más potente.

Y ahí aparece una tensión muy interesante: la IA puede ayudarnos a pensar más rápido, pero no necesariamente a pensar de forma más inesperada.

3. El riesgo del aplanamiento: cuando la media borra lo valioso

Uno de los puntos más relevantes del debate fue el riesgo de aplanamiento. La IA tiende a generar resultados coherentes, plausibles y, muchas veces, promedio. Y aunque esto puede ser útil en determinados contextos, también puede convertirse en un problema cuando lo que buscamos no es la regularidad, sino la diferencia.

En investigación cualitativa sabemos que lo más valioso no siempre está en el centro de la distribución. Muchas veces aparece en los bordes: en una contradicción, en una frase aparentemente menor, en una imagen compartida por una persona, en una desviación, en una emoción difícil de verbalizar o en un significado que todavía no ha encontrado una forma estable. La innovación, con frecuencia, no nace de la media, sino de aquello que incomoda a la media.

Por eso, cuando trabajamos con datos sintéticos, la pregunta no puede limitarse a si el modelo reproduce adecuadamente los patrones dominantes. También debemos preguntarnos qué deja fuera, qué suaviza, qué normaliza y qué puede llegar a borrar. Porque si el dato sintético amplifica los sesgos del dato original o reduce la complejidad de los comportamientos humanos a una versión demasiado ordenada de la realidad, el riesgo no es solo técnico: es interpretativo.

4. Más allá del hype: eficiencia, privacidad y criterio

El consenso general de la jornada fue claro: los datos sintéticos tienen un enorme potencial. Pueden ayudar a ampliar muestras pequeñas, proteger la privacidad, reducir la carga de los participantes, completar información, explorar escenarios y mejorar procesos de análisis. Pero ese potencial no elimina la necesidad de supervisión humana; al contrario, la vuelve todavía más importante.

Cuanto más sofisticadas son las herramientas, más necesario resulta entender cómo funcionan, qué supuestos incorporan, con qué datos se han entrenado o generado, qué margen de error tienen y qué tipo de decisiones estamos dispuestos a tomar a partir de ellas.

En este sentido, el papel del investigador o investigadora no desaparece. Evoluciona. Nos convertimos, cada vez más, en guardianes de la calidad del dato, pero también de la calidad de la interpretación. Nuestra función no será únicamente producir información, sino evaluar la consistencia de los procesos, contextualizar los resultados, identificar riesgos, formular mejores preguntas y decidir cuándo la IA puede ayudar y cuándo el contacto humano directo sigue siendo irrenunciable.

5. El investigador como mediador entre tecnología y sentido

La gran cuestión no es si los datos sintéticos son buenos o malos. Como casi siempre en investigación, la respuesta depende del contexto, del objetivo, del diseño metodológico y del uso que hagamos de ellos.

Lo que sí parece evidente es que estamos entrando en una etapa en la que la investigación deberá dialogar con nuevas formas de producción de información. Y ese diálogo exige una competencia que no es solo técnica, sino también epistemológica y ética: saber qué tipo de realidad estamos representando, qué parte estamos simulando, qué parte estamos perdiendo y qué nivel de confianza podemos otorgar a aquello que el sistema nos devuelve.

Quizá el verdadero reto no sea aprender a generar datos sintéticos, sino aprender a no confundir verosimilitud con verdad, eficiencia con profundidad, ni automatización con comprensión.

🎧 Resumen en audio del evento

Aquí puedes escuchar el resumen generado con NotebookLM a partir de las ponencias del evento:

“Datos sintéticos frente al comportamiento humano”

Una nota final

Como no podía ser de otra manera en un post sobre datos sintéticos e inteligencia artificial, este resumen ha sido elaborado con la ayuda de IA, concretamente con NotebookLM, a partir de las notas y materiales del evento. Me parecía una forma interesante de poner en práctica lo que se debatió ese día: utilizar la tecnología como apoyo, pero manteniendo el criterio, la revisión y la responsabilidad final en manos humanas.

No quiero cerrar sin agradecer a Victoria Scarpato, Jaime Agulló y a todo el equipo de Insights + Analytics España la organización de una jornada tan necesaria, así como a los ponentes por la claridad con la que abordaron un tema complejo y lleno de implicaciones para nuestro sector.

Ojalá se repitan más espacios así: menos ruido, más pensamiento; menos promesa, más método; menos fascinación acrítica y más conversación rigurosa sobre lo que viene.

¿Seguimos la conversación en LinkedIn?

Alejandra Borcel