Es fácil malinterpretar y usar mal uno de los términos más comunes e importantes en la investigación académica: significación estadística. Creamos esta hoja de consejos para ayudar a los periodistas a evitar algunos de los errores más comunes, que incluso los investigadores capacitados cometen a veces.
Cuando los académicos analizan datos, buscan patrones y relaciones entre las variables que están estudiando. Por ejemplo, podrían observar datos sobre accidentes en parques infantiles para determinar si los niños con ciertas características tienen más probabilidades que otros de sufrir lesiones graves. Un análisis estadístico de alta calidad incluirá cálculos separados que los investigadores usan para determinar la importancia estadística, una forma de evidencia que indica qué tan consistentes son los datos con una hipótesis de investigación.
La importancia estadística es un concepto altamente técnico y matizado, pero los periodistas que cubren investigaciones deben tener una comprensión básica de lo que representa. Los investigadores de salud Steven Tenny e Ibrahim Abdelgawad enmarcan la importancia estadística de esta manera: “En la ciencia, los investigadores nunca pueden probar ninguna afirmación, ya que existen infinitas alternativas sobre por qué puede haber ocurrido el resultado. Solo pueden tratar de refutar una hipótesis específica”.
Los investigadores intentan refutar lo que se llama la hipótesis nula, que es “típicamente la declaración inversa de la hipótesis”, escriben Tenny y Abdelgawad. La significación estadística indica qué tan inconsistentes son los datos que se examinan con la hipótesis nula.
Si los investigadores que estudian los accidentes en el patio de recreo plantean la hipótesis de que los niños menores de 5 años sufren lesiones más graves que los niños mayores, la hipótesis nula podría ser que no existe una relación entre la edad del niño y las lesiones en el patio de recreo. Si un análisis estadístico descubre una relación entre las dos variables y los investigadores determinan que esa relación es estadísticamente significativa, los datos no son consistentes con la hipótesis nula.
Para ser claros, la significación estadística es evidencia utilizada para decidir si rechazar o no rechazar la hipótesis nula. Obtener un resultado estadísticamente significativo no prueba nada.
Aquí hay algunas otras cosas que los periodistas deben saber sobre la importancia estadística antes de informar sobre investigaciones académicas:
1. En la investigación académica, significativo ≠ importante.
A veces, los periodistas asumen erróneamente que los hallazgos de investigación descritos como “significativos” son importantes o dignos de mención, de interés periodístico. Eso normalmente no es correcto. Para reiterar, cuando los investigadores llaman a un resultado “estadísticamente significativo” o simplemente “significativo”, están indicando qué tan consistentes son los datos con su hipótesis de investigación.
Vale la pena señalar que un hallazgo puede ser estadísticamente significativo pero tener poca o ninguna importancia clínica o práctica. Supongamos que los investigadores concluyen que un nuevo fármaco reduce drásticamente el dolor de muelas, pero solo durante unos minutos. O que los estudiantes que completan un costoso programa de tutoría obtengan puntajes más altos en el examen de ingreso a la universidad SAT, pero solo dos puntos más, en promedio. Aunque estos hallazgos pueden ser significativos en un sentido matemático, no son muy significativos en el mundo real.
2. Los investigadores pueden manipular el proceso para medir la importancia estadística.
Los investigadores utilizan un software sofisticado para analizar los datos. Para cada patrón o relación detectada en los datos, por ejemplo, una variable aumenta cuando otra disminuye, el software calcula lo que se conoce como valor de probabilidad o valor p.
Los valores de p varían de 0 a 1. Si un valor de p cae por debajo de cierto umbral, los investigadores consideran que el patrón o la relación son estadísticamente significativos. Si el valor p es mayor que el límite, ese patrón o relación no es estadísticamente significativo. Es por eso que los investigadores esperan valores p bajos.
En términos generales, los valores de p inferiores a 0,05 se consideran estadísticamente significativos.
“Los valores P son los guardianes de la importancia estadística”, escribe la escritora científica Regina Nuzzo , quien también es profesora de estadística en la Universidad de Gallaudet en Washington DC, en su hoja de consejos, ” Consejos para comunicar la importancia estadística “.
Ella agrega, “¿Qué es lo más importante a tener en cuenta? Que usamos valores p para alertarnos sobre resultados de datos sorprendentes, no para dar una respuesta final sobre nada”.
Los periodistas deben entender que los valores p no son la probabilidad de que la hipótesis sea cierta. Los valores P tampoco reflejan la probabilidad de que las relaciones en los datos que se estudian sean el resultado del azar. La Asociación Estadounidense de Estadística advierte contra la repetición de estos y otros errores en su “ Declaración sobre la importancia estadística y los valores P ”.
Y los valores de p se pueden manipular. Una forma de manipulación es el p-hacking , cuando un investigador “analiza persistentemente los datos, de diferentes maneras, hasta que se obtiene un resultado estadísticamente significativo”, explica la psiquiatra Chittaranjan Andrade , profesora principal del Instituto Nacional de Salud Mental y Neurociencias de la India. , en un artículo de 2021 en The Journal of Clinical Psychiatry.
Agrega que “el análisis se detiene cuando se obtiene un resultado significativo o cuando el investigador se queda sin opciones”.
La piratería informática incluye:
•Detener un estudio o experimento para examinar los datos y luego decidir si recopilar más.
•Recopilación de datos después de que finaliza un estudio o experimento, con el objetivo de cambiar el resultado.
•Aplazar las decisiones que podrían influir en los cálculos, como incluir valores atípicos, hasta después de que se hayan analizado los datos.
Como ejemplo del mundo real, muchos medios de comunicación informaron sobre los problemas encontrados en los estudios realizados por el investigador de la Universidad de Cornell, Brian Wansink , quien anunció su retiro poco después de JAMA, la publicación insignia de la Asociación Médica Estadounidense, y dos publicaciones afiliadas se retractaron de seis de sus artículos en 2018.
Stephanie Lee , reportera científica de BuzzFeed News, describió los correos electrónicos entre Wansink y sus colaboradores en el Laboratorio de Alimentos y Marcas de Cornell que muestran que “discutieron e incluso bromearon sobre la extracción exhaustiva de conjuntos de datos para obtener resultados impresionantes”.
3. Los investigadores enfrentan una intensa presión para producir resultados estadísticamente significativos.
Los investigadores construyen sus carreras en gran medida sobre la frecuencia con la que se publica su trabajo y el prestigio de las revistas académicas que lo publican. “’Publicar o perecer’ está tatuado en la mente de todos los académicos” , escriben Ione Fine , profesora de psicología en la Universidad de Washington, y Alicia Shen , estudiante de doctorado allí, en un artículo de marzo de 2018 en The Conversation. “Le guste o lo deteste, publicar en revistas de alto perfil es la vía rápida para acceder a puestos en prestigiosas universidades con ilustres colegas y abundantes recursos, premios célebres y abundantes subvenciones”.
Debido a que las revistas académicas a menudo dan prioridad a la investigación con resultados estadísticamente significativos, los investigadores suelen centrar sus esfuerzos en esa dirección. Múltiples estudios sugieren que es más probable que las revistas publiquen artículos con hallazgos estadísticamente significativos.
Por ejemplo, un artículo publicado en Science en 2014 encuentra “una fuerte relación entre los resultados de un estudio y si se publicó”. De los 221 artículos examinados, aproximadamente la mitad fueron publicados. Solo se publicó el 20% de los estudios sin resultados estadísticamente significativos.
Los autores aprendieron que la mayoría de los estudios sin hallazgos estadísticamente significativos ni siquiera se redactaron, a veces porque los investigadores, al predecir que sus resultados no se publicarían, abandonaron su trabajo.
“Cuando los investigadores no logran encontrar un resultado estadísticamente significativo, a menudo se lo trata exactamente como eso: un fracaso”, escribe el escritor científico Jon Brock en un artículo de 2019 para Nature Index. “Los resultados no significativos son difíciles de publicar en revistas científicas y, como resultado, los investigadores a menudo optan por no enviarlos para su publicación”.
4. Mucha gente, incluso los investigadores, cometen errores al tratar de explicar la importancia estadística a un público no especializado.
“Con sus muchos tecnicismos, las pruebas de significación no están intrínsecamente listas para el consumo público” , escriben Jeffrey Spence y David Stanley , profesores asociados de psicología en la Universidad de Guelph en Canadá, en la revista Frontiers in Psychology . “Comprender correctamente las definiciones técnicamente correctas es desafiante incluso para investigadores capacitados, ya que está bien documentado que la importancia estadística es frecuentemente malinterpretada por los investigadores que confían en ella”.
Spence y Stanley señalan tres errores de interpretación comunes que los periodistas deben tener en cuenta y evitar. Significancia estadística, señalan, no significa:
•“Hay una baja probabilidad de que el resultado se deba al azar”.
•“Hay menos del 5% de probabilidad de que la hipótesis nula sea cierta”.
•“Hay un 95% de posibilidades de encontrar el mismo resultado en una réplica”.
Spence y Stanley ofrecen dos sugerencias para describir la significancia estadística. Aunque ambos son concisos, muchos periodistas (o sus editores) podrían considerarlos demasiado vagos para usarlos en noticias.
Si todos los resultados del estudio son significativos, Spence y Stanley sugieren escribir:
• “Todos los resultados fueron estadísticamente significativos (lo que indica que los verdaderos efectos pueden no ser cero)”.
• “Todos los resultados fueron estadísticamente significativos (lo que sugiere que hay motivos para dudar de que los verdaderos efectos sean cero)”.
5. La comunidad académica ha debatido durante años si dejar de verificar y reportar la significancia estadística.
Los académicos durante décadas han escrito sobre los problemas asociados con la determinación y el informe de la significación estadística. En 2019, la revista académica Nature publicó una carta , firmada por más de 800 investigadores y otros profesionales de campos que se basan en modelos estadísticos, que pedía “que se abandone todo el concepto de significancia estadística”.
El mismo año, The American Statistician, una revista de la American Statistical Association , publicó “ Statistical Inference in the 21st Century: A World Beyond p < 0.05 ”, una edición especial con 43 artículos dedicados al tema. Muchos proponen alternativas al uso de valores p y umbrales designados para probar la significancia estadística..
“A medida que nos aventuremos por este camino, comenzaremos a ver menos falsas alarmas, menos descubrimientos pasados por alto y el desarrollo de estrategias estadísticas más personalizadas”, escriben tres investigadores en un editorial que aparece en la portada de la edición. “Los investigadores tendrán la libertad de comunicar todos sus hallazgos en toda su gloriosa incertidumbre, sabiendo que su trabajo debe ser juzgado por la calidad y la comunicación efectiva de su ciencia, y no por sus valores p.
John Ioannidis , profesor de Medicina de Stanford y vicepresidente de la Asociación de Médicos Estadounidenses, ha argumentado en contra de abandonar el proceso. Los valores P y la significación estadística pueden proporcionar información valiosa cuando se usan e interpretan correctamente, escribe en una carta de 2019 publicada en JAMA . Reconoce que se necesitan mejoras, por ejemplo, mejores y “filtros menos jugables” para medir la importancia. También señala que “la aritmética estadística de la fuerza laboral científica requiere mejoras”.
Los profesores Deborah Mayo de Virginia Tech y David Hand de Imperial College London afirman que “las recomendaciones recientes para reemplazar, abandonar o retirar la importancia estadística socavan una función central de las estadísticas en la ciencia”. Los investigadores necesitan, en cambio, denunciar el uso indebido y evitarlo, escriben en su artículo de mayo de 2022, “ Importancia estadística y sus críticos: ¿Practicar ciencia dañina o práctica científica dañina? ”
“El hecho de que una herramienta pueda ser malinterpretada y mal utilizada no es una justificación suficiente para descartarla”, escriben.
Denise-Marie Ordway
Se unió a The Journalist’s Resource en 2015 después de trabajar como reportera para periódicos y estaciones de radio en los EE. UU. y América Central, incluidos Orlando Sentinel y Philadelphia Inquirer . Su trabajo también ha aparecido en publicaciones como USA TODAY , New York Times , Chicago Tribune y Washington Post .. Ha recibido una multitud de premios de periodismo a nivel nacional, regional y estatal y fue nombrada finalista del Premio Pulitzer en 2013 por una serie de investigación que dirigió y que se centró en las novatadas y otros problemas en la Universidad Florida A&M. Ordway fue miembro 2014-15 de la Fundación Nieman para el Periodismo de Harvard También es miembro de la junta directiva de la Asociación de Escritores de Educación. @DeniseOrdway.
The Journalists Resource