Por Jop de Vrieze
"Fue increíble" ver cómo evolucionó el periódico
en línea, dice Daniël Lakens, quien dirigió el esfuerzo. "Funcionó a
las mil maravillas."
El psicólogo Daniël Lakens de la Universidad de Tecnología de Eindhoven en los Países Bajos es conocido por
decir lo que piensa, y después de leer un artículo titulado " Redefinir la importancia estadística "
el 22 de julio de 2017, Lakens no dio ningún golpe: " Muy decepcionado
un grupo tan grande de gente inteligente daría un consejo tan horriblemente
malo ", escribió en Twitter.
En el documento,
publicado en el servidor de preimpresión PsyArXiv, 70 científicos prominentes
argumentaron a favor de reducir un umbral ampliamente utilizado para la
significación estadística en estudios experimentales: el denominado valor p
debe ser inferior a 0,005 en lugar de 0,05 aceptado, como una forma
para reducir la tasa de resultados falsos positivos y mejorar la
reproducibilidad de la ciencia . Lakens, de 37 años,
pensó que era una idea desastrosa. Un menor α, o nivel de significancia,
requeriría tamaños de muestra mucho más grandes, lo que hace que muchos
estudios sean imposibles. Además. él dice, "¿Por qué prescribir
un solo valor p, cuando la ciencia es tan diversa?"
Lakens y otros pronto
publicarán su propio periódico para proponer una alternativa; fue aceptado
el lunes por Nature Human Behavior , que publicó el
documento original que proponía un umbral más bajo en
septiembre de 2017. El contenido no será una gran sorpresa, una preimpresión ha estado en PsyArXiv durante
4 meses, pero el artículo es único. por la forma en que surgió: de 100
científicos de todo el mundo, desde grandes nombres hasta
Ph.D. estudiantes, e incluso algunos no académicos escribiendo y editando
en un documento de Google durante 2 meses.
Lakens dice que quería
que la iniciativa fuera lo más democrática posible: "Acabo de permitir que
cualquiera que quiera unirse y no se acerque a ningún científico famoso".
Los valores P
son un concepto
notoriamente difícil de captar y a menudo se
malinterpretan, pero el mensaje del documento original era claro: Un valor P, o
α, por debajo de 0,05 es una evidencia mucho más débil de que los resultados no
son incorrectos de lo que la gente piensa; bajarlo hace que los estudios
sean más fuertes. Después de la publicación preliminar, Lakens creó un
documento de Google titulado "Justifique su alfa: una respuesta a
'redefinir la importancia estadística'" con 12 puntos de discusión, que
incluyen "¿Deberíamos comentar o ignorar esta recomendación?" Y
"¿Cuáles son los potenciales negativos? efectos de esta redefinición de la
significación estadística? "Cerca de 150 científicos intervinieron, y el
documento se disparó a 100 páginas .
La diversidad entre
los participantes fue sorprendente, dice Lakens, con institutos menos
prestigiosos bien representados y muchos contribuyentes que comparten sus
experiencias personales. Algunos argumentaron que no podían permitirse
establecer los grandes estudios necesarios para cumplir con el nuevo estándar o
que no pudieron reclutar suficientes participantes del estudio. Algunos
dijeron que la α menor podría obligar a los investigadores a recurrir a las
llamadas "muestras de conveniencia", como estudiantes de pregrado, o
mover los estudios en línea. Los críticos también notaron que los estudios
más grandes tienen menos probabilidades de ser replicados, y un α más estricto
podría hacer que los investigadores sean más reacios al riesgo y menos
propensos a abordar preguntas difíciles.
Pero quizás el
principal argumento, coincidieron los participantes, fue que 0.005 es tan
arbitrario como 0.05, y que el umbral depende de lo que ya se sabe sobre un
tema y los riesgos asociados con la obtención de una respuesta
incorrecta. Uno podría aceptar una mayor probabilidad de un resultado
falso positivo en un estudio preliminar, por ejemplo, mientras que un ensayo de
drogas podría requerir un menor valor de p.
Lakens extrajo la
esencia de las discusiones en un nuevo documento de Google que sirvió de base
para el documento. "Fue increíble ver cómo evolucionó el documento
desde allí", dice. "Gente agregando, borrando y agregando de
nuevo. Nuevas discusiones que aparecen en las líneas laterales. Funcionó
a las mil maravillas. Las personas acordaron asumir tareas específicas,
como corregir las referencias o verificar los puntos y comas. Cuando
tuvimos que acortar el artículo, un par de autores se convirtieron en pirañas,
eliminando todo lo que era innecesario ". Lakens procesó e integró gran
parte de la nueva información en descansos de su trabajo habitual, durante las
primeras horas de la mañana o tarde en la noche. "En cierto momento,
pensé que me estaba volviendo loco", dice. A medida que el borrador
se acercaba a su versión final, algunos participantes abandonaron, algunos
porque no estaban de acuerdo con el texto;
Daniel Bradford ,
un Ph.D. estudiante de psicología clínica en la Universidad de Wisconsin
en Madison, estaba "entusiasmado por ayudar" con el
periódico. "He sido un estudiante de estadística durante mucho tiempo
y me había unido a las olas de discusión sobre la reforma metodológica en
psicología", dice. Bradford inicialmente se mostró escéptico de que
el proceso de autoría de crowdsourcing funcionaría. "He colaborado en
trabajos con solo cinco autores y muchas veces pensé que las cosas serían mucho
más eficientes si la lista de autores fuera aún más corta", dice.
El documento
recomienda que la etiqueta "estadísticamente significativa" se
descarte por completo; en su lugar, los investigadores deberían describir
y justificar sus decisiones sobre el diseño del estudio y la interpretación de
los datos, incluido el umbral estadístico. "A veces, α será 0.05, a
veces 0.005, a veces 0.10", dice Lakens.
Valen Johnson de Texas
A & M University en College Station, quien es el autor principal del
documento original "Redefine", dice que eso no
funcionará. "No es factible permitir que los autores de cada trabajo
decidan sobre su propia definición de significación estadística", escribió
en un correo electrónico a Science . "Simplemente no
hay recursos suficientes para permitir una revisión exhaustiva e imparcial de
cada propuesta de justificación de alfa". No está claro cómo
"justificar su α" funcionaría en la práctica, agrega su coautor,
Eric-Jan Wagenmakers de la Universidad de Amsterdam. .
Otro coautor destacado
del documento original es más suave. "El mensaje del periódico está
perfectamente bien desde mi punto de vista, y no es una crítica de nuestro
trabajo", dice el psicólogo Brian Nosek de la Universidad de Virginia en
Charlottesville, que dirige el Centro para la Ciencia Abierta. El mensaje
clave del papel "Redefinir" fue bastante limitado, dice: El umbral
actual de 0.05 produce evidencia más débil de lo que mucha gente cree, y si se
va a descartar, 0.005 es una alternativa razonable. "Otras
sugerencias, como eliminar todas las pruebas de significancia, justificar α,
incorporar razonamiento bayesiano, más replicación, etc. también serían mejoras
bienvenidas", dice Nosek.
El debate continuará,
aunque quizás no en los documentos de Google. El proceso fue
"superabundante" pero no muy eficiente, dice Lakens. "No
deberías hacerlo cuando tienes poco tiempo", dice. "Es
intenso. Y dejamos de lado los temas que habría incluido si hubiera sido
el único autor, porque no hemos podido llegar a un consenso ".