viernes, 19 de enero de 2018

Cerca de 100 científicos pasaron 2 meses en Google Docs para redefinir el valor de p. Esto es lo que se les ocurrió



Por Jop de Vrieze
"Fue increíble" ver cómo evolucionó el periódico en línea, dice Daniël Lakens, quien dirigió el esfuerzo. "Funcionó a las mil maravillas."

El psicólogo Daniël Lakens de la Universidad de Tecnología de Eindhoven en los Países Bajos es conocido por decir lo que piensa, y después de leer un artículo titulado " Redefinir la importancia estadística " el 22 de julio de 2017, Lakens no dio ningún golpe: " Muy decepcionado un grupo tan grande de gente inteligente daría un consejo tan horriblemente malo ", escribió en Twitter.
En el documento, publicado en el servidor de preimpresión PsyArXiv, 70 científicos prominentes argumentaron a favor de reducir un umbral ampliamente utilizado para la significación estadística en estudios experimentales: el denominado valor p debe ser inferior a 0,005 en lugar de 0,05 aceptado, como una forma para reducir la tasa de resultados falsos positivos y mejorar la reproducibilidad de la ciencia . Lakens, de 37 años, pensó que era una idea desastrosa. Un menor α, o nivel de significancia, requeriría tamaños de muestra mucho más grandes, lo que hace que muchos estudios sean imposibles. Además. él dice, "¿Por qué prescribir un solo valor p, cuando la ciencia es tan diversa?"
Lakens y otros pronto publicarán su propio periódico para proponer una alternativa; fue aceptado el lunes por Nature Human Behavior , que publicó el documento original que proponía un umbral más bajo en septiembre de 2017. El contenido no será una gran sorpresa, una preimpresión ha estado en PsyArXiv durante 4 meses, pero el artículo es único. por la forma en que surgió: de 100 científicos de todo el mundo, desde grandes nombres hasta Ph.D. estudiantes, e incluso algunos no académicos escribiendo y editando en un documento de Google durante 2 meses. 
Lakens dice que quería que la iniciativa fuera lo más democrática posible: "Acabo de permitir que cualquiera que quiera unirse y no se acerque a ningún científico famoso".
Los valores P son un concepto notoriamente difícil de captar y a menudo se malinterpretan, pero el mensaje del documento original era claro: Un valor P, o α, por debajo de 0,05 es una evidencia mucho más débil de que los resultados no son incorrectos de lo que la gente piensa; bajarlo hace que los estudios sean más fuertes. Después de la publicación preliminar, Lakens creó un documento de Google titulado "Justifique su alfa: una respuesta a 'redefinir la importancia estadística'" con 12 puntos de discusión, que incluyen "¿Deberíamos comentar o ignorar esta recomendación?" Y "¿Cuáles son los potenciales negativos? efectos de esta redefinición de la significación estadística? "Cerca de 150 científicos intervinieron, y el documento se disparó 100 páginas .
La diversidad entre los participantes fue sorprendente, dice Lakens, con institutos menos prestigiosos bien representados y muchos contribuyentes que comparten sus experiencias personales. Algunos argumentaron que no podían permitirse establecer los grandes estudios necesarios para cumplir con el nuevo estándar o que no pudieron reclutar suficientes participantes del estudio. Algunos dijeron que la α menor podría obligar a los investigadores a recurrir a las llamadas "muestras de conveniencia", como estudiantes de pregrado, o mover los estudios en línea. Los críticos también notaron que los estudios más grandes tienen menos probabilidades de ser replicados, y un α más estricto podría hacer que los investigadores sean más reacios al riesgo y menos propensos a abordar preguntas difíciles.
Pero quizás el principal argumento, coincidieron los participantes, fue que 0.005 es tan arbitrario como 0.05, y que el umbral depende de lo que ya se sabe sobre un tema y los riesgos asociados con la obtención de una respuesta incorrecta. Uno podría aceptar una mayor probabilidad de un resultado falso positivo en un estudio preliminar, por ejemplo, mientras que un ensayo de drogas podría requerir un menor valor de p.
Lakens extrajo la esencia de las discusiones en un nuevo documento de Google que sirvió de base para el documento. "Fue increíble ver cómo evolucionó el documento desde allí", dice. "Gente agregando, borrando y agregando de nuevo. Nuevas discusiones que aparecen en las líneas laterales. Funcionó a las mil maravillas. Las personas acordaron asumir tareas específicas, como corregir las referencias o verificar los puntos y comas. Cuando tuvimos que acortar el artículo, un par de autores se convirtieron en pirañas, eliminando todo lo que era innecesario ". Lakens procesó e integró gran parte de la nueva información en descansos de su trabajo habitual, durante las primeras horas de la mañana o tarde en la noche. "En cierto momento, pensé que me estaba volviendo loco", dice. A medida que el borrador se acercaba a su versión final, algunos participantes abandonaron, algunos porque no estaban de acuerdo con el texto;
Daniel Bradford , un Ph.D. estudiante de psicología clínica en la Universidad de Wisconsin en Madison, estaba "entusiasmado por ayudar" con el periódico. "He sido un estudiante de estadística durante mucho tiempo y me había unido a las olas de discusión sobre la reforma metodológica en psicología", dice. Bradford inicialmente se mostró escéptico de que el proceso de autoría de crowdsourcing funcionaría. "He colaborado en trabajos con solo cinco autores y muchas veces pensé que las cosas serían mucho más eficientes si la lista de autores fuera aún más corta", dice.
El documento recomienda que la etiqueta "estadísticamente significativa" se descarte por completo; en su lugar, los investigadores deberían describir y justificar sus decisiones sobre el diseño del estudio y la interpretación de los datos, incluido el umbral estadístico. "A veces, α será 0.05, a veces 0.005, a veces 0.10", dice Lakens.
Valen Johnson de Texas A & M University en College Station, quien es el autor principal del documento original "Redefine", dice que eso no funcionará. "No es factible permitir que los autores de cada trabajo decidan sobre su propia definición de significación estadística", escribió en un correo electrónico a Science . "Simplemente no hay recursos suficientes para permitir una revisión exhaustiva e imparcial de cada propuesta de justificación de alfa". No está claro cómo "justificar su α" funcionaría en la práctica, agrega su coautor, Eric-Jan Wagenmakers de la Universidad de Amsterdam. .
Otro coautor destacado del documento original es más suave. "El mensaje del periódico está perfectamente bien desde mi punto de vista, y no es una crítica de nuestro trabajo", dice el psicólogo Brian Nosek de la Universidad de Virginia en Charlottesville, que dirige el Centro para la Ciencia Abierta. El mensaje clave del papel "Redefinir" fue bastante limitado, dice: El umbral actual de 0.05 produce evidencia más débil de lo que mucha gente cree, y si se va a descartar, 0.005 es una alternativa razonable. "Otras sugerencias, como eliminar todas las pruebas de significancia, justificar α, incorporar razonamiento bayesiano, más replicación, etc. también serían mejoras bienvenidas", dice Nosek.
El debate continuará, aunque quizás no en los documentos de Google. El proceso fue "superabundante" pero no muy eficiente, dice Lakens. "No deberías hacerlo cuando tienes poco tiempo", dice. "Es intenso. Y dejamos de lado los temas que habría incluido si hubiera sido el único autor, porque no hemos podido llegar a un consenso ".