La batalla contra la enfermedad COVID-19 también se da con tablas de Excel, mapas, gráficas y cálculos matemáticos. La comunidad de científicos de datos ha peleado para obtener la mayor cantidad de información sobre la pandemia, desde su inicio en México, para procesarla y convertirla en conocimiento útil, que sirva para que tanto autoridades como ciudadanos tomen las mejores decisiones.
Y también para que se pueda evaluar la actuación del gobierno federal y las administraciones locales, ante la emergencia sanitaria.
Armados con su conocimiento sobre Matemáticas y la Ciencia de Datos, Geografía y Demografía, los analistas han hecho un seguimiento diario desde el 27 de febrero de los datos que presenta Salud federal. Tanto en conferencias a las 19:00 horas como en reportes con miles de datos que son publicados en páginas oficiales.
En el camino han encontrado aciertos del gobierno en su forma de informar sobre la pandemia, pero también errores, ‘huecos’ de información que tardan en llenarse y ‘áreas de oportunidad’ para presentar reportes con mayor calidad, transparentes y que no dejen espacio a la suspicacia.
“Al principio había cierta incertidumbre”, relata Josué Baruch, geógrafo de la UNAM, quien acumuló decenas de retuits y likes al ser de los primeros en publicar en Twitter un mapa del municipio de residencia de las personas que dieron positivo en la prueba de COVID-19. Sus mapas los publica de forma independiente, sin financiamiento de alguna institución pública.
Durante cerca de mes y medio a partir del inicio de la pandemia en México, apunta Baruch, Salud federal y la Dirección General de Epidemiología publicaron los datos sobre casos confirmados y sospechosos en el país, muertes y hospitalizaciones por COVID-19… pero en formato PDF.
Un formato ‘nada amigable”, que dificulta el trabajo de datos y que incluso incrementa el riesgo de errores en su procesamiento, coincidieron todos los analistas consultados para este reportaje.
El reclamo ‘antiPDF’ rindió frutos el 13 de abril, cuando Ricardo Cortés Alcalá, director general de Promoción de la Salud del gobierno federal, lanzó el anuncio en Twitter de que ya estarían disponibles los datos abiertos, para descarga libre en formato CSV.
Lo prometido es deuda… Datos abiertos. https://t.co/FnkSzNRC9A
— Ricardo Cortés Alcalá (@RCA0716) April 14, 2020
Son los datos en bruto, de caso por caso, no un resumen o una diapositiva en Power Point presentada en conferencia de prensa.
Datos listos para que analistas o periodistas los organicen y también para que comiencen a identificar en ellos alguna inconsistencia o hecho en que las autoridades no habían hecho énfasis, por decisión propia o porque no se habían percatado de ello.
“Hubo un gran movimiento por parte de ciudadanía, personas independientes, ONG y grupos académicos, para decir que la información era muy limitada”, que eran necesarios los datos abiertos, dice Fernando Alarid-Escudero, profesor investigador del Centro de Investigación y Docencia Económicas (CIDE).
Los académicos aplaudieron este primer gran cambio en la presentación de los datos, que también les permitió identificar el número de casos y defunciones por COVID-19 a nivel municipal, y no solo a nivel estatal, como había sido en la ‘era PDF’.
Pero no se detuvieron ahí, siguieron empujando a Salud federal para que mejorara. El 19 de abril, esa presión volvió a rendir frutos cuando Salud federal agregó en sus tablas de datos abiertos un “identificador único”, que permite dar seguimiento al desarrollo de un caso de COVID-19, sin importar que de un día para otro se sumen miles de casos más en las tablas.
Ana Rolón, líder en el proyecto Verificovid, que también ha hecho de forma independiente un seguimiento de las cifras, destaca que las autoridades de Salud han tenido la disposición de escuchar las peticiones ciudadanas y entonces hacer ajustes a su presentación de datos.
Aunque también señala que en muchas ocasiones no han hecho énfasis en explicar estos cambios, y los propios analistas independientes han tenido que ubicarlos y entenderlos por su cuenta, algo que para el ciudadano común, que no es experto en manejar miles de datos, resultaría muy difícil de hacer.
“Ha sido una tarea en la que han ido mejorando constantemente, hasta donde tengo entendido, este proceso ha sido muy complejo”, dice Sebastián Garrido, coordinador de la Unidad de Ciencia de Datos del CIDE, sobre las dificultades que ha tenido Salud federal para recabar información sobre COVID-19 considerando lo heterogéneo del sistema de salud mexicano, donde cada estado aplica una metodología distinta y a su vez cada entidad o institución de salud local tiene carencias específicas para recabar los datos.
Aunado a lo anterior, Garrido ha apuntado en sus redes sociales los problemas y limitaciones que tienen los datos sobre COVID-19, no solo en México, sino a nivel internacional, sobre todo en aspectos como el número de contagios.
Entérate: Coronavirus, las muertes de miles de ancianos que no están siendo contabilizadas en Europa
En general, comenta el científico del CIDE, la información que presenta México sobre los casos es muy completa, en comparación con otros países, aunque Salud federal ha tenido un proceso de aprendizaje y corrección, y aún falta tener más datos para tener un cuadro más preciso sobre la pandemia en el país.
Los analistas consultados para este reportaje coinciden en que no tienen elementos para sustentar o comprobar que Salud federal haya ocultado información sobre el impacto real de COVID-19 en México.
Sin embargo, sí señalan fallas o al menos carencias en el proceso de recopilación y de divulgación de los datos, atribuibles a diferentes factores, entre ellos la falta de experiencia.
“Muchas veces áreas de gobierno, como Epidemiología, no tenían claro lo que significaba tener un área de datos”, comenta Baruch. “Los agarraron con esas deficiencias y han tenido que aprender sobre la marcha”.
Además de las fallas iniciales de divulgación de datos en PDF y el no incluir un identificador único de casos, el geógrafo de la UNAM refiere que Salud federal tardó en explicar que utiliza el modelo Centinela, con el que no se pretende registrar con prueba de laboratorio cada caso de COVID-19 en el país, sino que a partir de una muestra se estima cuántos casos puede haber realmente en México.
El 8 de abril, 41 días después del inicio de la epidemia en México, el subsecretario Hugo López-Gatell tomó gran parte de la conferencia nocturna para explicar que se usa dicho modelo, y dijo que en el país la estimación era que había más de 26 mil infectados. Antes en las conferencias solo se habían dado atisbos sobre este esquema.
“De repente, en un punto de la fase 2, surge esta explicación sobre la muestra y la estimación de casos con el modelo Centinela”, dice Baruch. “La explicación debió darse desde el principio”.
Si bien se dio la presentación de López-Gatell el 8 de abril, hasta la fecha el matemático Arturo Erdely reclama que no ha logrado localizar en ninguna página oficial del gobierno el modelo matemático o metodología utilizada por Salud federal para realizar las proyecciones o estimados de casos que hay realmente en el país.
La semana pasada, el gobierno de la Ciudad de México publicó el modelo matemático que utiliza, “ya solo falta el localizar el modelo utilizado a nivel nacional, agradeceré cualquier orientación al respecto”, tuiteó Erdely (en la conferencia del 3 de mayo, solo aparecería fugazmente una diapositiva de seis puntos con un esbozo de la metodología).
▶ ¿Cuál es el factor por el que se debería multiplicar el número de contagios para obtener los estimados en el modelo centinela?@ArturoErdely, Doctor en Matemáticas de la UNAM, nos da su análisis sobre estos datos
📺 La entrevista con @AlexDominguezB #AlexEnMILENIO pic.twitter.com/HAgWgYl6Ed
— Milenio Televisión (@mileniotv) May 5, 2020
“La pregunta más importante para mí: ¿Cuándo publicarán la metodología mediante la cual calculan el factor? Es la única forma de disipar tantas dudas, de acabar con la controversia y, es más, en caso de haber errores, hay muchísima gente dispuesta a ayudarlos”, comentó el estudiante de pregrado de la Facultad de Medicina de la UNAM, Andrés Tapia.
Este sábado 2 de mayo, una reportera de Reforma insistió en preguntar a López-Gatell cómo debían calcularse en este punto de la pandemia, con el Modelo Centinela, los casos que existen realmente en el país, y López-Gatell le dijo que al día siguiente haría una aclaración.
El domingo 3 de mayo, López-Gatell se enfocó en ello y dio el estimado de que hasta 104 mil 562 personas habrían tenido un cuadro leve de infección de COVID-19 en el país, cifra que se sumaría a los miles de casos con mayor gravedad reportados en el comunicado técnico diario.
Sin embargo, generó dudas e incluso reclamos en redes sociales que también mencionara que en este momento de la pandemia, en fase 3, el Modelo Centinela enfocado en calcular los casos leves y ambulatorios que ‘flotan’ en el país ya no era un elemento principal de información, y que ahora la atención debía centrarse en los hospitalizados.
Cuando muchos aún hacían el esfuerzo de entender cómo funcionaba el modelo, y seguían solicitando datos como el ‘factor de expansión’ para hacer el estimado de casos, López-Gatell dijo que ya no era relevante.
Aclaré que la vigilancia Centinela es un mecanismo eficiente que, ante la imposibilidad de documentar todos los casos leves de #COVID19, hace una adaptación para expandir el número de casos con estimaciones basadas en la dinámica de ocurrencia de la enfermedad. 1/4 pic.twitter.com/W3g1mjyd4G
— Hugo López-Gatell Ramírez (@HLGatell) May 4, 2020
“Urge que expliquen por qué el Modelo Centinela no funcionará para fase 3”, tuiteó el comisionado presidente del INAI, Francisco J. Acuña.
“El cambio constante de indicadores que presentan para medir la evolución de la pandemia me genera mucha ansiedad. Nada es replicable, pocas variables son consistentes en el tiempo, y no se responden preguntas puntuales”, opinó en Twitter Ricardo FuentesNieva, director Ejecutivo de Oxfam México.
El politólogo José Ignacio Lanzagorta incluso comentó en Twitter en torno a López-Gatell que a estas alturas de la pandemia -después de dar más de 60 conferencias a las 7 de la noche como principal vocero de la estrategia del gobierno ante el coronavirus-, ya tiene “un desgaste importante -sobre todo para sí mismo- de la figura que ha representado”.
Rodrigo Serrano, de Verificovid, menciona que también han registrado discrepancias entre la forma en que distintas fuentes oficiales presentan los datos públicos. Lo que se reporta en el tablero de Conacyt, los datos abiertos que difunde Salud federal y el comunicado técnico diario, y los que aparecen en la página del Sistema de Vigilancia Epidemiológica de Enfermedad Respiratoria Viral (Sisver).
“Conacyt está reportando muertes por estado de residencia, mientras que en el Comunicado Técnico se están reportando las muertes considerando dónde está la unidad médica donde ocurrió el fallecimiento”, refiere Serrano.
“Si sumas los totales, son el mismo número de muertes en las dos plataformas, no se están escondiendo muertes en una, pero al haber discrepancia levanta sospecha”.
“En el mundo ideal, tanto casos positivos como decesos utilizarían la misma variable, ya sea por residencia como unidad médica”, señala Rolón.
Además, menciona Serrano, han identificado discrepancias entre los números que reportan los gobiernos estatales y los números que reporta Salud federal. Esto, señala, puede deberse a que los estados utilizan una metodología distinta de registro de datos, pero hasta ahora no han tenido un reporte claro para sustentar esta hipótesis.
Sobre este punto, Baruch destaca la dificultad de hacer el registro de datos en un país tan heterogéneo, con condiciones tan disímiles entre estados, municipios y jurisdicciones sanitarias.
No hay una base de datos perfecta, menciona, pero es importante que Salud federal explique los problemas que ha tenido en la recopilación de datos y también cuando hay correcciones, para no dejar huecos de información.
El investigador Alarid-Escudero dice que la información que ha presentado Salud federal no es “de la calidad ideal”, aunque debe tomarse en cuenta que desde antes de la pandemia el sistema tenía carencias de organización e incluso puede repercutir el ‘maltrato’ presupuestal que ha existido hacia el sector científico.
“Están sacando lo que tienen, no creo que estén ocultando datos, simplemente no tienen más que la que están presentando”, dijo el científico.
“Con base en la experiencia que he tenido con ellos, la información no ha sido la ideal, no ha sido la mejor, pero no creo que haya sido una situación de que no quieran revelarla, o falta de transparencia, simplemente no tienen una buena organización, y no se ha podido recolectar la información en la forma en que se debió haber hecho”.
En el tema de las personas fallecidas, los especialistas mencionaron que en todo el mundo han existido problemas para definir la cifra real de muertos a causa de Covid-19, aunque en su momento habrá registros administrativos y otros datos que permitirán comparar el número de fallecimientos de años previos con los ocurridos en el periodo de esta epidemia, para tener un número más preciso sobre el impacto letal del virus en México.
Entre los datos que los especialistas quisieran tener para hacer un análisis más completo, pero que aún no aparecen en las bases descargables de Salud federal, Sebastián Garrido menciona el de la fecha en que los pacientes se hicieron la prueba de COVID-19 y la fecha en que obtuvieron el resultado.
Tampoco se ha proporcionado el dato de la cantidad de días de hospitalización de los pacientes, considerando la fecha de ingreso y egreso, y del mismo modo no se ha presentado el de la fecha en que los pacientes fueron intubados y cuándo se dieron las recuperaciones al estar en esa condición.
Garrido, que durante la pandemia está haciendo análisis para el buró de investigación del canal ADN40, dijo que también sería útil tener datos abiertos sobre la capacidad hospitalaria federal, camas y ventiladores, y los médicos y enfermeras con los que se cuenta.
En sus redes sociales, geógrafos y otros científicos han dado a conocer tendencias de la enfermedad COVID-19, a partir del análisis de los datos abiertos.
Baruch publicó un mapa interactivo donde se pueden consultar los principales destinos y flujos de los pacientes con síntomas de COVID-19, entre la entidad donde residen y la entidad donde reciben atención médica.
En el siguiente mapa interactivo se podrán consultar los principales destinos y flujos de los pacientes con síntomas de Covid19, entre la entidad de residencia y la entidad donde reciben atención médica.
Gracias a @luigicantu por la invitación. https://t.co/Zr6A8KHxcL https://t.co/6T6CsbBVm2 pic.twitter.com/Z9jJHLZ6BN— Baruch (@datavizero) April 29, 2020
El 27 de abril, identificó que la Ciudad de México había recibido 2,634 pacientes con síntomas de COVID-19 que residen en municipios del Estado de México, y 231 pacientes del resto de los estados.
En otro mapa, publicado el 26 de abril, identificó que de los habitantes de la alcaldía Iztapalapa casi el 50% de los casos confirmados eran hospitalizados, mientras que en el caso de las alcaldías Benito Juárez y Miguel Hidalgo, con un nivel socioeconómico más alto, no se había rebasado el 30%.
Va actualización del mapa Covid19 (26/04/2020). 1)Confirmados, 2)Tasa de incidencia y 3)Porcentaje de Hospitalizados por municipio de residencia.
18/04/2020: 525 municipios
26/04/2020: 740 municipios
Mapa Interactivo: https://t.co/Zr6A8KHxcL pic.twitter.com/KGiXgoes91— Baruch (@datavizero) April 27, 2020
“Si revisamos las cifras de hospitalizados y ambulatorios, me llama mucho la atención lo que está pasando en México. Tenemos un alto porcentaje de pacientes hospitalizados, en un nivel más alto que otros países”.
En esta web, Garrido tiene datos actualizados diariamente, con aspectos como el porcentaje de pacientes a los que se confirmó COVID-19 y murieron, en cada entidad. Hasta el 2 de mayo, en Chihuahua se tenía el porcentaje más alto, con 19.6%, 89 pacientes fallecidos de 453 confirmados.
También se puede observar una gráfica del porcentaje de casos de pacientes confirmados de COVID-19 que han sido hospitalizados, de acuerdo con el tipo de comorbilidad. Hasta el 2 de mayo, la comorbilidad predominante de hospitalizados era la insuficiencia renal crónica.
En el caso de Alarid-Escudero, ha trabajado con los gobiernos de Hidalgo y Ciudad de México, para ayudarles en su modelo epidemiológico de estimación de casos y hospitalizados. Lideró al equipo del CIDE para colaborar con la Universidad de Stanford y desarrollar el modelo SC-Cosmo, con “proyecciones sobre los efectos de las distintas prácticas de mitigación sobre COVID-19, que permitirá a los líderes del sector salud tomar mejores decisiones”.