#DrArmandoMolina Continúa el artículo previo .
Perplejo por la información encontrada en los medios nacionales y en la web divulgativa del MIT, lo correcto es acudir a la fuente, siguiendo el enlace en la propia noticia, Radiology.
Nivel 3 – Revista Científica acreditada
Por lo pronto el título se centra claramente en #PredicciónDeRiesgo no en #Diagnóstico. Y ya en el abstract puede leerse el background del artículo: la densidad mamográfica mejora los modelos de riesgo, pero tiene limitaciones subjetivas, interobservador y ausencia de datos.
Comoquiera que un artículo científico es tarea ardua para la mayoría, sugiero saltarse la descripción técnica (entre separadores).
———————————————————————————————————————————————–
Los números reales del estudio son que utilizaron 88.994 mamografías de 39.571 mujeres, de las que 71.689 se dedicaron a entrenamiento del modelo de Deep Learning, 8554 a validación y 8751 al verdadero test. La asignación al grupo de Cáncer (269 pacientes) se obtuvo por acceso al Registro de Tumores regional. Todas las mamografías se obtuvieron del mismo modelo de Mamógrafo.
Ensamblaron entonces 3 tipos de modelos de Riesgo de desarrollar cancer de Mama en 5 años [¡por fín un dato objetivo!]: un modelo de regresión logística basado en factores de riesgo tradicionales (RF-DL), un modelo que utiliza sólo imágenes mamográficas (Image-only DL) y un tercero combinado (Hybrid DL). Y compararon estos modelos. Los compararon con Modelo Estándar de Riesgo de Cancer de Mama, el Tyrer-Cuzik versión 8, que incluye densidad mamaria. Para comparar modelos utilizaron el área bajo gráfica de Curvas ROC (Receiver-operator-Characteristics) con el test de DeLong, #Sensibilidad frente a #1-Especificidad.
Explican que no enseñan a su modelo manualmente sobre la densidad o el cáncer, sino sólo si la paciente desarrolló o no cáncer subsiguientemente (aclarando la frase del artículo del MIT). También especifican que de las 60.886 mujeres incluyeron las que tenían Carcinoma Ductal in situ o carcinoma de mama invasivo, pero excluyeron 21.328 pacientes porque carecían de datos o tenían otra forma de cáncer de mama, quedando 39.558. Además 41 fueron diagnosticadas de Cáncer en el año siguiente a la mamografía, y también fueron excluídas.
La curva resultante es muy clara: la amarilla es el sistema clínico, roja la híbrida por IA que utiliza datos clínicos y de lectura mamográfica.
Para quien no esté familiarizado con este tipo de indicador estadístico y no pueda seguir el link arriba mencionado, todo lo que lleve a la esquina superior izquierda es bueno, lo que lleve a la línea discontínua diagonal es malo, dentro de los sistemas diagnósticos.
Finalmente, colocan la Tabla de Contingencia [Confusion Matrix Analysis] de la densidad frente al riesgo evaluado por su sistema híbrido (que usa Densidad por lectura propia + datos clínicos), y se observa que el sistema híbrido mejora la asignación:
El sistema de IA asigna mejor tanto para las mamas densas como las no densas el verdadero riesgo.
En la Discusión, los autores señalan otros datos secundarios del artículo, como que su IA sólo mamográfica también mejoraba la asignación de riesgo respecto a método clínico, importante en pacientes que no conocen sus antecedentes familiares.
Aclaran mínimamente un comentario del aporte de la web: por la legislación de 37 estados USA la mitad de las pacientes sometidas a mamografía deben ser informadas que tienen un riesgo incrementado de Cáncer de Mama sólo sobre la base de su densidad mamaria en la Mamografía. Comentan que de esta forma muchas mujeres creen que tienen alto riesgo de padecer cáncer sin realmente tenerlo.
Se demuestran, según ellos por la mejoría de las curvas ROC del modelo híbrido respecto al clínico o mamográfico solo, que las mamografías y los factores de riesgo tradicional contienen información complementaria al alcance de una IA.
En una lectura propia de los datos, el sistema IA asigna correctamente como de Alto Riesgo al 77% (209 de 269) de las pacientes que desarrollaron Cáncer de Mama, a pesar de que casi el 40% de ellas no tenían mamas catalogadas como densas por un radiólogo (sistema que identifica 146 de 269 [54%] como de Alto Riesgo).
Pero yendo un poco más lejos, el 95.3% de las pacientes que el sistema catalogó como de Alto Riesgo NO TUVIERON CÁNCER.
————————————————————————————————————————————————-
Concretando: hemos pasado de Predecir el Cáncer de Mama con UNA Mamografía, a Usar la IA para predecir el Cáncer de Mama y Personalizar el Tratamiento, a finalmente Mejorar la Predicción de Riesgo de Cáncer de Mama por Deep Learning.
El efecto bola de nieve queda muy claro. Se van perdiendo o añadiendo datos por la cadena de información.
El artículo no despeja del todo las dudas comentadas al final del punto 2.
a) no aclara mucho la legislación «federal» sobre mamografías
b) no dice nada de las declaraciones recogidas en la web sobre el uso de la mamografía para diagnosticar otros problemas de salud
c) ni concluyen como la web que podrán mejorar el diagnóstico y salvar vidas. Más bien que habría que extender el modelo a otros fabricantes e instituciones para que fuera útil. Si refieren que el código está disponible para investigación.
Es necesaria información complementaria. Afortunadamente, en la cabecera del artículo ofrecen el link al Editorial en el mismo número escrito sobre el tema por Arkadiusz Sitek, del IBM Watson Health Project. Este editorial no es #OpenAccess.
4. Editorial en la Revista Científica
Muchas veces un buen Editorial sitúa un artículo en su contexto. Este merece ser leído, aunque se entiende mejor después de leer el artículo.
Escrito por dos desarrolladores de IA, aplican el efecto bola de nieve en su tobogán particular.
La información fundamental que ofrece este editorial es:
a) Existe una propuesta legislativa de la FDA con fecha 28 de Marzo de 2019 para asegurar la calidad de las mamografías de screening requiriendo que se declare la densidad mamaria y se informe del hallazgo en lenguaje llano a la paciente. A este hecho se refiere la Web del MIT.
b) Compara la habilidad de los Radiólogos de distinguir mamografías normales y anormales con apenas 500 mseg de visualización, incluso sólo viendo la imagen de la mama contralateral. Lo llaman «Gist Perception» que puede traducirse como Captar la Esencia. Este concepto se utiliza en estudios de visión artificial.
c) No se tiene nada claro que es lo que hace que humanos en esta situación y las máquinas de IA sean capaces de diferenciar lo normal de lo anormal, podrían tratarse de los mismos elementos o no.
d) Sugiere que el sistema óptimo se alcanzará más rápido si se combinan las habilidades humanas y de IA sabiendo explicar qué hace cada uno de ellos.