Investigadores colombianos han utilizado la Inteligencia Artificial para extraer información automáticamente de la historia clínica de miles de pacientes con cáncer de mama para patrones emergentes, abriendo la posibilidad a futuras intervenciones y tratamientos.
Según la American Cancer Society, hoy en día, el cáncer de mama es el cáncer más frecuente en todo el mundo, ya que representa el 12,5% de todos los nuevos casos anuales globalmente.
El profesor Oswaldo Solarte Pabón, de la Escuela de Ingeniería de Sistemas y Computación de la Facultad de Ingeniería de la Universidad del Valle (Univalle) explicó que, en conjunto con colaboradores internacionales, logró de detectar patrones por primera vez usando notas clínicas escritas en español.
“El objetivo fue extraer información de las notas clínicas de pacientes con cáncer para encontrar patrones valiosos”, dijo el profesor Solarte y añadió que los resultados obtenidos con esta investigación se utilizaron para estructurar los datos de un hospital de Madrid (España) con el fin de extraer modelos para la predecir recaída del cáncer de mama y el análisis de la calidad de vida.
Imagen: Anotaciones de cáncer de mama. Crédito: Solarte et al. https://doi.org/10.1016/j.artmed.2023.102625
La Investigación
Cada año los hospitales alrededor del mundo producen aproximadamente 50 petabytes de datos, y aunque el 97 por ciento de estos datos no se utilizan, esto está cambiando, con un gran potencial para transformar la calidad de la atención médica.
El profesor Solarte explicó que, en los últimos años, el uso del Procesamiento del Lenguaje Natural (PLN) en el ámbito biomédico ha incrementado la posibilidad de extraer información de forma automática a partir de historias clínicas. Es decir, ahora es posible automatizar el proceso de leer, entender y estructurar el texto clínico usando técnicas de Inteligencia Artificial.
“Esto es un gran logro ya que para los médicos no es viable y además, muy costoso extraer información manualmente debido a que se enfrentan a un problema de Big Data. En el caso de estudio realizado en esta investigación, el proceso de atención de cada paciente generó 300 notas clínicas en promedio y el estudio involucró 1000 pacientes. En este caso se debían analizar 300000 archivos de texto”, manifestó el profesor Solarte.
En el artículo científico que se llama “Transformers for extracting breast cancer information from Spanish clinical narratives” publicado en la revista científica Artificial Intelligence in Medicine, los investigadores utilizaron un corpus (un gran conjunto de textos que se considera representativo de una lengua) anotado manualmente por médicos para apoyar la extracción de entidades nombradas (en inglés: Name Entity Recognition) en el ámbito del cáncer de mama.
“Es el primer corpus destinado a apoyar la extracción de conceptos médicos de cáncer de mama en lengua española”, planteó el profesor Solarte.
Ernestina Menasalvas Ruiz, profesora catedrática de la Universidad Politécnica de Madrid, coautora de la publicación científica y directora de tesis del profesor Solarte explicó que los resultados de extracción de entidades y de detección de la negación e incertidumbre han ayudado a la estructuración de la información de los pacientes, lo que ha facilitado la extracción de modelos predictivos con posterioridad.
“El uso de los nuevos modelos de lenguaje son una tendencia actual de la Inteligencia Artificial y los estamos usando para extraer información médica y validando todos los resultados”, manifestó la profesora Menasalvas y agregó que cuando estos modelos estén validados, el siguiente paso es seguir aplicándolos a otras enfermedades, empezando por otros tipos de tumores.
El profesor Solarte también quiere usar las experiencias aprendidas en esta investigación para fortalecer el tema de Deep Learning e Inteligencia Artificial en Colombia.
“La idea es formar un grupo de Inteligencia Artificial aplicada a la salud”, dijo el profesor Solarte.
Leer más de la Escuela de Ingeniería de Sistemas y Computación: Investigadoras buscan soluciones tecnológicas con perspectiva de género |
Imagen: El diagrama muestra el enfoque propuesto, que consta de tres pasos: (i) Generación del corpus, (ii) Entrenamiento del modelo y (iii) Validación del modelo. Crédito: Solarte et al. https://doi.org/10.1016/j.artmed.2023.102625
Colaboración Internacional
El profesor Solarte recientemente regresó a Colombia después de pasar cuatro años en la Universidad Politécnica de Madrid en España, donde estudió su Doctorado en el Centro de Tecnología Biomédica.
La profesora Menasalvas, quien ya tiene muchos años de colaboraciones con la Universidad del Valle, explicó que la internacionalización es sin duda beneficiosa por lo que los distintos equipos pueden aportar.
“En este proyecto en particular donde los modelos de lenguaje son un elemento central, la colaboración es esencial por los aspectos diferenciadores que el español puede tener en las distintas localizaciones donde se habla”, planteó la profesora Menasalvas quien añadió que el poder entrenar y validar modelos de español no solo con textos de una localización sino de múltiples sitios aportará sin duda valor y mejorará el rendimiento de los modelos obtenidos.
Si le interesa contactar al investigador o conocer más sobre el proyecto, escriba a la Oficina de Comunicaciones Facultad de Ingeniería: comunicaingenieria(arroba)correounivalle.edu.co
Foto de la portada: El Profesor Oswaldo Solarte Crédito: Alexander Bejarano
Comentarios
Publicar un comentario