Orejuela Ruíz, Vivian MilenMestizo Valencia, Andrés DavidGarcía, John Anderson2023-10-232023-10-232022Mestizo, Andrés (2022). Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes. [Tesis de Pregrado]. Unidad Central Del Valle del Caucahttp://hdl.handle.net/20.500.12993/3687ilustraciones, gráficos, tablasLas notas clínicas son un objeto de información difícilmente procesable, debido a su diversidad léxica y semántica, lo que dificulta cualquier investigación relacionada con esta fuente de datos. Sin embargo, el procesamiento de lenguaje natural puede brindar solución a este problema, creando una estructura numérica para las notas clínicas, sin dejar de lado su contexto individual y su significado en conjunto. Una de las técnicas que permite realizar este procedimiento es el algoritmo Word2Vec, que acompañado de una red neuronal convolucional podría realizar una detección de sepsis, apoyado en la fórmula de SOFA (Sequential Organ Failure Assessment) que permite clasificar por gravedad pacientes con síntomas de sepsis. Para lo cual, se filtran y seleccionan los datos bajo diferentes parámetros a partir de diferentes clases por medio del lenguaje de programación Python con el fin de procesar la información estructurada y no estructurada de la base de datos MIMIC-III para comprobar la capacidad de los algoritmos y su eficiencia en la tarea propuesta. Finalmente se observa que el algoritmo LigthGBM procesa los datos estructurados con una precisión aproximada de 86% y que el algoritmo completo (Word2Vec + CNN) puede observar y modelar el comportamiento de los pacientes descrito a través de las notas clínicas con un 89.45% de precisión.1 Introducción e información general / 1.1 El problema / 1.1.1 Descripción / 1.2 Formulación / 1.3 Justificación / 1.4 Objetivos / 1.4.1 General / 1.4.2 Específicos / 1.5 Alcance / 2 Marco de referencia / 2.1 Marco teórico / 2.1.1 Machine Learning en la salud / 2.1.2 NLP asociado a notas clínicas / 2.2 Marco conceptual / 2.2.1 Notas clínicas / 2.2.2 Machine Learning / 2.2.3 JSON / 2.2.4 NLP / 2.2.5 SOFA (Sequential Organ Failure Assessment) / 2.3 Estado del arte / 3 Metodología de investigación / 3.1 Tipo de Investigación:/ 3.2 Metodología:/ 3.3 Etapas de la investigación / 3.3.1 Inicio / 3.3.2 Selección de la base de datos / 3.3.3 Visualización / 3.3.4 Estructuración / 3.3.5 Preprocesamiento de texto libre / 3.3.5.1 Cleaning Data / 3.3.5.2 Tokenization / 3.3.5.3 Stopwords Removal / 3.3.5.4 Lemmatize / 3.3.5.5 Lowercase / 3.3.5.6 Incrustaciones / 3.3.5.6.1 Word2Vec / 3.3.5.6.2 GloVe / 3.3.5.6.3 TF-IDF / 3.3.5.6.4 BERT / 3.3.5.7 Redes neuronales / 4 Esquematización de datos clínicos a partir de la estructuración y creación del CDA master y el CDA interno para el planteamiento del problema de NLP / 4.1 Análisis / 4.2 Selección de la base de datos / 4.3 Extracción de los datos / 4.4 Depuración y etiquetado / 4.4.1 Filtrado / 4.4.2 Visualización de flujos / 4.4.3 Etiquetado / 4.5 Creación del CDA Master / 4.6 Creación del CDA Interno / 4.7 Resumen numérico de algunos datos / 4.8 Dataframe / 4.8.1 Preprocesamiento de datos estructurados / 4.8.2 Creación del Dataframe / 4.8.3 Modificaciones del Dataframe / 4.8.4 Unos del Dataframe / 4.8.5 Imputación del Dataframe / 4.8.6 División del dataframe en Train and Test / 4.8.7 Modelamiento / 5 Preprocesar las notas clínicas para tokenizar y armonizar las características clínicas / 5.1 Limpieza de los datos / 5.2 Tokenización / 5.3 Remove Stop-Words and punctuation / 5.4 Lemmatize / 5.5 Lowercase / 5.6 Etiquetado de las notas clínicas / 5.7 Ejemplo de preprocesamiento / 6 Extraer los datos de las notas clínicas del EMR utilizando redes neuronales de tipo NLP / 6.1 Balance / 6.2 Selección / 6.3 Incrustación / 6.4 Red neuronal / 7 Evaluar el rendimiento de las técnicas de NLP para la caracterización de pacientes / 7.1 Datos estructurados / 7.1.1 Confusion Matrix / 7.1.1.1 Registros totales / 7.1.2 Classification Report / 7.2 Datos no estructurados / 7.2.1 Word2Vec / 7.2.2 CNN / 8 Conclusiones / 9 Propuestas para desarrollos posteriores / 10 ReferenciasPDF83 páginasapplication/pdfspaDerechos reservados - Unidad Central del Valle del Caucahttp://creativecommons.org/licenses/by-nc-nd/4.0Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientesbachelor thesisAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)info:eu-repo/semantics/closedAccessInstname:Unidad Central del Valle del Caucareponame:Repositorio Institucional Unidad Central del Valle del Caucarepourl:https://repositorio.uceva.edu.co/CerradoMachine LearningSepsisLightGBMWord2VecMIMIC-IIISOFARedes NeuronalesNLPhttp://purl.org/coar/access_right/c_14cbMachine LearningSepsisLightGBMWord2VecMIMIC-IIISOFANeural NetworksNLPAssessment of Natural Language Processing techniques for characterizing patients using EMR clinical notes.