Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes

dc.contributor.advisorOrejuela Ruíz, Vivian Milen
dc.contributor.authorMestizo Valencia, Andrés David
dc.contributor.orcidVivian Milen Orejuela Ruíz [0000-0002-7562-3128]spa
dc.contributor.otherGarcía, John Anderson
dc.coverage.cityTuluáspa
dc.coverage.spatialTuluá, Valle del Cauca, Colombiaspa
dc.date.accessioned2023-10-23T21:07:48Z
dc.date.available2023-10-23T21:07:48Z
dc.date.issued2022
dc.descriptionilustraciones, gráficos, tablasspa
dc.description.abstractLas notas clínicas son un objeto de información difícilmente procesable, debido a su diversidad léxica y semántica, lo que dificulta cualquier investigación relacionada con esta fuente de datos. Sin embargo, el procesamiento de lenguaje natural puede brindar solución a este problema, creando una estructura numérica para las notas clínicas, sin dejar de lado su contexto individual y su significado en conjunto. Una de las técnicas que permite realizar este procedimiento es el algoritmo Word2Vec, que acompañado de una red neuronal convolucional podría realizar una detección de sepsis, apoyado en la fórmula de SOFA (Sequential Organ Failure Assessment) que permite clasificar por gravedad pacientes con síntomas de sepsis. Para lo cual, se filtran y seleccionan los datos bajo diferentes parámetros a partir de diferentes clases por medio del lenguaje de programación Python con el fin de procesar la información estructurada y no estructurada de la base de datos MIMIC-III para comprobar la capacidad de los algoritmos y su eficiencia en la tarea propuesta. Finalmente se observa que el algoritmo LigthGBM procesa los datos estructurados con una precisión aproximada de 86% y que el algoritmo completo (Word2Vec + CNN) puede observar y modelar el comportamiento de los pacientes descrito a través de las notas clínicas con un 89.45% de precisión.spa
dc.description.abstractenglishClinical notes are a scarcely processable information object due to their lexical and semantic diversity, which complicates any research related to this data source. However, natural language processing can offer a solution to this problem by creating a numerical structure for clinical notes while preserving their individual context and overall meaning. One of the techniques that enables this procedure is the Word2Vec algorithm, which, when combined with a convolutional neural network, can detect sepsis, relying on the Sequential Organ Failure Assessment (SOFA) formula to classify patients with sepsis symptoms by severity. To achieve this, data is filtered and selected under different parameters from various classes using the Python programming language to process structured and unstructured information from the MIMIC-III database, testing the algorithms' capabilities and efficiency in the proposed task. Finally, it is observed that the LightGBM algorithm processes structured data with an approximate accuracy of 86%, and the complete algorithm (Word2Vec + CNN) can analyze and model patient behaviour described through clinical notes with an accuracy of 89.45%.eng
dc.description.degreelevelPregradospa
dc.description.degreenameIngeniero (a) electrónicospa
dc.description.tableofcontents1 Introducción e información general / 1.1 El problema / 1.1.1 Descripción / 1.2 Formulación / 1.3 Justificación / 1.4 Objetivos / 1.4.1 General / 1.4.2 Específicos / 1.5 Alcance / 2 Marco de referencia / 2.1 Marco teórico / 2.1.1 Machine Learning en la salud / 2.1.2 NLP asociado a notas clínicas / 2.2 Marco conceptual / 2.2.1 Notas clínicas / 2.2.2 Machine Learning / 2.2.3 JSON / 2.2.4 NLP / 2.2.5 SOFA (Sequential Organ Failure Assessment) / 2.3 Estado del arte / 3 Metodología de investigación / 3.1 Tipo de Investigación:/ 3.2 Metodología:/ 3.3 Etapas de la investigación / 3.3.1 Inicio / 3.3.2 Selección de la base de datos / 3.3.3 Visualización / 3.3.4 Estructuración / 3.3.5 Preprocesamiento de texto libre / 3.3.5.1 Cleaning Data / 3.3.5.2 Tokenization / 3.3.5.3 Stopwords Removal / 3.3.5.4 Lemmatize / 3.3.5.5 Lowercase / 3.3.5.6 Incrustaciones / 3.3.5.6.1 Word2Vec / 3.3.5.6.2 GloVe / 3.3.5.6.3 TF-IDF / 3.3.5.6.4 BERT / 3.3.5.7 Redes neuronales / 4 Esquematización de datos clínicos a partir de la estructuración y creación del CDA master y el CDA interno para el planteamiento del problema de NLP / 4.1 Análisis / 4.2 Selección de la base de datos / 4.3 Extracción de los datos / 4.4 Depuración y etiquetado / 4.4.1 Filtrado / 4.4.2 Visualización de flujos / 4.4.3 Etiquetado / 4.5 Creación del CDA Master / 4.6 Creación del CDA Interno / 4.7 Resumen numérico de algunos datos / 4.8 Dataframe / 4.8.1 Preprocesamiento de datos estructurados / 4.8.2 Creación del Dataframe / 4.8.3 Modificaciones del Dataframe / 4.8.4 Unos del Dataframe / 4.8.5 Imputación del Dataframe / 4.8.6 División del dataframe en Train and Test / 4.8.7 Modelamiento / 5 Preprocesar las notas clínicas para tokenizar y armonizar las características clínicas / 5.1 Limpieza de los datos / 5.2 Tokenización / 5.3 Remove Stop-Words and punctuation / 5.4 Lemmatize / 5.5 Lowercase / 5.6 Etiquetado de las notas clínicas / 5.7 Ejemplo de preprocesamiento / 6 Extraer los datos de las notas clínicas del EMR utilizando redes neuronales de tipo NLP / 6.1 Balance / 6.2 Selección / 6.3 Incrustación / 6.4 Red neuronal / 7 Evaluar el rendimiento de las técnicas de NLP para la caracterización de pacientes / 7.1 Datos estructurados / 7.1.1 Confusion Matrix / 7.1.1.1 Registros totales / 7.1.2 Classification Report / 7.2 Datos no estructurados / 7.2.1 Word2Vec / 7.2.2 CNN / 8 Conclusiones / 9 Propuestas para desarrollos posteriores / 10 Referenciasspa
dc.formatPDFspa
dc.format.extent83 páginasspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.citationMestizo, Andrés (2022). Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes. [Tesis de Pregrado]. Unidad Central Del Valle del Caucaspa
dc.identifier.instnameInstname:Unidad Central del Valle del Caucaspa
dc.identifier.reponamereponame:Repositorio Institucional Unidad Central del Valle del Caucaspa
dc.identifier.repourlrepourl:https://repositorio.uceva.edu.co/
dc.identifier.urihttp://hdl.handle.net/20.500.12993/3687
dc.language.isospaspa
dc.publisher.facultyFacultad de Ingenieríaspa
dc.publisher.programIngeniería Electrónicaspa
dc.relation.references1. Aarsen, T., Nothman, J., Bird, S., & Others. (2022, March 25). NLTK. https://www.nltk.org/index.htmlspa
dc.relation.references2. Agarwal, N. (2022, November 4). The Ultimate Guide To Different Word Embedding Techniques In NLP. KDnuggets.spa
dc.relation.references3. Anand, R., & Jeffrey David, U. (2011). Mining of massive datasets. Cambridge University Press.spa
dc.relation.references4. Andrade Tepán, E. C. (2013). Estudio de los principales tipos de redes neuronales y las herramientas para su aplicación.spa
dc.relation.references5. Arias, M. (2021). La distancia más corta. El método de los mínimos cuadrados. file:///C:/Users/andre/Downloads/Dialnet-LaDistanciaMasCortaElMetodoDeLosMinimosCuadrados-7878782.pdfspa
dc.relation.references6. Bakarov, A. (2018). A survey of word embeddings evaluation methods. ArXiv Preprint ArXiv:1801.09536.spa
dc.relation.references7. Bhatnagar, A., & Sethi, T. (2021). NLP based predictions in ICU.spa
dc.relation.references8. Bishop, C. M. (1994). Neural networks and their applications. Review of Scientific Instruments, 65(6), 1803–1832. https://doi.org/10.1063/1.1144830spa
dc.relation.references9. Choi, S., Lee, J., Kang, M.-G., Min, H., Chang, Y.-S., & Yoon, S. (2017). Large-scale machine learning of media outlets for understanding public reactions to nation-wide viral infection outbreaks. Methods, 129, 50–59.spa
dc.relation.references10. Christy Evangeline, N., Srinivasan, S., & Suresh, E. (2023). Application of non-contact thermography as a screening modality for Diabetic Foot Syndrome – A real time cross sectional research outcome. Biomedical Signal Processing and Control, 79. https://doi.org/10.1016/j.bspc.2022.104054spa
dc.relation.references11. de Oliveira, B. F. P., Valente, A. S. O., Victorino, M., Ribeiro, E., & Holanda, M. (2022). Analysis of the Influence of Modeling, Data Format and Processing Tool on the Performance of Hadoop-Hive Based Data Warehouse. Journal of Information and Data Management, 13(3).spa
dc.relation.references12. der Maaten, L., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research, 9(11).spa
dc.relation.references13. Derczynski, L. (2016). Complementarity, F-score, and NLP Evaluation. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), 261–266. https://aclanthology.org/L16-1040spa
dc.relation.references14. Developers, T. (2022). TensorFlow. Zenodo.spa
dc.relation.references15. Devlin, J., & Chang, M.-W. (2018). Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing.spa
dc.relation.references16. Dpto. Marketing y Comunicación. (2018). Machine Learning, una pieza clave en la transformación de los modelos de negocio. Managment Solutions, 6. https://www.managementsolutions.com/sites/default/files/publicaciones/esp/machine-learning.pdfspa
dc.relation.references17. Fodeh, S. J., Finch, D., Bouayad, L., Luther, S. L., Ling, H., Kerns, R. D., & Brandt, C. (2018). Classifying clinical notes with pain assessment using machine learning. Medical \& Biological Engineering \& Computing, 56(7), 1285–1292.spa
dc.relation.references18. Gao, M., Li, T., & Huang, P. (2019). Text Classification Research Based on Improved Word2vec and CNN. In X. Liu, M. Mrissa, L. Zhang, D. Benslimane, A. Ghose, Z. Wang, A. Bucchiarone, W. Zhang, Y. Zou, & Q. Yu (Eds.), Service-Oriented Computing – ICSOC 2018 Workshops (pp. 126–135). Springer International Publishing.spa
dc.relation.references19. Goh, K. H., Wang, L., Yeow, A. Y. K., Poh, H., Li, K., Yeow, J. J. L., & Tan, G. Y. H. (2021). Artificial intelligence in sepsis early prediction and diagnosis using unstructured data in healthcare. Nature Communications, 12(1), 711.spa
dc.relation.references20. Grefenstette, G. (1999). Tokenization. Syntactic Wordclass Tagging, 117–133.spa
dc.relation.references21. Gupta, S., Chatterjee, S., Sharma, A., Popolizio, M., di Lecce, V., Succi, M., Tremonte, P., Dario, R., & Rathore, V. S. (2023). Determination of Antibiotic Resistance Level in Klebsiella using Machine Learning Models. In Lecture Notes in Networks and Systems (Vol. 447). https://doi.org/10.1007/978-981-19-1607-6_80spa
dc.relation.references22. Herrera, F. (2016). Big Data: Preprocesamiento y calidad de datos. Novática, 237, 17.spa
dc.relation.references23. Hospital Universitario de Puebla. (2018). Presentación Expediente Clínico. http://cmas.siu.buap.mx/portal_pprd/work/sites/hup/resources/LocalContent/247/2/PRESENTACION%20EXPEDIENTE%20CLINICO.pdfspa
dc.relation.references24. IBM. (2022, June 7). Formato JSON (JavaScript Object Notation). IBM Business Automation Workflow. https://www.ibm.com/docs/es/baw/20.x?topic=formats-javascript-object-notation-json-formatspa
dc.relation.references25. Jang, B., Kim, I., & Kim, J. W. (2019). Word2vec convolutional neural networks for classification of news articles and tweets. PloS One, 14(8), e0220976.spa
dc.relation.references26. JCGM. (2012). Vocabolario Internacional de Metrología Conceptos fundamentales y generales, y terminos asociados.spa
dc.relation.references27. Jensen, K., Soguero-Ruiz, C., Oyvind Mikalsen, K., Lindsetmo, R.-O., Kouskoumvekaki, I., Girolami, M., Olav Skrovseth, S., & Augestad, K. M. (2017). Analysis of free text in electronic health records for identification of cancer patient trajectories. Scientific Reports, 7, 46226. https://doi.org/10.1038/srep46226spa
dc.relation.references28. Johnson, A., Pollard, T., & Mark, R. (2016). MIMIC-III Clinical Database.spa
dc.relation.references29. José A. Guerrero. (2016, July). El problema de la dimensionalidad. Revista Indice. http://www.revistaindice.com/numero68/p22.pdfspa
dc.relation.references30. Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition Third Edition draft Summary of Contents. https://web.stanford.edu/~jurafsky/slp3/ed3book.pdfspa
dc.relation.references31. Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., Ye, Q., & Liu, T.-Y. (2017). Lightgbm: A highly efficient gradient boosting decision tree. Advances in Neural Information Processing Systems, 30.spa
dc.relation.references32. Kumar, V., Recupero, D. R., Riboni, D., & Helaoui, R. (2021). Ensembling Classical Machine Learning and Deep Learning Approaches for Morbidity Identification From Clinical Notes. IEEE Access, 9, 7107–7126. https://doi.org/10.1109/ACCESS.2020.3043221spa
dc.relation.references33. Lahitani, A. R., Permanasari, A. E., & Setiawan, N. A. (2016). Cosine similarity to determine similarity measure: Study case in online essay assessment. 2016 4th International Conference on Cyber and IT Service Management, 1–6. https://doi.org/10.1109/CITSM.2016.7577578spa
dc.relation.references34. Leeson, W., Resnick, A., Alexander, D., & Rovers, J. (2019). Natural language processing (Nlp) in qualitative public health research: a proof of concept study. International Journal of Qualitative Methods, 18, 1609406919887021.spa
dc.relation.references35. Liu, R., Greenstein, J. L., Sarma, S. V, & Winslow, R. L. (2019). Natural language processing of clinical notes for improved early prediction of septic shock in the ICU. 2019 41st Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), 6103–6108.spa
dc.relation.references36. Luna, J. (2018, February 8). Tipos de aprendizaje automático. SoldAI. https://medium.com/soldai/tipos-de-aprendizaje-autom%C3%A1tico-6413e3c615e2spa
dc.relation.references37. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. ArXiv Preprint ArXiv:1301.3781.spa
dc.relation.references38. Norse, A., Guirgis, F., Page, L., & DeVos, E. L. (2021, April 15). Updates and Controversies in the Early Management of Sepsis and Septic Shock (Pharmacology CME). Emergency Medicine Practice.spa
dc.relation.references39. Nuthakki, S., Neela, S., Gichoya, J. W., & Purkayastha, S. (2019). Natural language processing of MIMIC-III clinical notes for identifying diagnosis and procedures with neural networks. ArXiv Preprint ArXiv:1912.12397.spa
dc.relation.references40. OMS. (2020, September 8). Llamamiento de la OMS a la acción mundial contra la septicemia, causa de una de cada cinco muertes en el mundo. Comunicados de Prensa.spa
dc.relation.references41. Pennington, J., Socher, R., & Manning, C. D. (2014). Glove: Global vectors for word representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532–1543.spa
dc.relation.references42. Peter Zhang, G. (2000). Neural Networks for Classification: A Survey. In APPLICATIONS AND REVIEWS (Vol. 30, Issue 4).spa
dc.relation.references43. Rahutomo, F., Kitasuka, T., & Aritsugi, M. (2012). Semantic cosine similarity. The 7th International Student Conference on Advanced Science and Technology ICAST, 4(1), 1.spa
dc.relation.references44. Řehůřek, R. (2022, December 21). Word2vec embeddings. Gensim.spa
dc.relation.references45. Sampieri, R., Fernández, C., & Baptista, M. del P. (2014). Metodología de la Investigación (6ta ed., Vol. 1). MC Graw Hill Education.spa
dc.relation.references46. Saripalle, R., Runyan, C., & Russell, M. (2019). Using HL7 FHIR to achieve interoperability in patient health record. Journal of Biomedical Informatics, 94, 103188.spa
dc.relation.references47. Scikit Learn. (2023). sklearn.model_selection.StratifiedShuffleSplit. Https://Scikit-Learn.Org/Stable/Modules/Generated/Sklearn.Model_selection.StratifiedShuffleSplit.Html.spa
dc.relation.references48. Silvatt, C., & Ribeirot, B. (2003). The Importance of Stop Word Removal on Recall Values in Text Categorization.spa
dc.relation.references49. Singer, M., Deutschman, C. S., Seymour, C., Shankar-Hari, M., Annane, D., Bauer, M., Bellomo, R., Bernard, G. R., Chiche, J. D., Coopersmith, C. M., Hotchkiss, R. S., Levy, M. M., Marshall, J. C., Martin, G. S., Opal, S. M., Rubenfeld, G. D., Poll, T. Der, Vincent, J. L., & Angus, D. C. (2016). The third international consensus definitions for sepsis and septic shock (sepsis-3). In JAMA - Journal of the American Medical Association (Vol. 315, Issue 8, pp. 801–810). American Medical Association. https://doi.org/10.1001/jama.2016.0287spa
dc.relation.references50. Singer, M., Deutschman, C. S., Seymour, C. W., Shankar-Hari, M., Annane, D., Bauer, M., Bellomo, R., Bernard, G. R., Chiche, J.-D., Coopersmith, C. M., Hotchkiss, R. S., Levy, M. M., Marshall, J. C., Martin, G. S., Opal, S. M., Rubenfeld, G. D., van der Poll, T., Vincent, J.-L., & Angus, D. C. (2016). The Third International Consensus Definitions for Sepsis and Septic Shock (Sepsis-3). JAMA, 315(8), 801–810. https://doi.org/10.1001/jama.2016.0287spa
dc.relation.references51. Toro Beltrán, C. F., & Orejuela Ruiz, V. M. (2022). Anal\’\itica a datos cl\’\inicos de pacientes de sepsis, estructurados bajo el estándar HL7 FHIR (CDA), facilitando la visualización en un dashboard para el diagnóstico oportuno.spa
dc.relation.references52. Van Otten, N. (2023, February 15). Tutorial TF-IDF vs Word2Vec For Text Classification [How To In Python With And Without CNN]. Spot Intelligence.spa
dc.relation.references53. Verspoor, K., & Cohen, K. B. (2013). Natural Language Processing. In Encyclopedia of Systems Biology (pp. 1495–1498). Springer New York. https://doi.org/10.1007/978-1-4419-9863-7_158spa
dc.relation.references54. Yun-tao, Z., Ling, G., & Yong-cheng, W. (2005). An improved TF-IDF approach for text classification. Journal of Zhejiang University-Science A, 6, 49–55.spa
dc.relation.references55. Zhang, X., Chen, Y., Salerno, S., Li, Y., Zhou, L., Zeng, X., & Li, H. (2022). Prediction of severe preeclampsia in machine learning. Medicine in Novel Technology and Devices, 15. https://doi.org/10.1016/j.medntd.2022.100158spa
dc.relation.references56. Zhao, X., Shen, W., Wang, G., & others. (2021). Early prediction of sepsis based on machine learning algorithm. Computational Intelligence and Neuroscience, 2021.spa
dc.relation.references57. Zhou, M., Duan, N., Liu, S., & Shum, H.-Y. (2020). Progress in Neural NLP: Modeling, Learning, and Reasoning. Engineering, 6(3), 275–290. https://doi.org/https://doi.org/10.1016/j.eng.2019.12.014spa
dc.rightsDerechos reservados - Unidad Central del Valle del Caucaspa
dc.rights.accessrightsinfo:eu-repo/semantics/closedAccessspa
dc.rights.coarhttp://purl.org/coar/access_right/c_14cbspa
dc.rights.licenseAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)*
dc.rights.localCerradospa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0*
dc.subject.keywordsMachine Learningeng
dc.subject.keywordsSepsiseng
dc.subject.keywordsLightGBMeng
dc.subject.keywordsWord2Veceng
dc.subject.keywordsMIMIC-IIIeng
dc.subject.keywordsSOFAeng
dc.subject.keywordsNeural Networkseng
dc.subject.keywordsNLPeng
dc.subject.proposalMachine Learningspa
dc.subject.proposalSepsisspa
dc.subject.proposalLightGBMspa
dc.subject.proposalWord2Vecspa
dc.subject.proposalMIMIC-IIIspa
dc.subject.proposalSOFAspa
dc.subject.proposalRedes Neuronalesspa
dc.subject.proposalNLPspa
dc.titleEvaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientesspa
dc.title.titleenglishAssessment of Natural Language Processing techniques for characterizing patients using EMR clinical notes.spa
dc.typebachelor thesisspa
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1fspa
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/bachelorThesisspa
dc.type.localTesis/Trabajo de grado - Monografía - Pregradospa
dc.type.versioninfo:eu-repo/semantics/acceptedVersionspa
dcterms.audiencePúblico generalspa
dcterms.audience.professionaldevelopmentPregradospa
dcterms.audience.professionaldevelopmentEspecializaciónspa

Archivos

Bloque original

Mostrando 1 - 2 de 2
Cargando...
Miniatura
Nombre:
TG-AndresMestizo.pdf
Tamaño:
5.32 MB
Formato:
Adobe Portable Document Format
Descripción:
Trabajo de grado pregrado
Cargando...
Miniatura
Nombre:
AnexoTG-Grafica.pdf
Tamaño:
37.15 KB
Formato:
Adobe Portable Document Format
Descripción:
Anexos trabajo de grado pregrado

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
2.17 KB
Formato:
Item-specific license agreed upon to submission
Descripción: