Visibilizar lo invisibilizado: herramienta de procesamiento de lenguaje natural para sistematizar noticias de homicidios de población LGBTIQ+

Descripción

Tesis de maestría

Tutor

Andrade Lotero, Edgar José Persona

Autor

Rivera Burgos, Jenny Paola

Resumen

En Colombia, la violencia contra personas LGBTIQ+ continúa siendo una problemática sistemáticamente invisibilizada por las estadísticas oficiales, que carecen de variables diferenciales y de contexto. Diversas organizaciones sociales han recurrido a los medios de comunicación como fuente alternativa para documentar estos casos, enfrentándose al reto de sistematizar grandes volúmenes de información no estructurada. Este trabajo propone una herramienta de procesamiento de lenguaje natural (NLP) para automatizar la recolección, clasificación y extracción de variables clave a partir de noticias digitales sobre homicidios. El sistema desarrollado abarca todas las etapas del ciclo de vida del aprendizaje automático. Primero, se implementó un proceso de web scraping para recolectar noticias desde Google Noticias. Luego, estas fueron etiquetadas manualmente mediante Label Studio, utilizando un esquema BIO con 24 entidades de interés. Se entrenaron dos modelos basados en BETO, una variante de BERT para español: uno para clasificación binaria (detectar si la noticia corresponde a un homicidio) y otro para reconocimiento de entidades nombradas (NER). La selección de hiperparámetros se realizó mediante búsqueda aleatoria y se incorporó una estrategia de aprendizaje activo basada en entropía y mínima confianza para priorizar ejemplos ambiguos durante la anotación. El modelo de clasificación alcanzó un accuracy del 85 %, con un F1-score de 0.89 para la clase “relevante”. El modelo NER mostró buen desempeño en variables frecuentes como nombre de la víctima, edad, lugar y fecha del hecho, con F1-scores superiores a 0.70. Finalmente, se desplegó un producto viable mínimo (MVP) en forma de una aplicación web que permite a los usuarios ingresar un rango de fechas y obtener una tabla estructurada con los casos identificados y las entidades extraídas. Este proyecto representa una contribución técnica, metodológica y política al análisis de violencia por prejuicio en Colombia. Al combinar NLP con una perspectiva de derechos humanos, ofrece una solución replicable para organizaciones sociales, periodistas e investigadoras interesadas en transformar grandes volúmenes de texto en evidencia estructurada para la exigibilidad de justicia.

fecha de publicación

septiembre 22, 2025 6:29 p. m.

tiene restricción

info:eu-repo/semantics/openAccess

VIVO
VIVO

Visibilizar lo invisibilizado: herramienta de procesamiento de lenguaje natural para sistematizar noticias de homicidios de población LGBTIQ+ Tesis

Perfil

Descripción

Tutor

Autor

Resumen

fecha de publicación

tiene restricción

Identidad

Identificador de objeto digital (DOI)

Comprometidos
con la calidad