Este documento se trata del procesamiento de lenguaje natural (NLP, por sus siglas en inglés), que se enfoca en desarrollar sistemas de comunicación efectivos entre computadoras y humanos. Aunque los mayores avances en esta área se han logrado mediante grandes modelos de lenguaje (LLMs, por sus siglas en inglés), estos suelen ser imprecisos en dominios regidos por reglas, como las relaciones espaciales o las normas legales. Para abordar estos dominios, se utilizan parsers semánticos que asignan representaciones lógicas a los textos a través del análisis de su estructura sintáctica y la interpretación semántica. Sin embargo, estos parsers son complejos y su diseño es complicado debido a la implementación manual de reglas específicas. Este estudio propone un enfoque innovador que utiliza el aprendizaje por refuerzo profundo para desarrollar un parser semántico que pueda aprender y adaptarse automáticamente. El agente, a través de recompensas, optimizará su comportamiento con el tiempo, lo que podría tener un impacto significativo en el avance del procesamiento de lenguaje natural.