Proyecto
Nuestro Trabajo de Fin de Máster se enmarca dentro del proyecto LEIA de Telefónica y la Real Academia Española en el que participamos colaborando como alumnos del Máster en Letras Digitales de la Universidad Complutense de Madrid.
Instituciones
Las instituciones buscan adaptarse al medio digital. Poseer herramientas para el manejo del big data resulta crucial.
Topic modeling
El procesado del lenguaje natural ofrece distintas técnicas para la clasificación automática de corpus de gran tamaño, uno de ellos es topic modeling, que a su vez cuenta con distintos modelos.
Memoria
Realizada con LateX en el entorno Overleaf, nuestra memoria recoge todos los aspectos de nuestro proyecto.
Objetivos
El objetivo global de este trabajo parte del análisis de un corpus que comprende aproximadamente 30.000 tuits recibidos por la cuenta institucional de la Real Academia de la Lengua en su perfil de Twitter @RAEinforma
Objetivo transversal
El trabajo nace con el objetivo transversal de descubrir y clasificar los temas más comunes entre las consultas realizadas en Twitter a la cuenta oficial de la Real Academia Española. Partiendo de este objetivo central, nos planteamos el resto de metas que favorecían al logro del propósito principal. Estos objetivos se dividen en dos grupos:
- Objetivos de corte teórico
- Objetivos de ejcución práctica
Objetivos de corte teórico
Los objetivos teóricos se focalizan en conocer la situación actual de las instituciones enel plano de la comunicación digital.
Más concretamente, en la necesidad de describir la situación actual en el plano digital de la institución de referencia del español en el mundo: la Real Academia Española.
- Seguidores
- Interacciones
- Relevancia
Objetivo de ejecución práctica
Estos son los que constituyen la ambiciosa meta de nuestro trabajo: la clasificación de las consultas recibidas en forma de tuit por la RAE. Ante las incesantes dudas recibidas, el organismo precisa de una herramienta informática que le ayude a identificar sobre qué preguntan más los usuarios. Para lograr esa clasificación, necesitamos una técnica de procesamiento del lenguaje natural. En nuestro caso, optamos por el entrenamiento de dos algoritmos de topic modeling capaces de realizar la tarea.
Realizamos el estudio que se precisaba sobre topic modeling y los dos algoritmos seleccionados:
- Usamos LSA
- Usamos LDA
Cuestiones base
- ¿Cuáles son las dudas más frecuentes?
- ¿Es posible agrupar las dudas de alguna manera para ofrecer respuestas automáticas?