La mayoría de herramientas de extracción de terminología son comerciales, como MultitermExtract o PhraseFinder de SDL. Sin embargo, de vez en cuando encontramos alguna herramienta gratuita como Lexterm, que permite extraer listados de términos a partir de textos, tanto monolingües, como bilingües. El corpus paralelo ha de ser un fichero de texto con un segmento original seguido de tabulador y del segmento traducido en cada línea. Así pues, si podemos exportar de la memoria de traducción o del archivo de alineación a formato txt en tabla, será suficiente.
La herramienta puede descargarse en este enlace, desde donde próximamente se anuncia la descarga de Libertra, un sistema de traducción asistida de código libre. Los autores hacen una presentación de la misma en este artículo.
La aplicación, que sólo tiene interfaz en catalán, se distribuye como un ejecutable para Windows que no necesita instalación. Así pues, sólo hemos de descargarnos el zip y descomprimirlo en el lugar donde queramos guardar la aplicación. Después bastará con crear un icono de acceso directo en el escritorio o en nuestro menú de Inicio.
Una vez abierto, podemos abrir textos monolingües o bilingües, siempre en formato txt (es decir, si tenemos archivos en otros formatos, habrá que convertirlos antes).
La herramienta permite también la aplicación de stop lists o listas de palabras vacías. Con el zip vienen tres, en inglés, catalán y español, y podéis encontrar otras en este enlace. La herramienta también nos permite limitar el número de n-gramas para la extracción, para que extraiga agrupaciones de 1, 2 y hasta 10 palabras.
Este sería un ejemplo de cómo deberíamos proceder para extraer candidatos de un corpus bilingüe:
Cuando se busca un equivalente de traducción siempre selecciona el más probable, pero es posible visualizar todos los posibles candidatos por orden de probabilidad. LexTerm también permite visualizar los contentos donde aparece el término original y traducido con el menú Cerca, seleccionando previamente el término. Esto puede ser de utilidad en caso de duda.
Una vez revisada la lista de candidatos y de equivalentes el resultado de la extracción se puede exportar a un formato de texto separado por tabuladores. Para exportar los términos, hemos de marcarlos en la lista. A partir de este formato se pueden introducir los términos en un sistema de gestión de terminología o importarlos en una base de datos terminológica de alguna herramienta de traducción asistida.
¡Espero que os sea de utilidad la herramienta…! Yo la he probado un par de veces y, aunque obviamente hay que revisar la lista, pensad en el trabajo que os ahorra si tuvierais que hacerlo de forma manual.