La mayoría de herramientas de extracción de terminología son comerciales, como MultitermExtract o PhraseFinder de SDL. Sin embargo, de vez en cuando encontramos alguna herramienta gratuita como Lexterm, que permite extraer listados de términos a partir de textos, tanto monolingües, como bilingües. El corpus paralelo ha de ser un fichero de texto con un segmento original seguido de tabulador y del segmento traducido en cada línea. Así pues, si podemos exportar de la memoria de traducción o del archivo de alineación a formato txt en tabla, será suficiente.

La herramienta puede descargarse en este enlace, desde donde próximamente se anuncia la descarga de Libertra, un sistema de traducción asistida de código libre. Los autores hacen una presentación de la misma en este artículo.

La aplicación, que sólo tiene interfaz en catalán, se distribuye como un ejecutable para Windows que no necesita instalación. Así pues, sólo hemos de descargarnos el zip y descomprimirlo en el lugar donde queramos guardar la aplicación. Después bastará con crear un icono de acceso directo en el escritorio o en nuestro menú de Inicio.

Una vez abierto, podemos abrir textos monolingües o bilingües, siempre en formato txt (es decir, si tenemos archivos en otros formatos, habrá que convertirlos antes).

La herramienta permite también la aplicación de stop lists o listas de palabras vacías. Con el zip vienen tres, en inglés, catalán y español, y podéis encontrar otras en este enlace. La herramienta también nos permite limitar el número de n-gramas para la extracción, para que extraiga agrupaciones de 1, 2 y hasta 10 palabras.

Este sería un ejemplo de cómo deberíamos proceder para extraer candidatos de un corpus bilingüe:

  • Elegir la codificación adecuada, dependiendo de los idiomas con los que estemos trabajando. Esto se hace en el menú Configuració, opción General.
  • Seleccionamos el corpus bilingüe en el menú Fitxer, opción Obri corpus paral.lel. Se cargará el corpus. A veces da problemas, no sé si por la codificación o el formato del archivo. Lo he probado con varios y todavía no he averiguado a qué se debe…
  • Configurar la extracción de n-gramas, en el menú Configuració, opción n-gramas. Aquí configuramos de qué tamaño han de ser los n-gramas, cuántos han de aparecer en pantalla, cuántas veces han de aparecer como mínimo para que se nos muestren, si queremos utilizar una lista de palabras vacías… Es también muy IMPORTANTE que esté marcada la opción “Utilitza un corpus paral.lel” si utilizamos uno bilingüe y la opción “Unigrams” para extraer también unigramas.
  • Extraer las unidades léxicas de los segmentos de la lengua origen: para ello simplemente hacemos clic en el menú n-gramas. Aparece entonces una barra de proceso. Cuando termina, un mensaje nos avisa de que se mostrará sólo el número de candidatos que hayamos seleccionado y que aparezcan las veces que hayamos marcado. Aparece una lista con los términos más frecuentes, con el número de veces que aparecen.
  • Extraer equivalentes: este proceso es algo laborioso, según he podido comprobar. Se trata de seleccionar el término que nos interesa y darle a Tond. Para configurar las opciones de de esta función, menú Configuració, opción Tond. Nos aparece entonces una lista de los equivalentes candidatos.

extraccion

Cuando se busca un equivalente de traducción siempre selecciona el más probable, pero es posible visualizar todos los posibles candidatos por orden de probabilidad. LexTerm también permite visualizar los contentos donde aparece el término original y traducido con el menú Cerca, seleccionando previamente el término. Esto puede ser de utilidad en caso de duda.

cerca

Una vez revisada la lista de candidatos y de equivalentes el resultado de la extracción se puede exportar a un formato de texto separado por tabuladores. Para exportar los términos, hemos de marcarlos en la lista. A partir de este formato se pueden introducir los términos en un sistema de gestión de terminología o importarlos en una base de datos terminológica de alguna herramienta de traducción asistida.

¡Espero que os sea de utilidad la herramienta…! Yo la he probado un par de veces y, aunque obviamente hay que revisar la lista, pensad en el trabajo que os ahorra si tuvierais que hacerlo de forma manual.