La mayoría de herramientas de extracción de terminología son comerciales, como MultitermExtract o PhraseFinder de SDL. Sin embargo, de vez en cuando encontramos alguna herramienta gratuita como Lexterm, que permite extraer listados de términos a partir de textos, tanto monolingües, como bilingües. El corpus paralelo ha de ser un fichero de texto con un segmento original seguido de tabulador y del segmento traducido en cada línea. Así pues, si podemos exportar de la memoria de traducción o del archivo de alineación a formato txt en tabla, será suficiente.
La herramienta puede descargarse en este enlace, desde donde próximamente se anuncia la descarga de Libertra, un sistema de traducción asistida de código libre. Los autores hacen una presentación de la misma en este artículo.
La aplicación, que sólo tiene interfaz en catalán, se distribuye como un ejecutable para Windows que no necesita instalación. Así pues, sólo hemos de descargarnos el zip y descomprimirlo en el lugar donde queramos guardar la aplicación. Después bastará con crear un icono de acceso directo en el escritorio o en nuestro menú de Inicio.
Una vez abierto, podemos abrir textos monolingües o bilingües, siempre en formato txt (es decir, si tenemos archivos en otros formatos, habrá que convertirlos antes).
La herramienta permite también la aplicación de stop lists o listas de palabras vacías. Con el zip vienen tres, en inglés, catalán y español, y podéis encontrar otras en este enlace. La herramienta también nos permite limitar el número de n-gramas para la extracción, para que extraiga agrupaciones de 1, 2 y hasta 10 palabras.
Este sería un ejemplo de cómo deberíamos proceder para extraer candidatos de un corpus bilingüe:
Cuando se busca un equivalente de traducción siempre selecciona el más probable, pero es posible visualizar todos los posibles candidatos por orden de probabilidad. LexTerm también permite visualizar los contentos donde aparece el término original y traducido con el menú Cerca, seleccionando previamente el término. Esto puede ser de utilidad en caso de duda.
Una vez revisada la lista de candidatos y de equivalentes el resultado de la extracción se puede exportar a un formato de texto separado por tabuladores. Para exportar los términos, hemos de marcarlos en la lista. A partir de este formato se pueden introducir los términos en un sistema de gestión de terminología o importarlos en una base de datos terminológica de alguna herramienta de traducción asistida.
¡Espero que os sea de utilidad la herramienta…! Yo la he probado un par de veces y, aunque obviamente hay que revisar la lista, pensad en el trabajo que os ahorra si tuvierais que hacerlo de forma manual.
Yo lo he probado y no está nada mal, aunque la interfaz es un poco rudimentaria y no recuerdo mal el programa se ralentizaba bastante al utilizar la barra de desplazamiento. Pero sí, está muy bien para hacerse una idea de qué términos se deben incluir en un glosario :)
Entiendo que las faltas de ortografía (grauita en lugar de gratuita; uso de la conjunción i en lugar de y, etc.), en este artículo, se deben a la escasez de tiempo.
Pero, un traductor debería intentar publicar sus artículos sin errores ortográficos.
Al fin y al cabo, Internet es un escaparate abierto al público y los proveedores de servicios lingüísticos también nos leen sigilosamente.
Por lo demás, el contenido del artículo es muy interesante.
Gracias por el comentario. Te comento que las erratas (más que faltas de ortografía), se deben en parte a la falta de tiempo (aunque lleva bastante tiempo escribir una entrada así) y en parte a que todavía no he conseguido que me funcione bien el corrector ortográfico de Wordprss. Sin ánimo a que esto suene a excusa, escribir en el editor de WordPress no es lo más cómodo del mundo, sobre todo cuando a veces tengo que insertar directamente código HTML y, cuando el cansancio aprieta, los ojos me hacen chiribitas intentando descifrar dónde termina una etiqueta y dónde empieza el texto…
Pero lo dicho, gracias, ya las he corregido. Seguiré trabajando para que las entradas estén bien escritas y contengan temas de vuestro interés.
Saludos
Coincido plenamente con los conceptos vertidos.
Es fundamental, como bien destaca, el uso correcto de las herramientas informáticas de asistencia de la traducción.
He publicado algunos artículos que son instructivos para sacar un mayor provecho de estos programas:
http://blog-de-traduccion.trustedtranslations.com/%c2%bfque-es-multiterm-2008-11-20.html
Atte.,
Amelia
Hola Laura!
Muy bueno lo tuyo. Hago una Licenciatura de Traductorado de Portugués y me asomé hace poco al uso de Lexterm.
Estoy buscando biliografia sobre el uso y la utilidad de Lexterm como este artículo tuyo. También me gustaría conseguir el Manual del Usuario de Lexterm en español porque hasta ahora lo tengo en catalán y no se entiende 100%.
Y si no fuera mucho pedir… Pasame algunas pistas o recomendaciones para trabajar con corpora paralelos con Lexterm.
Felicitaciones por el Blog. Cariños desde Rosario, Argentina.
Daniel
Hola Daniel:
Gracias por tu comentario. Pues además de lo que comento en el blog, no se me ocurren muchas más cosas que aconsejarte para trabajar con la herramienta. Mira también el post de Silvia Flórez sobre Lexterm: http://aflorez.wordpress.com/2009/09/10/extraccion-terminologica-bilingue-con-lexter/
Ahí está el enlace para descargarte la versión inglesa, con el manual en esta lengua, que quizá te pueda servir de ayuda.
Hola Laura,
Gracias por el enlace. Lo que no entendía es que hay que construir un nuevo archivo con las dos lenguas. Ahora lo tengo claro: un párrafo en la Lengua 1, un tab, el mismo párrafo con la Lengua 2 y así hasta terminar. Me comuniqué con la gente de la Universidad de Cataluña –gente muy atenta– y me enviaron un enlace para encontrar una herramienta que hace ese trabajo. Mas adelante vuelvo para preguntar sobre el Trados. Perdón, estoy en los comienzos. Saludos. Daniel
Hola a todos,
Yo también estoy trabajando con LeXterm y estos posts son de gran utilidad.
Daniel, ¿te importaría decirnos cuál es ese programa que separa el texto bilingüe en dos párrafos separados por tabulación? Sería bastante útil :)
Un saludo y muchas gracias por toda la información.
ANA