Nov
26

LexTerm: extracción de terminología gratuita

Filed Under (Extracción Terminológica, Lexterm, Marcas, Software) by Laura on 26-11-2008 and tagged ,

La mayoría de herramientas de extracción de terminología son comerciales, como MultitermExtract o PhraseFinder de SDL. Sin embargo, de vez en cuando encontramos alguna herramienta gratuita como Lexterm, que permite extraer listados de términos a partir de textos, tanto monolingües, como bilingües. El corpus paralelo ha de ser un fichero de texto con un segmento original seguido de tabulador y del segmento traducido en cada línea. Así pues, si podemos exportar de la memoria de traducción o del archivo de alineación a formato txt en tabla, será suficiente.

La herramienta puede descargarse en este enlace, desde donde próximamente se anuncia la descarga de Libertra, un sistema de traducción asistida de código libre. Los autores hacen una presentación de la misma en este artículo.

La aplicación, que sólo tiene interfaz en catalán, se distribuye como un ejecutable para Windows que no necesita instalación. Así pues, sólo hemos de descargarnos el zip y descomprimirlo en el lugar donde queramos guardar la aplicación. Después bastará con crear un icono de acceso directo en el escritorio o en nuestro menú de Inicio.

Una vez abierto, podemos abrir textos monolingües o bilingües, siempre en formato txt (es decir, si tenemos archivos en otros formatos, habrá que convertirlos antes).

La herramienta permite también la aplicación de stop lists o listas de palabras vacías. Con el zip vienen tres, en inglés, catalán y español, y podéis encontrar otras en este enlace. La herramienta también nos permite limitar el número de n-gramas para la extracción, para que extraiga agrupaciones de 1, 2 y hasta 10 palabras.

Este sería un ejemplo de cómo deberíamos proceder para extraer candidatos de un corpus bilingüe:

  • Elegir la codificación adecuada, dependiendo de los idiomas con los que estemos trabajando. Esto se hace en el menú Configuració, opción General.
  • Seleccionamos el corpus bilingüe en el menú Fitxer, opción Obri corpus paral.lel. Se cargará el corpus. A veces da problemas, no sé si por la codificación o el formato del archivo. Lo he probado con varios y todavía no he averiguado a qué se debe…
  • Configurar la extracción de n-gramas, en el menú Configuració, opción n-gramas. Aquí configuramos de qué tamaño han de ser los n-gramas, cuántos han de aparecer en pantalla, cuántas veces han de aparecer como mínimo para que se nos muestren, si queremos utilizar una lista de palabras vacías… Es también muy IMPORTANTE que esté marcada la opción “Utilitza un corpus paral.lel” si utilizamos uno bilingüe y la opción “Unigrams” para extraer también unigramas.
  • Extraer las unidades léxicas de los segmentos de la lengua origen: para ello simplemente hacemos clic en el menú n-gramas. Aparece entonces una barra de proceso. Cuando termina, un mensaje nos avisa de que se mostrará sólo el número de candidatos que hayamos seleccionado y que aparezcan las veces que hayamos marcado. Aparece una lista con los términos más frecuentes, con el número de veces que aparecen.
  • Extraer equivalentes: este proceso es algo laborioso, según he podido comprobar. Se trata de seleccionar el término que nos interesa y darle a Tond. Para configurar las opciones de de esta función, menú Configuració, opción Tond. Nos aparece entonces una lista de los equivalentes candidatos.

extraccion

Cuando se busca un equivalente de traducción siempre selecciona el más probable, pero es posible visualizar todos los posibles candidatos por orden de probabilidad. LexTerm también permite visualizar los contentos donde aparece el término original y traducido con el menú Cerca, seleccionando previamente el término. Esto puede ser de utilidad en caso de duda.

cerca

Una vez revisada la lista de candidatos y de equivalentes el resultado de la extracción se puede exportar a un formato de texto separado por tabuladores. Para exportar los términos, hemos de marcarlos en la lista. A partir de este formato se pueden introducir los términos en un sistema de gestión de terminología o importarlos en una base de datos terminológica de alguna herramienta de traducción asistida.

¡Espero que os sea de utilidad la herramienta…! Yo la he probado un par de veces y, aunque obviamente hay que revisar la lista, pensad en el trabajo que os ahorra si tuvierais que hacerlo de forma manual.



8 Comments Already, Leave Yours Too

Pablo Muñoz on 27 November, 2008 at 10:25 am #
    

Yo lo he probado y no está nada mal, aunque la interfaz es un poco rudimentaria y no recuerdo mal el programa se ralentizaba bastante al utilizar la barra de desplazamiento. Pero sí, está muy bien para hacerse una idea de qué términos se deben incluir en un glosario :)


Paul Bouvier on 5 December, 2008 at 19:20 pm #
    

Entiendo que las faltas de ortografía (grauita en lugar de gratuita; uso de la conjunción i en lugar de y, etc.), en este artículo, se deben a la escasez de tiempo.

Pero, un traductor debería intentar publicar sus artículos sin errores ortográficos.

Al fin y al cabo, Internet es un escaparate abierto al público y los proveedores de servicios lingüísticos también nos leen sigilosamente.

Por lo demás, el contenido del artículo es muy interesante.


Laura on 5 December, 2008 at 22:37 pm #
    

Gracias por el comentario. Te comento que las erratas (más que faltas de ortografía), se deben en parte a la falta de tiempo (aunque lleva bastante tiempo escribir una entrada así) y en parte a que todavía no he conseguido que me funcione bien el corrector ortográfico de Wordprss. Sin ánimo a que esto suene a excusa, escribir en el editor de WordPress no es lo más cómodo del mundo, sobre todo cuando a veces tengo que insertar directamente código HTML y, cuando el cansancio aprieta, los ojos me hacen chiribitas intentando descifrar dónde termina una etiqueta y dónde empieza el texto…
Pero lo dicho, gracias, ya las he corregido. Seguiré trabajando para que las entradas estén bien escritas y contengan temas de vuestro interés.
Saludos


amelia on 19 December, 2008 at 15:59 pm #

Daniel Barrantes on 11 November, 2009 at 14:50 pm #
    

Hola Laura!

Muy bueno lo tuyo. Hago una Licenciatura de Traductorado de Portugués y me asomé hace poco al uso de Lexterm.

Estoy buscando biliografia sobre el uso y la utilidad de Lexterm como este artículo tuyo. También me gustaría conseguir el Manual del Usuario de Lexterm en español porque hasta ahora lo tengo en catalán y no se entiende 100%.

Y si no fuera mucho pedir… Pasame algunas pistas o recomendaciones para trabajar con corpora paralelos con Lexterm.

Felicitaciones por el Blog. Cariños desde Rosario, Argentina.

Daniel


Laura on 13 November, 2009 at 12:24 pm #
    

Hola Daniel:
Gracias por tu comentario. Pues además de lo que comento en el blog, no se me ocurren muchas más cosas que aconsejarte para trabajar con la herramienta. Mira también el post de Silvia Flórez sobre Lexterm: http://aflorez.wordpress.com/2009/09/10/extraccion-terminologica-bilingue-con-lexter/
Ahí está el enlace para descargarte la versión inglesa, con el manual en esta lengua, que quizá te pueda servir de ayuda.


Daniel Barrantes on 19 November, 2009 at 15:29 pm #
    

Hola Laura,

Gracias por el enlace. Lo que no entendía es que hay que construir un nuevo archivo con las dos lenguas. Ahora lo tengo claro: un párrafo en la Lengua 1, un tab, el mismo párrafo con la Lengua 2 y así hasta terminar. Me comuniqué con la gente de la Universidad de Cataluña –gente muy atenta– y me enviaron un enlace para encontrar una herramienta que hace ese trabajo. Mas adelante vuelvo para preguntar sobre el Trados. Perdón, estoy en los comienzos. Saludos. Daniel


ANA BELEN LAGUNA PRADAS on 24 February, 2011 at 20:09 pm #
    

Hola a todos,

Yo también estoy trabajando con LeXterm y estos posts son de gran utilidad.
Daniel, ¿te importaría decirnos cuál es ese programa que separa el texto bilingüe en dos párrafos separados por tabulación? Sería bastante útil :)

Un saludo y muchas gracias por toda la información.

ANA


Post a Comment
Name:
Email:
Website:
Comments:

¡IMPORTANTE! Responde a la pregunta: ¿Cuál es el valor de 3 6 ?