Esta semana va de herramientas… Aprovecho el curso que hice la semana pasada de Déjà Vu, sobre el que también tengo pensado hablaros, para presentaros esta herramienta que me dio a conocer el profe del curso, Ignacio Hermo (gracias, Nacho :).
Se trata de Intelliwebsearch, una herramienta desarrollada por Mike Farrell, traductor Italiano->Inglés.
Esta herramienta puede ahorrarnos mucho tiempo a la hora de buscar información en Internet sobre algún término o expresión que nos encontremos mientras traducimos, ya que lo que hace es buscar en varios recursos al mismo tiempo con sólo teclear una simple combinación de teclas. Se acabó abrir el navegador, abrir diferentes pestañas, teclear 10 veces el mismo término para encontrar un posible equivalente en 10 diccionarios diferentes…
Nos podemos bajar la herramienta desde este enlace. Una vez instalada, es recomendable configurar la aplicación, ya que por defecto hay muchos recursos IT-EN que no nos interesan necesariamente si trabajamos con otras lenguas. Para ello, al ejecutarla, se aloja como aplicación residente en nuestra barra de tareas (en Windows normalmente en el extremo derecho inferior de la pantalla), con un icono en forma de i de color rojo. Con el botón derecho vamos a la opción Configuración de búsqueda. Aquí aparece una lista de los diccionarios y recursos en los que podemos buscar por defecto, agrupados en Grupo 1, Grupo 2. Esto se hace para no buscar en 50 recursos al mismo tiempo. Por ejemplo, si trabajamos con dos lenguas extranjeras, podemos tener los 10 primeros recursos adscritos al grupo 1 y que busquen en páginas en la primera lengua extranjera, y el segundo grupo con recursos que busquen en la segunda lengua extranjera. Un tercer grupo pueden ser recursos monolingües en la lengua meta etc. Desde el menú Editar podemos añadir nuevos recursos, y haciendo doble clic sobre los mismos, editar las preferencias:
Después, en principio, son tres pasos los que tenemos que seguir:
Bien, estos son los pasos básicos para poder empezar a trabajar con la herramienta. Podéis encontrar más detalles en la Ayuda, disponible en francés y en
Y, ¿qué os parece? Práctico, ¿verdad?
La mayoría de herramientas de extracción de terminología son comerciales, como MultitermExtract o PhraseFinder de SDL. Sin embargo, de vez en cuando encontramos alguna herramienta gratuita como Lexterm, que permite extraer listados de términos a partir de textos, tanto monolingües, como bilingües. El corpus paralelo ha de ser un fichero de texto con un segmento original seguido de tabulador y del segmento traducido en cada línea. Así pues, si podemos exportar de la memoria de traducción o del archivo de alineación a formato txt en tabla, será suficiente.
La herramienta puede descargarse en este enlace, desde donde próximamente se anuncia la descarga de Libertra, un sistema de traducción asistida de código libre. Los autores hacen una presentación de la misma en este artículo.
La aplicación, que sólo tiene interfaz en catalán, se distribuye como un ejecutable para Windows que no necesita instalación. Así pues, sólo hemos de descargarnos el zip y descomprimirlo en el lugar donde queramos guardar la aplicación. Después bastará con crear un icono de acceso directo en el escritorio o en nuestro menú de Inicio.
Una vez abierto, podemos abrir textos monolingües o bilingües, siempre en formato txt (es decir, si tenemos archivos en otros formatos, habrá que convertirlos antes).
La herramienta permite también la aplicación de stop lists o listas de palabras vacías. Con el zip vienen tres, en inglés, catalán y español, y podéis encontrar otras en este enlace. La herramienta también nos permite limitar el número de n-gramas para la extracción, para que extraiga agrupaciones de 1, 2 y hasta 10 palabras.
Este sería un ejemplo de cómo deberíamos proceder para extraer candidatos de un corpus bilingüe:
Cuando se busca un equivalente de traducción siempre selecciona el más probable, pero es posible visualizar todos los posibles candidatos por orden de probabilidad. LexTerm también permite visualizar los contentos donde aparece el término original y traducido con el menú Cerca, seleccionando previamente el término. Esto puede ser de utilidad en caso de duda.
Una vez revisada la lista de candidatos y de equivalentes el resultado de la extracción se puede exportar a un formato de texto separado por tabuladores. Para exportar los términos, hemos de marcarlos en la lista. A partir de este formato se pueden introducir los términos en un sistema de gestión de terminología o importarlos en una base de datos terminológica de alguna herramienta de traducción asistida.
¡Espero que os sea de utilidad la herramienta…! Yo la he probado un par de veces y, aunque obviamente hay que revisar la lista, pensad en el trabajo que os ahorra si tuvierais que hacerlo de forma manual.
Últimamente, en la blogosfera traductoril, se han publicado varias entradas sobre las ventajas y desdesventajas de trabajar en plantilla o como autónomo… No creo que haya que añadir mucho más a lo que se ha dicho, así que me limito a listaros aquí los artículos al respecto:
Bien, creo que es todo. ¡Espero que disfrutéis las lecturas y saquéis algo en claro, sobre todo los que estáis a punto de ingresar en el mundo profesional de la traducción!
Los índices en Word nos pueden ayudar a crear una lista de palabra con las páginas en las que aparece. Esto es muy común en manuales y otro tipo de fuentes de referencia, que no se leen de forma lineal, sino que se consultan según el tema que nos interese. Así pues, el índice nos ayudará a localizar ese tema y averiguar en qué página se encuentra.
Como traductores, es importante conocer cómo se crean estos índices, ya que en ocasiones tendremos que traducirlos y, para ello, no habrá más remedio que crearlos de nuevo.
Para poder crear un índice, hemos de revisar el documento y encontrar las palabras clave que queremos que aparezcan en el mismo. Una forma sencilla de hacerlo, sin tener que leer todo el documento, puede ser hacer un análisis previo con una herramienta como AntConc, para ver qué palabras aparece con más frecuencia y son, por tanto, terminológicamente más significativas.
Hay dos maneras de hacer el índice, una manual y otra automática. Vamos a empezar con la forma manual:
Crear un índice de forma manual
Nos situamos en la primera palabra o expresión que queramos introducir en nuestro índice. La seleccionamos y después vamos al menú Insertar -> Referencia -> Índices y Tablas. En la ficha Índices pincharemos en la opción Marcar entrada (también se puede acceder directamente con el atajo Alt+Shift+X).
Aparece entonces un cuadro de diálogo en el que podemos ver en la casilla Entrada, el término que hemos seleccionado. Es posible también crear subentradas de la entrada principal. Éstas aparecerán debajo de la entrada principal y sangradas a la derecha y se utilizan cuando una entrada principal tiene términos estrechamente relecionados con ella que también aparecen en el documento. En Opciones podemos indicar si deseamos que se muestre en el índice una referencia cruzada o si queremos que se muestre la referencia a una pagina o intervalo de paginas. Asimismo, podemos hacer que el número de página tenga el formato de negrita y/o cursiva.
A continuación podemos elegir Marcar o Marcar todas, para marcar, respectivamente, sólo esa palabra o expresión o todas las que aparezcan en el documento. Veremos entonces que se ha introducido una marca de índice entre paréntesis. Si nos molestan, podemos ocultarlas con la opción Mostrar u ocultar marcas de párrafo, que normalmente aparece con un icono en forma de P invertida en nuestra barra de herramientas. A la hora de imprimir o trabajar con el documento las marcas no afectan en nada al texto ni a su maquetación.
Para seguir marcando el resto de entradas, no es necesario cerrar este cuadro de diálogo. Nos iremos moviendo por el documento y buscando las palabras que nos interesen, para después repetir los pasos que hemos comentado. Cuando terminemos de marcar todas las entradas, pulsaremos en Cancelar.
Crear un índice de forma automática
Vamos ahora a ver una forma diferente de crear el índice. Para ello necesitamos otro documento en el que crearemos una tabla de dos columnas. En la primera columna insertaremos una fila por cada término o expresión que queramos introducir en nuestro índice. Es importante que estén escritos de forma idéntica a como están escritos en el documento, si no no los reconocerá. En la segunda columna podremos el texto que queremos que aparezca en el índice final. En general, pues, coincidirán la primera y la segunda columna. Si queremos que haya subentradas, en la segunda columna podemos hacerlo poniendo dos puntos tras la entrada principal y después la subentrada.
Una vez finalizada la tabla, guardaremos y cerraremos el documento de forma normal. Después vamos de nuevo a Insertar -> Referencia -> Índices y Tablas y seleccionamos ahora la opción Automarcar. Aparece entonces un diálogo para seleccionar el fichero donde tenemos el listado. Seleccionamos el fichero que hemos creado y pulsamos Abrir. Se marcarán de forma automática todas las entradas de nuestra tabla.
Insertar el índice en nuestro documento
Por último, una vez tenemos todas las marcas ya definidas bien haya sido manual o automáticamente podemos crear el índice.
Nos situamos en el lugar del documento donde queramos introducirlo (normalmente al final).
Accedemos al menú Insertar – Referencia – Índice y tablas y aparecerá un cuadro de diálogo Índice y tablas como el que vemos en la imagen. Accedemos ahora de nuevo al menú Insertar – Referencia – Índice y tablas. A continuación sólo tenemos que configurar las opciones de apariencia del índice (p.e. si las subentradas han de aparecer de forma continua o con sangría, si los números se han de alinear a la derecha, las columnas en las que ha de aparecer el índice, el estilo etc.) y terminamos haciendo clic en Aceptar, lo que generará el índice.
Cómo traducir los índices índice en nuestro documento
Ahora vamos a ver qué opciones tenemos para traducir los índices. Tenemos básicamente dos opciones:
¿Alguna idea más? ¿Os habéis enfrentado alguna vez a este problema? ¿Cómo lo habéis resuelto?
Os voy a presentar una de las herramientas que utilizo en clase para que los alumnos aprendan cómo explotar sus propios recursos documentales.
Se trata de AntConc (versión 3.2.1), un software gratuito desarrollado por el profesor Laurence Anthony del Center for English Language Education in Science and Engineering (CELESE), School of Science and Engineering, Waseda University en Japón.
El programa, que no necesita de instalación (es un ejecutable que, una vez descargado, sólo ha de abrirse), ofrece las herramientas básicas de un programa de análisis y explotación de corpora, a saber: concordancias, listas de palabras más frecuentes, colocaciones, agrupaciones, n-gramas y lista de palabras clave.
Se ofrecen múltiples opciones de configuración, como el tipo de archivos (admite texto plano y lenguajes de marcado como HTML, HTM y XML), el uso de comodines para la búsqueda, opciones de ordenación alfabética, por frecuencias (de la palabra pivote y de las palabras contiguas a derecha e izquierda), búsqueda de palabras clave en contexto etc.
En este enlace podéis ver un breve tutorial en inglés de la herramienta. Además existe un ayuda online.
Yo misma he creado una guía presentación que os dejo aquí para que podáis empezar a utilizar la herramienta que, como veréis, es de lo más sencilla. De hecho, lo que más cuesta es recopilar un corpus lo suficientemente grande para conseguir resultados representativos, como el del Acquis de la UE.
Otra de las interesantes iniciativas que pude ver en la TeKom estos días pasados fue FOLT y en concreto la aplicación openTMS.
Forum Open Language Tools (FOLT) es un colectivo y un grupo de trabajo constituido por empresas de servicios pertenecientes a los sectores de la traducción y de la documentación.
Los principales objetivos de FOLT son el mantenimiento de formatos de intercambio estandarizados y de software sin propietario, así como la realización de pruebas con tecnologías y métodos de traducción nuevos. El objetivo es abarcar todo el flujo de trabajo de la documentación multilingüe. Para ello se analizan detalladamente los procesos en busca de lagunas y de falta de estándares, desde la redacción del texto de partida hasta su reproducción en las distintas lenguas.
Como resultado de estos esfuerzos, se pretende crear herramientas de software no propietario que le den la suficiente libertad al usuario como para no depender de una marca determinada. Los miembros de FOLT son fundamentalmente empresas alemanas, aunque es de esperar que cada vez se vayan uniendo más empresas a tal inciativa.
El primer producto de este grupo es openTMS, un software libre de código abierto que puede adquirirse sin costes de licencia. El lanzamiento de la versión 1.0 está previsto para octubre de 2009 (en la Tekom se presentó la versión Alfa).
La herramienta se basa por completo en estándares abiertos como XLIFF, TMX, TBX. El sistema está diseñado de manera modular, lo que le permite un alto grado de flexibilidad y adaptabilidad a cualquier proceso de traducción. Las especificaciones técnicas de la herramienta así como la presentación que se hizo en la TeKom están disponibles en la página web.
En fin, todavía es muy pronto para dar una opinión con respecto a la herramienta, ya que queda bastante hasta que veamos un producto acabado que poder probar y utilizar. Se trata, no obstante, de una loable iniciativa que podría hacer tambalear el mundo de la traducción y la localización si consigue ofrecer una alternativa seria y de confianza a los programas comerciales.
¿Qué os parece a vosotros?
El acervo comunutario o corpus legislativo vigente de la UE está disponible en Internet desde hace ya algún tiempo, en todas las lenguas oficiales europeas.
Este recurso está tanto en forma de corpus, como en forma de Memoria de Traducción. El corpus puede descargarse alineado o por lenguas individuales. Para nuestras necesidades, yo diría que descargárselo alineado no tiene mucho sentido, ya que este recurso se utiliza sobre todo para entrenar motores de Traducción Automática basados en métodos estadísticos.
Para descargar el corpus en una lengua determinada, sólo tenemos que ir a este enlace. Aquí aparece el corpus comprimido en formato zip por idiomas. Al descomprimrlo, se crea una carpeta por cada año, desde 1958 hasta 2006.
Aquí tenéis una tabla en la que se muestran el número de textos, palabras y caracteres por idioma. Como podréis observar, es bastante impresionante:
|
|
|
|
|
Total |
||
|
|
|
|
|
|||
|
11384 |
16140819 |
104522671 |
1417.85 |
2170075 |
14114612 |
32425506 |
|
21438 |
22843279 |
148972981 |
1065.55 |
7225300 |
16763733 |
46832312 |
|
23624 |
31459627 |
213468135 |
1331.68 |
2629786 |
16855213 |
50944626 |
|
23541 |
32059892 |
232748675 |
1361.87 |
2542149 |
16327611 |
50929652 |
el |
23184 |
36453749 |
|
1572.37 |
2973574 |
16459680 |
55887003 |
|
23545 |
34588383 |
210692059 |
1469.03 |
3198766 |
17750761 |
55537910 |
|
23573 |
38926161 |
238016756 |
1651.3 |
|
19716243 |
|
|
23541 |
24621625 |
192700704 |
1045.9 |
1336051 |
14995748 |
40953424 |
|
23284 |
24883012 |
212178964 |
1068.67 |
2677798 |
12547171 |
40107981 |
fr |
|
|
234758290 |
1654.91 |
3021013 |
|
62100432 |
|
22801 |
28602380 |
213804614 |
1254.44 |
2529488 |
15056496 |
46188364 |
|
23472 |
35764670 |
230677013 |
1523.72 |
3120797 |
18331535 |
57217002 |
|
23379 |
26937773 |
199438258 |
1152.22 |
2436585 |
15018484 |
44392842 |
|
22906 |
27592514 |
196452051 |
1204.6 |
1673124 |
15437969 |
44703607 |
mt |
10545 |
20926909 |
128906748 |
|
1336042 |
15620611 |
37883562 |
|
23564 |
35265161 |
231963539 |
1496.57 |
3039580 |
18467115 |
56771856 |
|
23478 |
29713003 |
214464026 |
1265.57 |
2513141 |
17027393 |
49253537 |
|
23505 |
37221668 |
227499418 |
1583.56 |
3034308 |
19350227 |
59606203 |
|
6573 |
9186947 |
60537301 |
1397.68 |
514296 |
11185842 |
20887085 |
sk |
21943 |
26792637 |
179920434 |
1221.01 |
3227852 |
16190546 |
46211035 |
|
20642 |
27702305 |
178651767 |
1342.04 |
3103193 |
16837717 |
47643215 |
|
20243 |
29433037 |
199004401 |
1453.99 |
2575771 |
14965384 |
46974192 |
|
|
636216050 |
|
|
|
|
1055583954 |
De hecho, uno de los problemas es que el corpus es tan grande, que es difícil de analizar con pequeñas aplicaciones como WordSmith Tools o AntConc. Así pues, es recomendable no analizar todos los textos al mismo tiempo, sino ir por tandas (por ejemplo año a año).
Como hemos mencionado antes, el JRC (Joint Research Center) de la UE ofrece además del corpus una memoria de traducción. Aunque ambos recursos tienen en principio el mismo contenido, hay que aclarar que no son exctamente lo mismo ya que han sido recopilados de manera diferente. Asimismo, la memoria de traducción contiene unidades de traducción, por lo que no puede reproducirse un documento entero, mientras que el corpus sí es una colección de textos completos.
La memoria de traducción de la DGT también puede descargarse desde este enlace. Es necesario bajarse todos los volúmenes. Además, para poder “descompilar” los datos, se necesita una pequeña aplicación. Hay dos versiones, una para Windows con interfaz gráfica, para la que se necesita este programa y la siguiente librería. La otra es una aplicación multiplataforma basada en Java que se maneja a través de comandos.
Para empezar a poder a utilizar la memoria, una vez descargados y guardados en la misma carpeta los archivos zip y la aplicación, procederemos de la siguiente manera:
Se irán creando entonces archivos TMX que podremos después importar a nuestra memoria de traducción habitual.
En muchas ocasiones tenemos varios candidatos como equivalentes para una traducción, y no estamos seguros de por cuál decidirnos, ya que si no somos expertos en el tema que traducimos, puede resultar difícil saber cuál es el más común. Para ello nos ayudan algunas utilidades que podemos encontrar en Internet, que nos permiten comparar el uso de dos términos o expresiones por países y su evolución en el tiempo. Una de ellas es el Democractic Dictionary, que simplemente busca en Google dos expresiones y nos dice el número de ocurrencias para cada una. Aunque tenemos que tener en cuenta que la frecuencia no es el único criterio válido a la hora de decidirnos por un término (por ejemplo si buscamos “el maratón” frente a “la maratón”, vemos que esta segunda opción tiene muchas más ocurrencias, aunque según la RAE, la palabra sea masculina) puede ser de bastante utilidad.
Otra es Google Trends. Aunque la herramienta está más bien orientada al análisis de términos de búsqueda, nos puede dar una idea muy aproximada de la frecuencia de búsqueda de un término, incluso por regiones o países, de forma que podemos deducir rápidamente si un término se utiliza de forma preferente en un país u otro. Aquí tenéis un par de ejemplos de uso:
Por último, Termprofile nos permite comparar hasta tres términos restringiendo la búsqueda también por países. Utiliza, al igual que el Democratic Dictionary, el motor de Google para hacer las búsquedas. La herramienta presenta las frecuencias absolutas y relativas por término, por región geográfica y en total.
Sin duda, tres herramientas que nos pueden resultar muy útiles en nuestro trabajo terminológico como traductores.
Una de las novedades que se presentaron en la Jahrestagung 2008 de la Tekom fue Transit NXT, la nueva versión de la herramienta TAO del grupo suizo Star.
Después de más de 20 años de experiencia, por fin la empresa se digna a presentar una nueva versión con un lavado de cara bastante importante (al contrario que las anteriores versiones, que continuaban teniendo un aspecto poco amable y cuyo manejo estaba en muchas ocasiones muy lejos de los estándares de usabilidad y ergonomía deseados.
El aspecto de esta nueva versión nos recuerda mucho al lavado de cara que han sufrido las nuevas versiones del paquete Office de Microsoft, con menús no desplegables, sino agrupados en bloques.
De todas las novedades que el programa presenta, se destacan tres:
1. La posibilidad de tener una vista previa del documento en formato PDF, de forma que el traductor puede ver en la misma pantalla y sin tener que cambiar de aplicación, el aspecto que tendrá el texto meta.
2. La posibilidad de tener una vista previa del documento HTML , de forma que el traductor puede ver en la misma pantalla y sin tener que cambiar de aplicación, el aspecto que tendrá el texto meta.
3. Muchas más opciones para la localización de software, ya que cuenta con un editor que permite trabajar con archivos de recursos como DLL y EXE, así como mostrar los cuadros de diálogo tanto en la lengua origen como en la meta, adaptar el tamaño de éstos (“resizing”) y establecer límites en el número de caracteres.
Otra de las nuevas funcionalidades de esta nueva versión son las “Bubble Windows”, es decir, ventanas que desaparecen cuando no son necesarias. Esto se utiliza para los Fuzzy Matches: cuando hay, aparece la ventana y, una vez aceptadas o rechazadas las sugerencias, ésta desaparece.
La función Fuzzy Term en TermStar, la base de datos terminológica integrada, permite buscar términos con la técnica difusa.
Otra interesante función es el Dual Fuzzy, que se aplica para las traducciones. Normalmente todas las memorias de traducción, cuando buscan coincidencias, buscan en en la base de datos si hay una coincidencia del texto origen con otros textos guardados en la lengua origen. La ventaja del Dual Fuzzy es que, una vez encontrada una primera equivalencia, mira también si hay otras oraciones en la lengua meta que se parezcan, ya que muchas veces oraciones que se formulan de diferente manera en la lengua origen pero que tienen el mismo significado, se pueden formular de la misma forma en la lengua meta.
Hay un folleto, en el que se explican en detalle las características de la herramienta. El texto está en alemán y en inglés.
Asimismo, podéis ver demostraciones de todas estas funcionalidades en esta página e incluso a tutoriales de las diferentes opciones que hemos comentado (en el enlace e-learning). Aquí tenéis un ejemplo en el que se presenta la herramienta:
¿Y vosotros? ¿Conocíais esta herramienta? ¿Trabajáis con ella? ¿Cuál es vuestra experiencia? ¿Pensáis que esta nueva versión aportará beneficios reales?
Últimamente he tenido un poco abandonado el blog, y es que por una parte no para de acumularse el trabajo, y por otra parte he estado unos días fueras en la Jahrestagung de la Tekom, der deutsche Fachverband für Technische Kommunikation und Informationsentwicklung. Esta asociación alemana para la comunicación técnica y el desarrollo de la información es la asociación europea más importante de empresas y profesionales que desarrollan su actividad en el campo de la comunicación técnica. Si trabajáis en el mercado de la traducción técnica y/o la localización en Alemania o para clientes alemanes, es muy recomendable hacerse socio de esta asociación. Tiene numerosas ventajas en cuanto a descuentos para herramientas y cursos y además editan una revista, technische Kommunikation, que aparece cada dos meses y contiene interesantes artículos sobre este sector.
En las Jornadas que se celebran anualmente durante tres días en Wiesbaden, hay una feria con diferentes expositores (este año fueron 183), entre los que se encuentran empresas de tanto renombre para la industria de la traducción y la localización como Star, SDL , Across etc.
Asimismo, se organizan charlas, talleres y seminarios sobre diferentes temas relacionados con la documentación técnica: desde control de calidad hasta gestión de proyectos, pasando por sistemas de gestión de contenidos, procesos de traducción o gestión terminológica (podéis ver el programa). Aunque no asistí a ninguna charla (no estaba inscrita para la conferencia) excepto a la que dimos mi colega Kerstin Berns y yo misma sobre integración de tecnologías del lenguaje en los procesos de creación de documentación multilingüe, sí que pude comprar las actas y darme una vuelta por los expositores. Así que en cuanto les eche un vistazo, veré que puedo comentar algún tema que me parezca interesante. Además, en este enlace se pueden obtener otras muchas de las presentaciones convertidas a pdf. Muchas de ellas están relacionadas con la traducción, la localización o la terminología y os pueden resultar interesantes. Cabe comentar, no obstante, que la mayoría están en alemán.
En mis próximos posts voy a comentaros algunas de las novedades más destacadas de estas jornadas… espero que sean de vuestro interés ;)