¿Alguna vez habéis tenido que traducir un archivo de AutoCAD? ¿Con qué problemas os habéis enfrentado? ¿Cómo se pueden traducir estos archivos utilizando un GTM (gestor de memorias de traducción)? Un ejemplo de documento de AutoCAD con tablas de texto sería éste:
AutoCAD

Pues parece ser que es posible gracias a una herramienta desarrollada por Translation to Spanish llamada TranslateCAD. Esta herramienta convierte el formato DXF (Drawing Interchange Format) y DWG (Drawing Web Format) a formato de texto plano codificado en Unicode, que puede abrirse con un editor como MS Word para traducirlo con alguna herramienta TAO como Wordfast, Déjà Vu o Trados Workbench. Después la herramienta reconstruye el fichero DXF a partir de este documento en texto plano.

Podéis descargar la versión de prueba 1.0 (permite contar palabras sin límite y traducir las primeras 50) de manera gratuita desde este enlace. La versión completa cuesta $29.00, que no es un precio demasiado excesivo si realmente trabajáis mucho con este tipo de formato.

Las características del software son:

• Permite traducir archivos AutoCAD® DXF de las versiones AutoCAD® R12 a AutoCAD® 2009

• Compatible con todas las versiones actuales de Windows® (Vista, XP, 98/95)

• Ocupa muy poco: el paquete de instalación sólo ocupa 225 KB y únicamente requiere 226 KB del disco duro (incluyendo la documentación).

• Se ejecuta de manera independiente: no instala DLLs conflictivas ni ningún tipo de librerías.

• Actualizaciones gratuitas para siempre. No se ha de comprar una licencia por cada nueva versión. La licencia que se adquiere funciona para todas las posibles futuras versiones.

Podéis ver un vídeo de todo el proceso aquí:

Hoy hablaremos de otra herramienta de traducción asistida: OmegaT. Este software libre y además gratuito permite la gestión de memorias de traducción y de glosarios terminológicos, e incluye otra serie de utilidades que pueden descargarse como un alineador de textos o un convertidor de textos alineados en formato TMX para su importación en una memoria. El programa principal puede descargarse en este enlace.

Una de las ventajas de este programa es que, al igual que Wordfast, es multiplataforma, es decir, existen versiones para Windows, Linux y Mac, además de una versión para aquellos desarrolladores que quieran seguir mejorando el programa.

Hay una especie de "manual de usuario" muy útil en http://atraducir.info/omegat/ además de una lista de correo en la que se anuncian novedades y se resuelven dudas sobre esta aplicación.

OmegaT tiene las siguientes características:

* Coincidencias parciales
* Propagación de coincidencias
* Procesado simultáneo de proyectos con archivos múltiples
* Uso simultáneo de múltiples memorias de traducción
* Glosarios externos
* Formatos de archivos:
XHTML y HTML
Microsoft Office 2007 XML
OpenOffice.org/StarOffice
XLIFF (Okapi)
MediaWiki (Wikipedia)
Sólo texto
* Soporte Unicode (UTF-8): puede utilizarse con alfabetos no latinos
* Soporte para idiomas derecha-izquierda
* Compatible con otras aplicaciones de memoria de traducción (TMX)

Creo que entre todas estas características cabe destacar fundamentalmente dos: el hecho de que utilice TMX como formato de memoria, lo que permite la compatibilidad con otras herramientas TAO, y el que ahora pueda traducir archivos generados en Office 2007, lo que facilita la labor a aquéllos que disponen de este software propietario sin necesidad de convertir los archivos para ser leídos en OpenOffice.

Si bien este software no es tan sofisticado ni ofrece tantas funcionalidades como otras aplicaciones comerciales, puede ser una buena opción para introducirse en el mundo de las herramientas TAO sin necesidad de una gran inversión (al menos de dinero).

Os dejo aquí un tutorial en tres partes de cómo empezar a utilizar OmegaT. Espero que os sea de utilidad. ¿Alguien trabaja de forma regular con OmegaT? ¿Cuál es su experiencia?

Jan
14
Filed Under (Herramientas TAO, Marcas, Software, Wordfast) by Laura on 14-01-2009

Wordfast

El pasado día 1 de enero Wordfast lanzó una primera versión de Wordfast Professional 6.0. Al contrario que las versiones anteriores, que utilizaban el editor de MS Word para trabajar,  la nueva aplicación está basada en Java y, por ello, es independiente y multiplataforma. Es decir, tanto los usuarios de Windows como los de Mac OS X y Linux podrán trabajar con ella (hay que añadir aquí que la última versión de Classic, 5.53q, parece ser que también funcionaba ya para Mac y Linux). 

La última versión 6.0 puede descargarse desde el sitio de la empresa junto con una licencia de prueba cuya duración expira el 31 de enero de 2009. Así que si queréis probarla, ¡no tardéis mucho! La ayuda la tenéis en este enlace.

Vamos a repasar las ventajas de esta nueva aplicación:

  • Como hemos comentado, es multiplataforma, así que no está sólo limitada a los usuarios de WIndows.
  • Otra de las ventajas importantes es que podrán traducirse más formatos: doc, .ppt, .xls (es decir, Word 97/2003) y txml (un formato propietario de Wordfast). Asimismo, parece ser que está previsto, aunque en los foros se afirma que ya están disponibles, que puedan leerse otros formatos como .html, .xml, .asp, .inx, .jsp e incluso .mif, aunque la versión que yo me he bajado no los incluye todavía.
  • Una interfaz más intuitiva, con la posibilidad de personalizarla (aunque no he trabajado todavía mucho con la herramienta, se parece sospechosamente mucho a la de DVX).
  • Control de calidad automático, incluyendo ortografía. No sé si más tarde incluirán otros controles como la consistencia terminológica o el control de etiquetas.
  • Compatibilidad con el formato TMX y por tanto, con otras múltiples herramientas TAO (aunque he de confesar que yo no he encontrado manera de convertir las memorias que se generan en formato jtx a TMX).

Cabe destacar que la herramienta está todavía lejos de su madurez, como lo demuestran los asuntos por tratar que aparecen en la página web de la empresa. De hecho, la empresa piensa seguir manteniendo la versión Classic, que trabaja directamente en MS Word, y desarrollarla paralelamente con esta versión, hasta que esté plenamente madura o los usuarios empiecen a dejar de utilizar el editor de Word como herramienta de traducción.

En fin, veremos qué repercusión tiene esta versión. Sin duda, Wordfast cuenta con el beneplácito de la comunidad de traductores, sobre todo los autónomos, y esperamos que esta versión traiga mejoras reales que les ayuden a ser más efectivos en su trabajo (porque eficaces ya sé que lo son :) y que el señor Yves Champollion no nos decepcione...

Nov
13
Filed Under (FOLT, Herramientas TAO, OpenTMS, Software, Software Libre) by Laura on 13-11-2008

Otra de las interesantes iniciativas que pude ver en la TeKom estos días pasados fue FOLT y en concreto la aplicación openTMS.

FOLT

Forum Open Language Tools (FOLT) es un colectivo y un grupo de trabajo constituido por empresas de servicios pertenecientes a los sectores de la traducción y de la documentación.

Los principales objetivos de FOLT son el mantenimiento de formatos de intercambio estandarizados y de software sin propietario, así como la realización de pruebas con tecnologías y métodos de traducción nuevos. El objetivo es abarcar todo el flujo de trabajo de la documentación multilingüe. Para ello se analizan detalladamente los procesos en busca de lagunas y de falta de estándares, desde la redacción del texto de partida hasta su reproducción en las distintas lenguas.

Como resultado de estos esfuerzos, se pretende crear herramientas de software no propietario que le den la suficiente libertad al usuario como para no depender de una marca determinada. Los miembros de FOLT son fundamentalmente empresas alemanas, aunque es de esperar que cada vez se vayan uniendo más empresas a tal inciativa.

OpenTMS

El primer producto de este grupo es openTMS, un software libre de código abierto que puede adquirirse sin costes de licencia. El lanzamiento de la versión 1.0 está previsto para octubre de 2009 (en la Tekom se presentó la versión Alfa).

La herramienta se basa por completo en estándares abiertos como XLIFF, TMX, TBX. El sistema está diseñado de manera modular, lo que le permite un alto grado de flexibilidad y adaptabilidad a cualquier proceso de traducción. Las especificaciones técnicas de la herramienta así como la presentación que se hizo en la TeKom están disponibles en la página web.

En fin, todavía es muy pronto para dar una opinión con respecto a la herramienta, ya que queda bastante hasta que veamos un producto acabado que poder probar y utilizar. Se trata, no obstante, de una loable iniciativa que podría hacer tambalear el mundo de la traducción y la localización si consigue ofrecer una alternativa seria y de confianza a los programas comerciales.

¿Qué os parece a vosotros?

El acervo comunutario o corpus legislativo vigente de la UE está disponible en Internet desde hace ya algún tiempo, en todas las lenguas oficiales europeas.

Este recurso está tanto en forma de corpus, como en forma de Memoria de Traducción. El corpus puede descargarse alineado o por lenguas individuales. Para nuestras necesidades, yo diría que descargárselo alineado no tiene mucho sentido, ya que este recurso se utiliza sobre todo para entrenar motores de Traducción Automática basados en métodos estadísticos.

Para descargar el corpus en una lengua determinada, sólo tenemos que ir a este enlace. Aquí aparece el corpus comprimido en formato zip por idiomas. Al descomprimrlo, se crea una carpeta por cada año, desde 1958 hasta 2006.

Aquí tenéis una tabla en la que se muestran el número de textos, palabras y caracteres por idioma. Como podréis observar, es bastante impresionante:


Language ISO code


Nº of texts


Text body


Signatures


Annexes

Total
No words (text + signatures + annexes):


Total No words


Total No characters


Average No words


Total No words


Total No words


bg

11384

16140819

104522671

 

1417.85

2170075

14114612

32425506


cs

21438

22843279

 

148972981

1065.55

7225300

16763733

46832312


da

23624

 

31459627

213468135

1331.68

2629786

16855213

 

50944626


de

 

23541

32059892

232748675

1361.87

2542149

 

16327611

50929652

el

23184

36453749


239583543

1572.37

 

2973574

16459680

55887003


en

23545

34588383

210692059

 

1469.03

3198766

17750761

55537910


es

23573

38926161

 

238016756

1651.3


3490204

19716243


62132608


et

23541

 

24621625

192700704

1045.9

1336051

14995748

 

40953424


fi

 

23284

24883012

212178964

1068.67

2677798

 

12547171

40107981

fr


23627


39100499

234758290

1654.91

 

3021013


19978920

62100432


hu

22801

28602380

213804614

 

1254.44

2529488

15056496

46188364


it

23472

35764670

 

230677013

1523.72

3120797

18331535

57217002


lt

23379

 

26937773

199438258

1152.22

2436585

15018484

 

44392842


lv

 

22906

27592514

196452051

1204.6

1673124

 

15437969

44703607

mt

10545

20926909

128906748


1984.53

 

1336042

15620611

37883562


nl

23564

35265161

231963539

 

1496.57

3039580

18467115

56771856


pl

23478

29713003

 

214464026

1265.57

2513141

17027393

49253537


pt

23505

 

37221668

227499418

1583.56

3034308

19350227

 

59606203


ro

 

6573

9186947

60537301

1397.68

514296

 

11185842

20887085

sk

21943

26792637

179920434

1221.01

3227852

16190546

46211035


sl

20642

27702305

178651767

 

1342.04

3103193

16837717

47643215


sv

20243

29433037

 

199004401

1453.99

2575771

14965384

46974192


Total


463792

636216050


4288962348


1387.23


60368893


358999011

1055583954

De hecho, uno de los problemas es que el corpus es tan grande, que es difícil de analizar con pequeñas aplicaciones como WordSmith Tools o AntConc. Así pues, es recomendable no analizar todos los textos al mismo tiempo, sino ir por tandas (por ejemplo año a año).

Como hemos mencionado antes, el JRC (Joint Research Center) de la UE ofrece además del corpus una memoria de traducción. Aunque ambos recursos tienen en principio el mismo contenido, hay que aclarar que no son exctamente lo mismo ya que han sido recopilados de manera diferente. Asimismo, la memoria de traducción contiene unidades de traducción, por lo que no puede reproducirse un documento entero, mientras que el corpus sí es una colección de textos completos.

La memoria de traducción de la DGT también puede descargarse desde este enlace. Es necesario bajarse todos los volúmenes. Además, para poder "descompilar" los datos, se necesita una pequeña aplicación. Hay dos versiones, una para Windows con interfaz gráfica, para la que se necesita este programa y la siguiente librería. La otra es una aplicación multiplataforma basada en Java que se maneja a través de comandos.

Para empezar a poder a utilizar la memoria, una vez descargados y guardados en la misma carpeta los archivos zip y la aplicación, procederemos de la siguiente manera:

  • Abrimos TMXtract
  • Seleccionamos los Input Files: p.e. Volume_1.zip, etc.; se puede seleccionar más de uno, aunque no se recomienda más de cuatro para no sobrecargar el sistema.
  • En Output File ponemos el nombre del archivo donde se extraerá la memoria, que tendrá la extensión TMX. p.e. Volumes1-4.tmx
  • Seleccionamos las lenguas origen y de partida.
  • Por último, hacemos clic en Start.

Se irán creando entonces archivos TMX que podremos después importar a nuestra memoria de traducción habitual.


Oct
06
Filed Under (Herramientas TAO, Similis) by Laura on 06-10-2008

Hoy os quería hablar de la memoria de traducción Similis, desarrollada por la empresa francesa Lingua et Machina. Se trata de un software que ofrece las funcionalidades habituales de una herramienta TAO: creación de proyectos, alineación, pretraducción, gestión terminológica... Puede procesar varios formatos de memoria existentes (Trados, TMX, etc.) y recuperar las memorias y los glosarios desarrollados anteriormente.

La gran ventaja competitiva de Similis es que integra un nuevo motor de análisis lingüístico, utiliza la tecnología de los CHUNKS que permite cortar las frases en grupos terminológicos inteligentes, y genera automáticamente glosarios técnicos especificos.

He encontrado esta reseña en la que un traductor profesional revisa los aspectos más importantes de esta herramienta, con sus pros y sus contras.

Existe una versión freelance y otra para estudiantes con prácticamente las mismas prestaciones (excepto el número de palabras de le memoria) que pueden descargarse de manera gratuita (para la de estudiantes, se ha de demostrar tal condición). Podéis ver una comparación de las prestaciones de cada versión en este enlace.

¿Conocéis esta memoria? ¿Habéis trabajado con ella? ¿Cuál ha sido vuestra experiencia? Yo me he bajado la versión freelance y ya os iré comentando conforme vaya trasteando con ella.

Podéis ver demostraciones de cómo funciona la herramienta en este enlace.