Otra de las interesantes iniciativas que pude ver en la TeKom estos días pasados fue FOLT y en concreto la aplicación openTMS.
Forum Open Language Tools (FOLT) es un colectivo y un grupo de trabajo constituido por empresas de servicios pertenecientes a los sectores de la traducción y de la documentación.
Los principales objetivos de FOLT son el mantenimiento de formatos de intercambio estandarizados y de software sin propietario, así como la realización de pruebas con tecnologías y métodos de traducción nuevos. El objetivo es abarcar todo el flujo de trabajo de la documentación multilingüe. Para ello se analizan detalladamente los procesos en busca de lagunas y de falta de estándares, desde la redacción del texto de partida hasta su reproducción en las distintas lenguas.
Como resultado de estos esfuerzos, se pretende crear herramientas de software no propietario que le den la suficiente libertad al usuario como para no depender de una marca determinada. Los miembros de FOLT son fundamentalmente empresas alemanas, aunque es de esperar que cada vez se vayan uniendo más empresas a tal inciativa.
El primer producto de este grupo es openTMS, un software libre de código abierto que puede adquirirse sin costes de licencia. El lanzamiento de la versión 1.0 está previsto para octubre de 2009 (en la Tekom se presentó la versión Alfa).
La herramienta se basa por completo en estándares abiertos como XLIFF, TMX, TBX. El sistema está diseñado de manera modular, lo que le permite un alto grado de flexibilidad y adaptabilidad a cualquier proceso de traducción. Las especificaciones técnicas de la herramienta así como la presentación que se hizo en la TeKom están disponibles en la página web.
En fin, todavía es muy pronto para dar una opinión con respecto a la herramienta, ya que queda bastante hasta que veamos un producto acabado que poder probar y utilizar. Se trata, no obstante, de una loable iniciativa que podría hacer tambalear el mundo de la traducción y la localización si consigue ofrecer una alternativa seria y de confianza a los programas comerciales.
¿Qué os parece a vosotros?
El acervo comunutario o corpus legislativo vigente de la UE está disponible en Internet desde hace ya algún tiempo, en todas las lenguas oficiales europeas.
Este recurso está tanto en forma de corpus, como en forma de Memoria de Traducción. El corpus puede descargarse alineado o por lenguas individuales. Para nuestras necesidades, yo diría que descargárselo alineado no tiene mucho sentido, ya que este recurso se utiliza sobre todo para entrenar motores de Traducción Automática basados en métodos estadísticos.
Para descargar el corpus en una lengua determinada, sólo tenemos que ir a este enlace. Aquí aparece el corpus comprimido en formato zip por idiomas. Al descomprimrlo, se crea una carpeta por cada año, desde 1958 hasta 2006.
Aquí tenéis una tabla en la que se muestran el número de textos, palabras y caracteres por idioma. Como podréis observar, es bastante impresionante:
|
|
|
|
|
Total |
||
|
|
|
|
|
|||
|
11384 |
16140819 |
104522671 |
1417.85 |
2170075 |
14114612 |
32425506 |
|
21438 |
22843279 |
148972981 |
1065.55 |
7225300 |
16763733 |
46832312 |
|
23624 |
31459627 |
213468135 |
1331.68 |
2629786 |
16855213 |
50944626 |
|
23541 |
32059892 |
232748675 |
1361.87 |
2542149 |
16327611 |
50929652 |
el |
23184 |
36453749 |
|
1572.37 |
2973574 |
16459680 |
55887003 |
|
23545 |
34588383 |
210692059 |
1469.03 |
3198766 |
17750761 |
55537910 |
|
23573 |
38926161 |
238016756 |
1651.3 |
|
19716243 |
|
|
23541 |
24621625 |
192700704 |
1045.9 |
1336051 |
14995748 |
40953424 |
|
23284 |
24883012 |
212178964 |
1068.67 |
2677798 |
12547171 |
40107981 |
fr |
|
|
234758290 |
1654.91 |
3021013 |
|
62100432 |
|
22801 |
28602380 |
213804614 |
1254.44 |
2529488 |
15056496 |
46188364 |
|
23472 |
35764670 |
230677013 |
1523.72 |
3120797 |
18331535 |
57217002 |
|
23379 |
26937773 |
199438258 |
1152.22 |
2436585 |
15018484 |
44392842 |
|
22906 |
27592514 |
196452051 |
1204.6 |
1673124 |
15437969 |
44703607 |
mt |
10545 |
20926909 |
128906748 |
|
1336042 |
15620611 |
37883562 |
|
23564 |
35265161 |
231963539 |
1496.57 |
3039580 |
18467115 |
56771856 |
|
23478 |
29713003 |
214464026 |
1265.57 |
2513141 |
17027393 |
49253537 |
|
23505 |
37221668 |
227499418 |
1583.56 |
3034308 |
19350227 |
59606203 |
|
6573 |
9186947 |
60537301 |
1397.68 |
514296 |
11185842 |
20887085 |
sk |
21943 |
26792637 |
179920434 |
1221.01 |
3227852 |
16190546 |
46211035 |
|
20642 |
27702305 |
178651767 |
1342.04 |
3103193 |
16837717 |
47643215 |
|
20243 |
29433037 |
199004401 |
1453.99 |
2575771 |
14965384 |
46974192 |
|
|
636216050 |
|
|
|
|
1055583954 |
De hecho, uno de los problemas es que el corpus es tan grande, que es difícil de analizar con pequeñas aplicaciones como WordSmith Tools o AntConc. Así pues, es recomendable no analizar todos los textos al mismo tiempo, sino ir por tandas (por ejemplo año a año).
Como hemos mencionado antes, el JRC (Joint Research Center) de la UE ofrece además del corpus una memoria de traducción. Aunque ambos recursos tienen en principio el mismo contenido, hay que aclarar que no son exctamente lo mismo ya que han sido recopilados de manera diferente. Asimismo, la memoria de traducción contiene unidades de traducción, por lo que no puede reproducirse un documento entero, mientras que el corpus sí es una colección de textos completos.
La memoria de traducción de la DGT también puede descargarse desde este enlace. Es necesario bajarse todos los volúmenes. Además, para poder “descompilar” los datos, se necesita una pequeña aplicación. Hay dos versiones, una para Windows con interfaz gráfica, para la que se necesita este programa y la siguiente librería. La otra es una aplicación multiplataforma basada en Java que se maneja a través de comandos.
Para empezar a poder a utilizar la memoria, una vez descargados y guardados en la misma carpeta los archivos zip y la aplicación, procederemos de la siguiente manera:
Se irán creando entonces archivos TMX que podremos después importar a nuestra memoria de traducción habitual.