El acervo comunutario o corpus legislativo vigente de la UE está disponible en Internet desde hace ya algún tiempo, en todas las lenguas oficiales europeas.

Este recurso está tanto en forma de corpus, como en forma de Memoria de Traducción. El corpus puede descargarse alineado o por lenguas individuales. Para nuestras necesidades, yo diría que descargárselo alineado no tiene mucho sentido, ya que este recurso se utiliza sobre todo para entrenar motores de Traducción Automática basados en métodos estadísticos.

Para descargar el corpus en una lengua determinada, sólo tenemos que ir a este enlace. Aquí aparece el corpus comprimido en formato zip por idiomas. Al descomprimrlo, se crea una carpeta por cada año, desde 1958 hasta 2006.

Aquí tenéis una tabla en la que se muestran el número de textos, palabras y caracteres por idioma. Como podréis observar, es bastante impresionante:


Language ISO code


Nº of texts


Text body


Signatures


Annexes

Total
No words (text + signatures + annexes):


Total No words


Total No characters


Average No words


Total No words


Total No words


bg

11384

16140819

104522671

 

1417.85

2170075

14114612

32425506


cs

21438

22843279

 

148972981

1065.55

7225300

16763733

46832312


da

23624

 

31459627

213468135

1331.68

2629786

16855213

 

50944626


de

 

23541

32059892

232748675

1361.87

2542149

 

16327611

50929652

el

23184

36453749


239583543

1572.37

 

2973574

16459680

55887003


en

23545

34588383

210692059

 

1469.03

3198766

17750761

55537910


es

23573

38926161

 

238016756

1651.3


3490204

19716243


62132608


et

23541

 

24621625

192700704

1045.9

1336051

14995748

 

40953424


fi

 

23284

24883012

212178964

1068.67

2677798

 

12547171

40107981

fr


23627


39100499

234758290

1654.91

 

3021013


19978920

62100432


hu

22801

28602380

213804614

 

1254.44

2529488

15056496

46188364


it

23472

35764670

 

230677013

1523.72

3120797

18331535

57217002


lt

23379

 

26937773

199438258

1152.22

2436585

15018484

 

44392842


lv

 

22906

27592514

196452051

1204.6

1673124

 

15437969

44703607

mt

10545

20926909

128906748


1984.53

 

1336042

15620611

37883562


nl

23564

35265161

231963539

 

1496.57

3039580

18467115

56771856


pl

23478

29713003

 

214464026

1265.57

2513141

17027393

49253537


pt

23505

 

37221668

227499418

1583.56

3034308

19350227

 

59606203


ro

 

6573

9186947

60537301

1397.68

514296

 

11185842

20887085

sk

21943

26792637

179920434

1221.01

3227852

16190546

46211035


sl

20642

27702305

178651767

 

1342.04

3103193

16837717

47643215


sv

20243

29433037

 

199004401

1453.99

2575771

14965384

46974192


Total


463792

636216050


4288962348


1387.23


60368893


358999011

1055583954

De hecho, uno de los problemas es que el corpus es tan grande, que es difícil de analizar con pequeñas aplicaciones como WordSmith Tools o AntConc. Así pues, es recomendable no analizar todos los textos al mismo tiempo, sino ir por tandas (por ejemplo año a año).

Como hemos mencionado antes, el JRC (Joint Research Center) de la UE ofrece además del corpus una memoria de traducción. Aunque ambos recursos tienen en principio el mismo contenido, hay que aclarar que no son exctamente lo mismo ya que han sido recopilados de manera diferente. Asimismo, la memoria de traducción contiene unidades de traducción, por lo que no puede reproducirse un documento entero, mientras que el corpus sí es una colección de textos completos.

La memoria de traducción de la DGT también puede descargarse desde este enlace. Es necesario bajarse todos los volúmenes. Además, para poder “descompilar” los datos, se necesita una pequeña aplicación. Hay dos versiones, una para Windows con interfaz gráfica, para la que se necesita este programa y la siguiente librería. La otra es una aplicación multiplataforma basada en Java que se maneja a través de comandos.

Para empezar a poder a utilizar la memoria, una vez descargados y guardados en la misma carpeta los archivos zip y la aplicación, procederemos de la siguiente manera:

  • Abrimos TMXtract
  • Seleccionamos los Input Files: p.e. Volume_1.zip, etc.; se puede seleccionar más de uno, aunque no se recomienda más de cuatro para no sobrecargar el sistema.
  • En Output File ponemos el nombre del archivo donde se extraerá la memoria, que tendrá la extensión TMX. p.e. Volumes1-4.tmx
  • Seleccionamos las lenguas origen y de partida.
  • Por último, hacemos clic en Start.

Se irán creando entonces archivos TMX que podremos después importar a nuestra memoria de traducción habitual.


Sep
24
Filed Under (Estándares, TMX) by Laura on 24-09-2008

TMX es un estándar abierto basado en el metalenguaje XML y desarrollado y mantenido por OSCAR, (Open Standards for Container/Content Allowing Re-use), un grupo de LISA dedicado a la creación de estándares. TMX ha sido creado para facilitar el intercambio de datos de memorias de traducción creados por herramientas TAO y de localización sin que haya pérdidas de datos significativos. Se creó en 1998 y desde entonces podemos decir que en la actualidad la mayoría de herramientas del mercado admiten la importación y exportación de memorias en TMX.

Por ejemplo: imaginemos que un compañero crea una memoria con el programa SDL TRADOS y que nosotros tenemos Déjà Vu. En principio cada programa crea la memoria en un formato propietario y, por tanto, incompatible.

Translation Memory Exchange

Sin embargo, es posible intercambiar esos datos si el compañero EXPORTA su memoria a TMX y yo, desde Déjà Vu, la IMPORTO. La memoria en TMX contiene los datos marcados con una serie de etiquetas que indican qué tipo de dato es el que tenemos entre las manos. Veamos un ejemplo extraído del artículo de Joseba Abaitúa “Memorias de Traducción en TMX compartidas por Internet“:

<TU>

<TUV lang=”EN” creationdate=”1600″ creationid=”William Shakespeare” changedate=”1951″ changeid=”Peter Alexander/Collins”> <SEG>Exeunt marching. A peal of ordance shot off.</SEG></TUV>

<TUV lang=”ES” creationdate=”1929″ creationid=”Luis Astrana Marín/Aguilar” > <SEG>Marcha fúnebre. Salen, llevándose los cadáveres. Después se oye una descarga de artillería.</SEG></TUV>

<TUV lang=”ES” creationdate=”1994″ creationid=”José María Valverde/Planeta”>
<SEG>Se van marchando; después, se disparan salvas de artillería.</SEG></TUV>
</TU>

En primer lugar vemos que se abre una Unidad de Traducción (Translation Unit o TU) con la etiqueta <TU> y que se cierra al final con </TU>. Aquí se encontrarán la frase original y el conjunto de sus traducciones a uno o varios idiomas. A su vez, con la etiqueta <TUV> , que significa “Translation Unit Variant” o Variantes de la Unidad de Traducción, se incluyen tanto el segmento original como cada una de las traducciones (cada una dentro de un elemento <TUV>. Este elemento tiene una serie de atributos como son el idioma (lang), la fecha de creación (creationdate) y el creador de esa unidad de traducción (creationid), de forma que la traducción pueda ser identificada unívocamente. Finalmente aparece el segmento en sí entre las etiquetas <SEG> </SEG>.

Aunque como traductores es raro que utilicemos el formato TMX de forma activa (es decir, para programar o modificar archivos), sí que es conveniente tener algunas nociones para poder interpretar este tipo de formato.

Si queréis profundizar, además de los hipervínculos que aparecen en el texto, un enlace interesante es la especificación de TMX y, en español, la Guía al TMX.