El acervo comunutario o corpus legislativo vigente de la UE está disponible en Internet desde hace ya algún tiempo, en todas las lenguas oficiales europeas.
Este recurso está tanto en forma de corpus, como en forma de Memoria de Traducción. El corpus puede descargarse alineado o por lenguas individuales. Para nuestras necesidades, yo diría que descargárselo alineado no tiene mucho sentido, ya que este recurso se utiliza sobre todo para entrenar motores de Traducción Automática basados en métodos estadísticos.
Para descargar el corpus en una lengua determinada, sólo tenemos que ir a este enlace. Aquí aparece el corpus comprimido en formato zip por idiomas. Al descomprimrlo, se crea una carpeta por cada año, desde 1958 hasta 2006.
Aquí tenéis una tabla en la que se muestran el número de textos, palabras y caracteres por idioma. Como podréis observar, es bastante impresionante:
|
|
|
|
|
Total |
||
|
|
|
|
|
|||
|
11384 |
16140819 |
104522671 |
1417.85 |
2170075 |
14114612 |
32425506 |
|
21438 |
22843279 |
148972981 |
1065.55 |
7225300 |
16763733 |
46832312 |
|
23624 |
31459627 |
213468135 |
1331.68 |
2629786 |
16855213 |
50944626 |
|
23541 |
32059892 |
232748675 |
1361.87 |
2542149 |
16327611 |
50929652 |
el |
23184 |
36453749 |
|
1572.37 |
2973574 |
16459680 |
55887003 |
|
23545 |
34588383 |
210692059 |
1469.03 |
3198766 |
17750761 |
55537910 |
|
23573 |
38926161 |
238016756 |
1651.3 |
|
19716243 |
|
|
23541 |
24621625 |
192700704 |
1045.9 |
1336051 |
14995748 |
40953424 |
|
23284 |
24883012 |
212178964 |
1068.67 |
2677798 |
12547171 |
40107981 |
fr |
|
|
234758290 |
1654.91 |
3021013 |
|
62100432 |
|
22801 |
28602380 |
213804614 |
1254.44 |
2529488 |
15056496 |
46188364 |
|
23472 |
35764670 |
230677013 |
1523.72 |
3120797 |
18331535 |
57217002 |
|
23379 |
26937773 |
199438258 |
1152.22 |
2436585 |
15018484 |
44392842 |
|
22906 |
27592514 |
196452051 |
1204.6 |
1673124 |
15437969 |
44703607 |
mt |
10545 |
20926909 |
128906748 |
|
1336042 |
15620611 |
37883562 |
|
23564 |
35265161 |
231963539 |
1496.57 |
3039580 |
18467115 |
56771856 |
|
23478 |
29713003 |
214464026 |
1265.57 |
2513141 |
17027393 |
49253537 |
|
23505 |
37221668 |
227499418 |
1583.56 |
3034308 |
19350227 |
59606203 |
|
6573 |
9186947 |
60537301 |
1397.68 |
514296 |
11185842 |
20887085 |
sk |
21943 |
26792637 |
179920434 |
1221.01 |
3227852 |
16190546 |
46211035 |
|
20642 |
27702305 |
178651767 |
1342.04 |
3103193 |
16837717 |
47643215 |
|
20243 |
29433037 |
199004401 |
1453.99 |
2575771 |
14965384 |
46974192 |
|
|
636216050 |
|
|
|
|
1055583954 |
De hecho, uno de los problemas es que el corpus es tan grande, que es difícil de analizar con pequeñas aplicaciones como WordSmith Tools o AntConc. Así pues, es recomendable no analizar todos los textos al mismo tiempo, sino ir por tandas (por ejemplo año a año).
Como hemos mencionado antes, el JRC (Joint Research Center) de la UE ofrece además del corpus una memoria de traducción. Aunque ambos recursos tienen en principio el mismo contenido, hay que aclarar que no son exctamente lo mismo ya que han sido recopilados de manera diferente. Asimismo, la memoria de traducción contiene unidades de traducción, por lo que no puede reproducirse un documento entero, mientras que el corpus sí es una colección de textos completos.
La memoria de traducción de la DGT también puede descargarse desde este enlace. Es necesario bajarse todos los volúmenes. Además, para poder “descompilar” los datos, se necesita una pequeña aplicación. Hay dos versiones, una para Windows con interfaz gráfica, para la que se necesita este programa y la siguiente librería. La otra es una aplicación multiplataforma basada en Java que se maneja a través de comandos.
Para empezar a poder a utilizar la memoria, una vez descargados y guardados en la misma carpeta los archivos zip y la aplicación, procederemos de la siguiente manera:
Se irán creando entonces archivos TMX que podremos después importar a nuestra memoria de traducción habitual.