El acervo comunutario o corpus legislativo vigente de la UE está disponible en Internet desde hace ya algún tiempo, en todas las lenguas oficiales europeas.
Este recurso está tanto en forma de corpus, como en forma de Memoria de Traducción. El corpus puede descargarse alineado o por lenguas individuales. Para nuestras necesidades, yo diría que descargárselo alineado no tiene mucho sentido, ya que este recurso se utiliza sobre todo para entrenar motores de Traducción Automática basados en métodos estadísticos.
Para descargar el corpus en una lengua determinada, sólo tenemos que ir a este enlace. Aquí aparece el corpus comprimido en formato zip por idiomas. Al descomprimrlo, se crea una carpeta por cada año, desde 1958 hasta 2006.
Aquí tenéis una tabla en la que se muestran el número de textos, palabras y caracteres por idioma. Como podréis observar, es bastante impresionante:
|
|
|
|
|
Total |
||
|
|
|
|
|
|||
|
11384 |
16140819 |
104522671 |
1417.85 |
2170075 |
14114612 |
32425506 |
|
21438 |
22843279 |
148972981 |
1065.55 |
7225300 |
16763733 |
46832312 |
|
23624 |
31459627 |
213468135 |
1331.68 |
2629786 |
16855213 |
50944626 |
|
23541 |
32059892 |
232748675 |
1361.87 |
2542149 |
16327611 |
50929652 |
el |
23184 |
36453749 |
|
1572.37 |
2973574 |
16459680 |
55887003 |
|
23545 |
34588383 |
210692059 |
1469.03 |
3198766 |
17750761 |
55537910 |
|
23573 |
38926161 |
238016756 |
1651.3 |
|
19716243 |
|
|
23541 |
24621625 |
192700704 |
1045.9 |
1336051 |
14995748 |
40953424 |
|
23284 |
24883012 |
212178964 |
1068.67 |
2677798 |
12547171 |
40107981 |
fr |
|
|
234758290 |
1654.91 |
3021013 |
|
62100432 |
|
22801 |
28602380 |
213804614 |
1254.44 |
2529488 |
15056496 |
46188364 |
|
23472 |
35764670 |
230677013 |
1523.72 |
3120797 |
18331535 |
57217002 |
|
23379 |
26937773 |
199438258 |
1152.22 |
2436585 |
15018484 |
44392842 |
|
22906 |
27592514 |
196452051 |
1204.6 |
1673124 |
15437969 |
44703607 |
mt |
10545 |
20926909 |
128906748 |
|
1336042 |
15620611 |
37883562 |
|
23564 |
35265161 |
231963539 |
1496.57 |
3039580 |
18467115 |
56771856 |
|
23478 |
29713003 |
214464026 |
1265.57 |
2513141 |
17027393 |
49253537 |
|
23505 |
37221668 |
227499418 |
1583.56 |
3034308 |
19350227 |
59606203 |
|
6573 |
9186947 |
60537301 |
1397.68 |
514296 |
11185842 |
20887085 |
sk |
21943 |
26792637 |
179920434 |
1221.01 |
3227852 |
16190546 |
46211035 |
|
20642 |
27702305 |
178651767 |
1342.04 |
3103193 |
16837717 |
47643215 |
|
20243 |
29433037 |
199004401 |
1453.99 |
2575771 |
14965384 |
46974192 |
|
|
636216050 |
|
|
|
|
1055583954 |
De hecho, uno de los problemas es que el corpus es tan grande, que es difícil de analizar con pequeñas aplicaciones como WordSmith Tools o AntConc. Así pues, es recomendable no analizar todos los textos al mismo tiempo, sino ir por tandas (por ejemplo año a año).
Como hemos mencionado antes, el JRC (Joint Research Center) de la UE ofrece además del corpus una memoria de traducción. Aunque ambos recursos tienen en principio el mismo contenido, hay que aclarar que no son exctamente lo mismo ya que han sido recopilados de manera diferente. Asimismo, la memoria de traducción contiene unidades de traducción, por lo que no puede reproducirse un documento entero, mientras que el corpus sí es una colección de textos completos.
La memoria de traducción de la DGT también puede descargarse desde este enlace. Es necesario bajarse todos los volúmenes. Además, para poder “descompilar” los datos, se necesita una pequeña aplicación. Hay dos versiones, una para Windows con interfaz gráfica, para la que se necesita este programa y la siguiente librería. La otra es una aplicación multiplataforma basada en Java que se maneja a través de comandos.
Para empezar a poder a utilizar la memoria, una vez descargados y guardados en la misma carpeta los archivos zip y la aplicación, procederemos de la siguiente manera:
Se irán creando entonces archivos TMX que podremos después importar a nuestra memoria de traducción habitual.
Es un recurso excelente. El único problema que presenta es que, al cargarlo en Trados o en Wordfast, el programa se cuelga directamente. No sé si es un problema del hardware o de software, pero no es un recurso que pueda usarle con facilidad.
¡Hola Olli!
Sí, es cierto, totalmente de acuerdo. Es un recurso que, en teoría podría ser muy útil, pero en la práctica se hace difícil su explotación por su gran tamaño.
En cuanto a las causas, no estoy segura de que sea sólo problema del hardware, ya que lo he probado con ordenadores de usuario de última generación y sigue habiendo problemas (sólo he probado el corpus, pero es extremadamente lento y se cuelga con facilidad). De todas formas habría que probar en algún superordenador a ver si realmente funciona lo cosa o qué…