Nov
13

El acervo comunitario como recurso para traducir

El acervo comunutario o corpus legislativo vigente de la UE está disponible en Internet desde hace ya algún tiempo, en todas las lenguas oficiales europeas.

Este recurso está tanto en forma de corpus, como en forma de Memoria de Traducción. El corpus puede descargarse alineado o por lenguas individuales. Para nuestras necesidades, yo diría que descargárselo alineado no tiene mucho sentido, ya que este recurso se utiliza sobre todo para entrenar motores de Traducción Automática basados en métodos estadísticos.

Para descargar el corpus en una lengua determinada, sólo tenemos que ir a este enlace. Aquí aparece el corpus comprimido en formato zip por idiomas. Al descomprimrlo, se crea una carpeta por cada año, desde 1958 hasta 2006.

Aquí tenéis una tabla en la que se muestran el número de textos, palabras y caracteres por idioma. Como podréis observar, es bastante impresionante:


Language ISO code


Nº of texts


Text body


Signatures


Annexes

Total
No words (text + signatures + annexes):


Total No words


Total No characters


Average No words


Total No words


Total No words


bg

11384

16140819

104522671

 

1417.85

2170075

14114612

32425506


cs

21438

22843279

 

148972981

1065.55

7225300

16763733

46832312


da

23624

 

31459627

213468135

1331.68

2629786

16855213

 

50944626


de

 

23541

32059892

232748675

1361.87

2542149

 

16327611

50929652

el

23184

36453749


239583543

1572.37

 

2973574

16459680

55887003


en

23545

34588383

210692059

 

1469.03

3198766

17750761

55537910


es

23573

38926161

 

238016756

1651.3


3490204

19716243


62132608


et

23541

 

24621625

192700704

1045.9

1336051

14995748

 

40953424


fi

 

23284

24883012

212178964

1068.67

2677798

 

12547171

40107981

fr


23627


39100499

234758290

1654.91

 

3021013


19978920

62100432


hu

22801

28602380

213804614

 

1254.44

2529488

15056496

46188364


it

23472

35764670

 

230677013

1523.72

3120797

18331535

57217002


lt

23379

 

26937773

199438258

1152.22

2436585

15018484

 

44392842


lv

 

22906

27592514

196452051

1204.6

1673124

 

15437969

44703607

mt

10545

20926909

128906748


1984.53

 

1336042

15620611

37883562


nl

23564

35265161

231963539

 

1496.57

3039580

18467115

56771856


pl

23478

29713003

 

214464026

1265.57

2513141

17027393

49253537


pt

23505

 

37221668

227499418

1583.56

3034308

19350227

 

59606203


ro

 

6573

9186947

60537301

1397.68

514296

 

11185842

20887085

sk

21943

26792637

179920434

1221.01

3227852

16190546

46211035


sl

20642

27702305

178651767

 

1342.04

3103193

16837717

47643215


sv

20243

29433037

 

199004401

1453.99

2575771

14965384

46974192


Total


463792

636216050


4288962348


1387.23


60368893


358999011

1055583954

De hecho, uno de los problemas es que el corpus es tan grande, que es difícil de analizar con pequeñas aplicaciones como WordSmith Tools o AntConc. Así pues, es recomendable no analizar todos los textos al mismo tiempo, sino ir por tandas (por ejemplo año a año).

Como hemos mencionado antes, el JRC (Joint Research Center) de la UE ofrece además del corpus una memoria de traducción. Aunque ambos recursos tienen en principio el mismo contenido, hay que aclarar que no son exctamente lo mismo ya que han sido recopilados de manera diferente. Asimismo, la memoria de traducción contiene unidades de traducción, por lo que no puede reproducirse un documento entero, mientras que el corpus sí es una colección de textos completos.

La memoria de traducción de la DGT también puede descargarse desde este enlace. Es necesario bajarse todos los volúmenes. Además, para poder “descompilar” los datos, se necesita una pequeña aplicación. Hay dos versiones, una para Windows con interfaz gráfica, para la que se necesita este programa y la siguiente librería. La otra es una aplicación multiplataforma basada en Java que se maneja a través de comandos.

Para empezar a poder a utilizar la memoria, una vez descargados y guardados en la misma carpeta los archivos zip y la aplicación, procederemos de la siguiente manera:

  • Abrimos TMXtract
  • Seleccionamos los Input Files: p.e. Volume_1.zip, etc.; se puede seleccionar más de uno, aunque no se recomienda más de cuatro para no sobrecargar el sistema.
  • En Output File ponemos el nombre del archivo donde se extraerá la memoria, que tendrá la extensión TMX. p.e. Volumes1-4.tmx
  • Seleccionamos las lenguas origen y de partida.
  • Por último, hacemos clic en Start.

Se irán creando entonces archivos TMX que podremos después importar a nuestra memoria de traducción habitual.




2 Comments Already, Leave Yours Too

Olli on 16 November, 2008 at 21:12 pm #
    

Es un recurso excelente. El único problema que presenta es que, al cargarlo en Trados o en Wordfast, el programa se cuelga directamente. No sé si es un problema del hardware o de software, pero no es un recurso que pueda usarle con facilidad.


Laura on 16 November, 2008 at 22:10 pm #
    

¡Hola Olli!
Sí, es cierto, totalmente de acuerdo. Es un recurso que, en teoría podría ser muy útil, pero en la práctica se hace difícil su explotación por su gran tamaño.
En cuanto a las causas, no estoy segura de que sea sólo problema del hardware, ya que lo he probado con ordenadores de usuario de última generación y sigue habiendo problemas (sólo he probado el corpus, pero es extremadamente lento y se cuelga con facilidad). De todas formas habría que probar en algún superordenador a ver si realmente funciona lo cosa o qué…


Post a Comment
Name:
Email:
Website:
Comments:

¡IMPORTANTE! Responde a la pregunta: ¿Cuál es el valor de 6 4 ?