EL BANCO DE DATOS DE LA RAE: CREA, CORDE, CORPES XXI Y CNDH

El Banco de Datos de la Real Academia Española, en sus inicios, estaba formado  por el Corpus de Referencia del Español Actual (CREA) y el Corpus Diacrónico del Español  (CORDE), actualmente hay dos corpus que acompañan al CREA y al CORDE, el CORPES  XXI (Corpus del Español del Siglo XXI) y el CNDH (Corpus del Nuevo Diccionario Histórico  de la Lengua Española). Un corpus es un conjunto de textos que se seleccionan y se  ordenan según unos criterios lingüísticos, con el objetivo de poder utilizarse como  modelo de la lengua. También es considerado una biblioteca organizada, que tiene una  distribución equilibrada de los textos entre España y América, entre lengua escrita y oral,  entre libros y prensa, así como otros tipos de información.

Los corpus han ido evolucionando con el tiempo. Hasta el momento conocemos  tres generaciones de corpus. La primera realizada manualmente en los años 60, la  segunda veinte años después, a través de escáneres o programas de Reconocimiento  Óptico de Caracteres (COBUILD, Longman-Lancaster) y la tercera generación, producida  en la actualidad con corpus como: el Bank of English o el British Nacional Corpus.

El CREA y el CORDE, son los corpus que han servido a fuentes como el Instituto  de Lexicografía de la Real Academia Española para preparar materiales de discusión y a  continuación argumentarlos y redactarlos. El CREA se encarga de los textos que  corresponden a los últimos treinta años y el CORDE el resto, por lo que los textos del  CREA van pasando al CORDE.

En 2007, los investigadores pueden utilizar unos 450 millones de formas de todos  los tiempos del español, entre el CREA y el CORDE, lo que conforma el recurso más  relevante de toda la lengua española. Actualmente hay más formas debido al paso del  tiempo.

Los textos se encuentran perfectamente documentados en la cabecera  electrónica: la ficha bibliográfica y la electrónica son las que los acompañan. Gracias a  estas, a través de la aplicación Nómina de autores y obras, se encuentra todo tipo de  información y datos sobre cada consulta en CORDE y CREA. En esta aplicación también  aparece la referencia bibliográfica completa y además permite combinar diferentes  criterios de selección para obtener datos estadísticos de la consulta que se realice.

Las consultas se pueden realizar en tres ámbitos: el primero, la consulta al Banco  de Datos, el segundo, consultar en el CREA y la tercera consulta, en el CORDE.  Actualmente también podemos consultar en el CORPES XXI o el CNDH.

La CREA es un corpus de carácter sincrónico, sirve para mostrar ejemplos del uso  real de la lengua española de los últimos treinta años, en versión electrónica. Tiene una  gran diversidad de textos orales y escritos con una amplia variedad temática.

Se caracteriza principalmente por representar el estado actual de la lengua. Los  textos que lo forman están seleccionados por los siguientes parámetros: el medio  (reparto entre lengua oral y escrita), el cronológico (dividir los textos en períodos de  cinco años), el geográfico (repartir los materiales a la mitad entre España y América) y  el temático (distribuir los materiales en “libros y prensa”, “miscelánea” y “oral”).

En relación con la temática el grupo de “libros y prensa” se divide a su vez en dos  subgrupos: en primer lugar “Ficción: novela, relatos y teatro” y el segundo subgrupo;  “No ficción, con seis hipercampos” (ciencias y tecnología; ciencias sociales, creencias y  pensamiento; política, economía, comercio y finanzas; artes; ocio y vida cotidiana;  salud).

Los textos de “miscelánea” se clasifican en impresa y no impresa. Y, finalmente,  las transcripciones orales se dividen en dos grupos: el radiofónico (noticias,  entrevistas...) y otras grabaciones (clases, mesas redondas...).

La parte oral del CREA está formada por dos grupos: textos producidos entre  1975 y 1999 y textos entre 2000 y 2004.

El CREA, además de estar disponible para las tareas de la RAE, lo está para  quienes quieran hacer cualquier consulta sobre lingüística. La búsqueda puede ser  simple, en la línea de consulta escribimos nuestra consulta sobre cualquier tema, lugar  geográfico o medio. Observamos en la nómina las estadísticas generales, las cuales nos  muestran el medio del que provienen los registros o por ejemplo las palabras que  corresponden a un año determinado configurándose en el criterio cronológico. También  puede ser utilizado como banco de pruebas de hipótesis lingüísticas o para realizar  búsquedas complejas a través de operadores lógicos.

En marzo de 2021 se ha publicado una nueva versión de CREA que permite  buscar por formas, lemas y categorías gramaticales. Esta nueva versión estará vigente  hasta el fin de este año.

El CORDE, es la solución que ha creado la RAE (Real Academia Española) para uno  de sus problemas: los materiales, escasos e imperfectos, que le han servido de base para  la elaboración de un diccionario histórico. Es un corpus formado por más de trescientos  millones de registros léxicos desde los orígenes del español hasta 1974. A estos hay que  añadir los que proceden de los treinta últimos años del CREA.

El CORDE se caracteriza por ser un corpus que representa a la lengua española a  lo largo de la historia. Está formado por una gran variedad de textos distribuidos de  manera proporcional para cada grupo establecido, recogiendo testimonios de todas las  épocas y lugares en los que se habló español.

De todas las obras que lo forman, la gran mayoría son de autores conocidos, el  resto, un grupo más pequeño que el anterior, son de autores anónimos. Las obras  seleccionadas siguen unos criterios muy concretos: se introducen los textos al completo  con sus prólogos, tasas, aprobaciones..., se eligen aquellos más representativos en  cuanto a su difusión, influencia en obras posteriores o los que se han utilizado como  apoyo de autoridad en otras obras. Tienen preferencia las ediciones críticas, aunque si  no se encuentra se selecciona la única obra existente. Se observa otro aspecto como la  dimensión lingüística del texto, la riqueza de vocabulario y el carácter divulgativo de la  obra.

La estructura de este corpus se fundamenta en unos criterios formales. Los  textos en verso tienen escasa presencia en los corpus porque son menos significativos    para los estudios lingüísticos. Esto lo podemos ver en la siguiente clasificación genérico-  temática, dividida en literarios (44 %); subdivididos en: verso (10%), prosa narrativa    (27%), prosa dramática (7%), y no literarios (56%), subdivididos en: didáctica (10%),  ciencia y técnica (14%), religión (6%), sociedad (8%), historia (9%), jurídica (6%), prensa  (3%).

También se hace una distribución geográfica, concediendo un 74% al español de  España, un 25% al de América y el resto a textos judeoespañoles. A su vez se reparten  los textos americanos en: América 1 (México, Guatemala, Honduras, El Salvador),  América 2 (Nicaragua y Costa Rica), América 3 (Cuba, Puerto Rico, Panamá, República  Dominicana, Venezuela), América 4 (Colombia, Perú, Ecuador y Bolivia), América 5  (Chile), América 6 (Argentina, Uruguay y Paraguay).

El CORDE, tiene además una clasificación cronológica y los porcentajes aumentan  según los grupos se vayan acercando a la actualidad. Hay tres grupos, el primero “La  edad media” (16,5%), en segundo lugar “Los siglos de oro” (30,5%) y por último “La  época contemporánea” (53%).

Una búsqueda básica al CORDE nos facilita información sobre el nacimiento, la  vigencia y desaparición de una palabra, además de permitirnos deducir su significado  por los contextos en los que se encuentra.

Además de estos corpus, como ya hemos indicado antes han aparecido  actualmente dos nuevos corpus, el CORPES XXI y el CNDH.

El CORPES XXI es un corpus de referencia, en el cual solo hay fragmentos de los  textos. Las academias de la lengua español (Medellín, marzo de 2007) mandaron a la  Real Academia Española (RAE), la creación de este corpus. Hay 25 millones de formas  por año y una distribución general de 70 % para textos americanos y 30 % para textos  españoles. Además, es un corpus semiabierto por lo que aumentará paulatinamente en  los próximos años. Está formado por textos que provienen de España, América, Filipinas  y Guinea Ecuatorial.

Desde sus principios se han ido realizando diferentes versiones. La primera en el VI Congreso Internacional de la Lengua Española (Panamá, octubre de  2013), por la cual se puede acceder a casos de una determinada palabra, expresión,  categoría o subcategoría gramatical.  Más tarde (abril de 2015), se publicó concretamente la versión 0.8, con posibilidad de  recuperar el sonido perteneciente a los textos orales y de buscar a partir de la categoría  gramatical. A partir de esta versión, aparecen otras como, la versión 0.82 en el mismo año, la 0.83  un año más tarde, que aumentan el número de formas que contiene el corpus.  La versión 0.9 llega en julio de 2018 y la 0.91 en diciembre del mismo año. En mayo de  2020 aparece la versión 0.92 y la 0.93 llegó en febrero de 2021, llegando a alcanzar unos  333 millones de formas ortográficas.  La versión 0.94, es la más actualizada, se publicó en julio de 2021, superando los 327.000  documentos, lo que equivale a unos 350 millones de formas.

Al igual que los anteriores corpus los textos del CORPES XXI, han sido  seleccionados a partir de los siguientes parámetros.

En primer lugar, el medio, un 90% son de lengua escrita y el 10% restante de  lengua oral. Los textos escritos se dividen a su vez en un 40% de libros, un 40% de  periódicos, un 7,5% de material Internet y un 2,5% de miscelánea.

Otro parámetro es el geográfico, se asigna un 30 % a las formas procedentes de  España y un 70% a las formas procedentes de América. Estas últimas formas se  subdividen en zonas lingüísticas como: andina, Antillas, caribe continental, chilena,  Estados Unidos, México y Centroamérica y Río de la Plata.

Respecto a la temática se distinguen dos grandes bloques, el de ficción y el de no ficción,  los cuales se subdividen en diferentes áreas temáticas: ciencias y tecnología, ciencias  sociales, creencias y pensamiento, política, economía, comercio, finanzas, artes, ocio,  vida cotidiana, salud, novela, teatro, relatos y guiones.

Además, observamos que se distribuyen por el tipo de texto: para los textos de  ficción; novela, cuento, teatro y guiones, para periódicos y revistas; noticias y reportajes,  para los textos orales prosa académica y no académica y para los textos escritos leídos  noticias de radio o televisión.

Otra distribución, es la temporal, en la que el mayor peso lo tienen los textos del  2006, al año 2010 (más de 107 millones de formas), seguido por los pertenecientes al  rango entre 2001 y el año 2005 (más de 102 millones de formas), los textos que abarcan  del año 2011, al 2015 (unos 82 millones de formas) y finalmente los textos, más actuales,  del año 2016 al 2020 (superan los 51 millones de formas).

Las búsquedas en el CORPES XXI, nos proporcionan la dispersión geográfica de la  voz a lo largo del ámbito hispánico y su índice de frecuencia general y normalizada.

Todas las voces detectadas y estudiadas las podemos clasificar en: voces  pertenecientes al español internacional y voces no pertenecientes al español  internacional, estas últimas se dividen también según procedencia geográfica o campo  léxico al que pertenece cada voz.

Otro corpus del que hablaremos a continuación es el CNDH que, sin ayuda de los  primeros corpus, el CORDE y el CREA, no habría sido posible. Este corpus contiene un  material básico que nos permite viajar por la historia de las palabras y, además de  facilitarnos gran parte de los datos para hacer el diccionario, nos permite también  obtener una idea en general de su uso a través de criterios de frecuencia y dispersión.

El corpus tiene tres capas de consulta, distribuidas de manera cronológica, la  primera CNDH nuclear, formada por textos comunes entre el CORDE y el CREA, la  segunda del siglo XII a 1975, que contiene textos del CORDE y la última de 1975 al año  2000 con textos obtenidos de la CREA.


El CNDH está formado por 50 millones de palabras que provienen de unos 800  textos completos, lo cual se divide en las siguientes etapas: la medieval, los Siglos de  Oro, los siglos XVIII y XIX y la última etapa correspondiente a los dos periodos del siglo  XX. Mientras que las voces van aumentando, los periodos reducen su duración según  nos acercamos a la actualidad. Por este motivo la etapa moderna desde el siglo XVIII  hasta nuestros días tiene alrededor de un 70 % de todas las voces.

En cuanto a la diversificación dialectal, los textos se dividen en las áreas española  y americana. Durante el siglo XVI, se hacía referencia a América, como una unificación,  sin diferenciar los distintos países que la forman, hecho que llegó más tarde, en el siglo  XIX. Esta separación produce que América aumente hasta un 59,5% en el siglo XX y  España disminuya sus registros a un 40,5%, ya que los registros hispánicos, aragoneses  o leoneses tenían más importancia en la Edad Media.

Respecto a la distribución CNDH, contamos con un corpus nuclear, con obras y  autores como el Cid, Berceo, Alfonso X, Don Juan Manuel, el Cancionero de Baena, La  Celestina, Lazarillo de Tormes, Guzmán de Alfarache, el Quijote, etc.

Debido a su evolución, aumenta a través de subcorpus o corpus modulares.

El primer subcorpus contiene documentos públicos y privados de España y América, con  un carácter manejable y variado, formado por una variedad de palabras de uso  cotidiano, que tienen diferencias regionales en su uso y significado.

El segundo subcorpus, tiene como objetivo informar sobre el léxico deportivo o de la  moda, entre otros temas. Pretende añadir o eliminar neologismos según el paso del  tiempo y aumentar los datos con palabras derivadas, sinónimos o antónimos.

El CNDH tiene varias áreas de distribución:

La cronológica o por épocas, que se ha indicado anteriormente, está dividida en cuatro  etapas: Edad Media, Siglos de Oro, Español Moderno y Español Contemporáneo.

La distribución general, dividida en textos literarios (48%): verso (14%), prosa narrativa  (27%), prosa dramática (7%); y textos no literarios (52%): didáctica (9%), religión (5%),  sociedad (7%), historia (8%), jurídica (5%), prensa (6%), ciencia y técnica (12%). Según  los siglos avanzan los literarios disminuyen y los no literarios aumentan.

Por último, la distribución geográfica, que depende de si los textos son españoles o  americanos y de la época a la que pertenecen. Según nos acercamos a la actualidad, los  textos que corresponden a España disminuyen, mientras que los pertenecientes a  América aumentan.

Como conclusión, nos parece una medida muy interesante para buscar  información concreta sobre áreas específicas. Ahora bien, esto quiere decir que va a ser  empleado por profesionales o eruditos que quieran profundizar en un tema y  especializarse, y aunque sea accesible para todo el mundo, resulta obvio que su  aplicación no es tan eficaz para estudiantes o cualquier otra persona que no cumpla la  descripción anterior.


BIBLIOGRAFÍA







Comentarios

Entradas populares de este blog

VARIEDAD LINGÜÍSTICA DEL ESPAÑOL: EL ARGENTINO

ACTIVIDAD DIDÁCTICA SOBRE EL ARGENTINO