EL BANCO DE DATOS DE LA RAE: CREA, CORDE, CORPES XXI Y CNDH

El Banco de Datos de la Real Academia Española, en sus inicios, estaba formado por el Corpus de Referencia del Español Actual (CREA) y el Corpus Diacrónico del Español (CORDE), actualmente hay dos corpus que acompañan al CREA y al CORDE, el CORPES XXI (Corpus del Español del Siglo XXI) y el CNDH (Corpus del Nuevo Diccionario Histórico de la Lengua Española). Un corpus es un conjunto de textos que se seleccionan y se ordenan según unos criterios lingüísticos, con el objetivo de poder utilizarse como modelo de la lengua. También es considerado una biblioteca organizada, que tiene una distribución equilibrada de los textos entre España y América, entre lengua escrita y oral, entre libros y prensa, así como otros tipos de información.

Los corpus han ido evolucionando con el tiempo. Hasta el momento conocemos tres generaciones de corpus. La primera realizada manualmente en los años 60, la segunda veinte años después, a través de escáneres o programas de Reconocimiento Óptico de Caracteres (COBUILD, Longman-Lancaster) y la tercera generación, producida en la actualidad con corpus como: el Bank of English o el British Nacional Corpus.

El CREA y el CORDE, son los corpus que han servido a fuentes como el Instituto de Lexicografía de la Real Academia Española para preparar materiales de discusión y a continuación argumentarlos y redactarlos. El CREA se encarga de los textos que corresponden a los últimos treinta años y el CORDE el resto, por lo que los textos del CREA van pasando al CORDE.

En 2007, los investigadores pueden utilizar unos 450 millones de formas de todos los tiempos del español, entre el CREA y el CORDE, lo que conforma el recurso más relevante de toda la lengua española. Actualmente hay más formas debido al paso del tiempo.

Los textos se encuentran perfectamente documentados en la cabecera electrónica: la ficha bibliográfica y la electrónica son las que los acompañan. Gracias a estas, a través de la aplicación Nómina de autores y obras, se encuentra todo tipo de información y datos sobre cada consulta en CORDE y CREA. En esta aplicación también aparece la referencia bibliográfica completa y además permite combinar diferentes criterios de selección para obtener datos estadísticos de la consulta que se realice.

Las consultas se pueden realizar en tres ámbitos: el primero, la consulta al Banco de Datos, el segundo, consultar en el CREA y la tercera consulta, en el CORDE. Actualmente también podemos consultar en el CORPES XXI o el CNDH.

La CREA es un corpus de carácter sincrónico, sirve para mostrar ejemplos del uso real de la lengua española de los últimos treinta años, en versión electrónica. Tiene una gran diversidad de textos orales y escritos con una amplia variedad temática.

Se caracteriza principalmente por representar el estado actual de la lengua. Los textos que lo forman están seleccionados por los siguientes parámetros: el medio (reparto entre lengua oral y escrita), el cronológico (dividir los textos en períodos de cinco años), el geográfico (repartir los materiales a la mitad entre España y América) y el temático (distribuir los materiales en “libros y prensa”, “miscelánea” y “oral”).

En relación con la temática el grupo de “libros y prensa” se divide a su vez en dos subgrupos: en primer lugar “Ficción: novela, relatos y teatro” y el segundo subgrupo; “No ficción, con seis hipercampos” (ciencias y tecnología; ciencias sociales, creencias y pensamiento; política, economía, comercio y finanzas; artes; ocio y vida cotidiana; salud).

Los textos de “miscelánea” se clasifican en impresa y no impresa. Y, finalmente, las transcripciones orales se dividen en dos grupos: el radiofónico (noticias, entrevistas...) y otras grabaciones (clases, mesas redondas...).

La parte oral del CREA está formada por dos grupos: textos producidos entre 1975 y 1999 y textos entre 2000 y 2004.

El CREA, además de estar disponible para las tareas de la RAE, lo está para quienes quieran hacer cualquier consulta sobre lingüística. La búsqueda puede ser simple, en la línea de consulta escribimos nuestra consulta sobre cualquier tema, lugar geográfico o medio. Observamos en la nómina las estadísticas generales, las cuales nos muestran el medio del que provienen los registros o por ejemplo las palabras que corresponden a un año determinado configurándose en el criterio cronológico. También puede ser utilizado como banco de pruebas de hipótesis lingüísticas o para realizar búsquedas complejas a través de operadores lógicos.

En marzo de 2021 se ha publicado una nueva versión de CREA que permite buscar por formas, lemas y categorías gramaticales. Esta nueva versión estará vigente hasta el fin de este año.

El CORDE, es la solución que ha creado la RAE (Real Academia Española) para uno de sus problemas: los materiales, escasos e imperfectos, que le han servido de base para la elaboración de un diccionario histórico. Es un corpus formado por más de trescientos millones de registros léxicos desde los orígenes del español hasta 1974. A estos hay que añadir los que proceden de los treinta últimos años del CREA.

El CORDE se caracteriza por ser un corpus que representa a la lengua española a lo largo de la historia. Está formado por una gran variedad de textos distribuidos de manera proporcional para cada grupo establecido, recogiendo testimonios de todas las épocas y lugares en los que se habló español.

De todas las obras que lo forman, la gran mayoría son de autores conocidos, el resto, un grupo más pequeño que el anterior, son de autores anónimos. Las obras seleccionadas siguen unos criterios muy concretos: se introducen los textos al completo con sus prólogos, tasas, aprobaciones..., se eligen aquellos más representativos en cuanto a su difusión, influencia en obras posteriores o los que se han utilizado como apoyo de autoridad en otras obras. Tienen preferencia las ediciones críticas, aunque si no se encuentra se selecciona la única obra existente. Se observa otro aspecto como la dimensión lingüística del texto, la riqueza de vocabulario y el carácter divulgativo de la obra.

La estructura de este corpus se fundamenta en unos criterios formales. Los textos en verso tienen escasa presencia en los corpus porque son menos significativos para los estudios lingüísticos. Esto lo podemos ver en la siguiente clasificación genérico- temática, dividida en literarios (44 %); subdivididos en: verso (10%), prosa narrativa (27%), prosa dramática (7%), y no literarios (56%), subdivididos en: didáctica (10%), ciencia y técnica (14%), religión (6%), sociedad (8%), historia (9%), jurídica (6%), prensa (3%).

También se hace una distribución geográfica, concediendo un 74% al español de España, un 25% al de América y el resto a textos judeoespañoles. A su vez se reparten los textos americanos en: América 1 (México, Guatemala, Honduras, El Salvador), América 2 (Nicaragua y Costa Rica), América 3 (Cuba, Puerto Rico, Panamá, República Dominicana, Venezuela), América 4 (Colombia, Perú, Ecuador y Bolivia), América 5 (Chile), América 6 (Argentina, Uruguay y Paraguay).

El CORDE, tiene además una clasificación cronológica y los porcentajes aumentan según los grupos se vayan acercando a la actualidad. Hay tres grupos, el primero “La edad media” (16,5%), en segundo lugar “Los siglos de oro” (30,5%) y por último “La época contemporánea” (53%).

Una búsqueda básica al CORDE nos facilita información sobre el nacimiento, la vigencia y desaparición de una palabra, además de permitirnos deducir su significado por los contextos en los que se encuentra.

Además de estos corpus, como ya hemos indicado antes han aparecido actualmente dos nuevos corpus, el CORPES XXI y el CNDH.

El CORPES XXI es un corpus de referencia, en el cual solo hay fragmentos de los textos. Las academias de la lengua español (Medellín, marzo de 2007) mandaron a la Real Academia Española (RAE), la creación de este corpus. Hay 25 millones de formas por año y una distribución general de 70 % para textos americanos y 30 % para textos españoles. Además, es un corpus semiabierto por lo que aumentará paulatinamente en los próximos años. Está formado por textos que provienen de España, América, Filipinas y Guinea Ecuatorial.

Desde sus principios se han ido realizando diferentes versiones. La primera en el VI Congreso Internacional de la Lengua Española (Panamá, octubre de 2013), por la cual se puede acceder a casos de una determinada palabra, expresión, categoría o subcategoría gramatical. Más tarde (abril de 2015), se publicó concretamente la versión 0.8, con posibilidad de recuperar el sonido perteneciente a los textos orales y de buscar a partir de la categoría gramatical. A partir de esta versión, aparecen otras como, la versión 0.82 en el mismo año, la 0.83 un año más tarde, que aumentan el número de formas que contiene el corpus. La versión 0.9 llega en julio de 2018 y la 0.91 en diciembre del mismo año. En mayo de 2020 aparece la versión 0.92 y la 0.93 llegó en febrero de 2021, llegando a alcanzar unos 333 millones de formas ortográficas. La versión 0.94, es la más actualizada, se publicó en julio de 2021, superando los 327.000 documentos, lo que equivale a unos 350 millones de formas.

Al igual que los anteriores corpus los textos del CORPES XXI, han sido seleccionados a partir de los siguientes parámetros.

En primer lugar, el medio, un 90% son de lengua escrita y el 10% restante de lengua oral. Los textos escritos se dividen a su vez en un 40% de libros, un 40% de periódicos, un 7,5% de material Internet y un 2,5% de miscelánea.

Otro parámetro es el geográfico, se asigna un 30 % a las formas procedentes de España y un 70% a las formas procedentes de América. Estas últimas formas se subdividen en zonas lingüísticas como: andina, Antillas, caribe continental, chilena, Estados Unidos, México y Centroamérica y Río de la Plata.

Respecto a la temática se distinguen dos grandes bloques, el de ficción y el de no ficción, los cuales se subdividen en diferentes áreas temáticas: ciencias y tecnología, ciencias sociales, creencias y pensamiento, política, economía, comercio, finanzas, artes, ocio, vida cotidiana, salud, novela, teatro, relatos y guiones.

Además, observamos que se distribuyen por el tipo de texto: para los textos de ficción; novela, cuento, teatro y guiones, para periódicos y revistas; noticias y reportajes, para los textos orales prosa académica y no académica y para los textos escritos leídos noticias de radio o televisión.

Otra distribución, es la temporal, en la que el mayor peso lo tienen los textos del 2006, al año 2010 (más de 107 millones de formas), seguido por los pertenecientes al rango entre 2001 y el año 2005 (más de 102 millones de formas), los textos que abarcan del año 2011, al 2015 (unos 82 millones de formas) y finalmente los textos, más actuales, del año 2016 al 2020 (superan los 51 millones de formas).

Las búsquedas en el CORPES XXI, nos proporcionan la dispersión geográfica de la voz a lo largo del ámbito hispánico y su índice de frecuencia general y normalizada.

Todas las voces detectadas y estudiadas las podemos clasificar en: voces pertenecientes al español internacional y voces no pertenecientes al español internacional, estas últimas se dividen también según procedencia geográfica o campo léxico al que pertenece cada voz.

Otro corpus del que hablaremos a continuación es el CNDH que, sin ayuda de los primeros corpus, el CORDE y el CREA, no habría sido posible. Este corpus contiene un material básico que nos permite viajar por la historia de las palabras y, además de facilitarnos gran parte de los datos para hacer el diccionario, nos permite también obtener una idea en general de su uso a través de criterios de frecuencia y dispersión.

El corpus tiene tres capas de consulta, distribuidas de manera cronológica, la primera CNDH nuclear, formada por textos comunes entre el CORDE y el CREA, la segunda del siglo XII a 1975, que contiene textos del CORDE y la última de 1975 al año 2000 con textos obtenidos de la CREA.

El CNDH está formado por 50 millones de palabras que provienen de unos 800 textos completos, lo cual se divide en las siguientes etapas: la medieval, los Siglos de Oro, los siglos XVIII y XIX y la última etapa correspondiente a los dos periodos del siglo XX. Mientras que las voces van aumentando, los periodos reducen su duración según nos acercamos a la actualidad. Por este motivo la etapa moderna desde el siglo XVIII hasta nuestros días tiene alrededor de un 70 % de todas las voces.

En cuanto a la diversificación dialectal, los textos se dividen en las áreas española y americana. Durante el siglo XVI, se hacía referencia a América, como una unificación, sin diferenciar los distintos países que la forman, hecho que llegó más tarde, en el siglo XIX. Esta separación produce que América aumente hasta un 59,5% en el siglo XX y España disminuya sus registros a un 40,5%, ya que los registros hispánicos, aragoneses o leoneses tenían más importancia en la Edad Media.

Respecto a la distribución CNDH, contamos con un corpus nuclear, con obras y autores como el Cid, Berceo, Alfonso X, Don Juan Manuel, el Cancionero de Baena, La Celestina, Lazarillo de Tormes, Guzmán de Alfarache, el Quijote, etc.

Debido a su evolución, aumenta a través de subcorpus o corpus modulares.

El primer subcorpus contiene documentos públicos y privados de España y América, con un carácter manejable y variado, formado por una variedad de palabras de uso cotidiano, que tienen diferencias regionales en su uso y significado.

El segundo subcorpus, tiene como objetivo informar sobre el léxico deportivo o de la moda, entre otros temas. Pretende añadir o eliminar neologismos según el paso del tiempo y aumentar los datos con palabras derivadas, sinónimos o antónimos.

El CNDH tiene varias áreas de distribución:

La cronológica o por épocas, que se ha indicado anteriormente, está dividida en cuatro etapas: Edad Media, Siglos de Oro, Español Moderno y Español Contemporáneo.

La distribución general, dividida en textos literarios (48%): verso (14%), prosa narrativa (27%), prosa dramática (7%); y textos no literarios (52%): didáctica (9%), religión (5%), sociedad (7%), historia (8%), jurídica (5%), prensa (6%), ciencia y técnica (12%). Según los siglos avanzan los literarios disminuyen y los no literarios aumentan.

Por último, la distribución geográfica, que depende de si los textos son españoles o americanos y de la época a la que pertenecen. Según nos acercamos a la actualidad, los textos que corresponden a España disminuyen, mientras que los pertenecientes a América aumentan.

Como conclusión, nos parece una medida muy interesante para buscar información concreta sobre áreas específicas. Ahora bien, esto quiere decir que va a ser empleado por profesionales o eruditos que quieran profundizar en un tema y especializarse, y aunque sea accesible para todo el mundo, resulta obvio que su aplicación no es tan eficaz para estudiantes o cualquier otra persona que no cumpla la descripción anterior.

BIBLIOGRAFÍA

Pascual, J. A., & Domínguez, C. (2019). Un corpus para un nuevo diccionario histórico del español. In A. Enrique-Arias (Ed.), (pp. 79-94). Iberoamericana Vervuert. https://elibro-net.unican.idm.oclc.org/es/ereader/unican/36854

Lozano, C. J. (2014). El español internacional en la prensa hispana de los estados unidos: hacia una nivelación interdialectal del español en los medios estadounidenses. [Tesis de doctorado, Universitat de Vàlencia]. (pp. 36- 39) https://www.educacion.gob.es/teseo/imprimirFicheroTesis.do?idFichero=Reo8k%2F%2Ba%2F Q0%3D

Real Academia Española (Ed.) (s.f.). Banco de datos. https://www.rae.es/banco-de-datos

Real Academia Española (Ed.) (s.f.). Corpes XXI. https://www.rae.es/banco-de-datos/corpes-xxi

Real Academia Española (Ed.) (s.f.). CDH. https://www.rae.es/banco-de-datos/cdh

Real Academia Española (Ed.) (s.f.). Crea. https://www.rae.es/banco-de-datos/crea

Real Academia Española (Ed.) (s.f.). CORDE. https://www.rae.es/banco-de-datos/corde

Buscar este blog

EL RINCÓN DE LA LENGUA

EL BANCO DE DATOS DE LA RAE: CREA, CORDE, CORPES XXI Y CNDH

Comentarios

Publicar un comentario

Entradas populares de este blog

VARIEDAD LINGÜÍSTICA DEL ESPAÑOL: EL ARGENTINO

ACTIVIDAD DIDÁCTICA SOBRE EL ARGENTINO