O novo corpus de espanhol do século XXI

 

No final de 2018, os tradutores públicos de espanhol e demais profissionais da área passaram a contar com mais uma novidade (gratuita!) da Real Academia Española (RAE), instituição que mantém uma produção constante de dicionários e outros materiais sobre a língua castelhana. Para quem não sabe, o castelhano, idioma que no Brasil costumamos chamar de espanhol, é um dos idiomas falados na Espanha, mas não é o único. Coexistem também o galego, o basco, o catalão e o valenciano como línguas cooficiais da Espanha.

O novo lançamento da RAE é o CORPES XXI, que conta com mais 285.000 documentos, oriundos de textos escritos e de transcrições de textos orais, sendo que algumas dessas transcrições possibilitam o download do arquivo de áudio ou a visualização do vídeo do documento fonte.

Os textos oriundos de livros contam com mais de 140 milhões de palavras. Nas obras de ficção (romances, roteiros, relatos, peças teatrais), o CORPES XXI tem mais de 81 milhões de palavras, enquanto que há quase 207 milhões de palavras nos textos de não ficção (ciências sociais, saúde, política, artes, tecnologia, etc.).

Por outro lado, a imprensa está representada por aproximadamente 142 milhões de palavras. Outros 5 milhões provêm de blogues, entrevistas digitais e outros materiais.

O CORPES XXI é um corpus de referência. Em linguística, denomina-se corpus um conjunto formado por milhares ou centenas de milhares de textos (romances, peças de teatro, roteiros de cinema, matérias jornalísticas, ensaios, transcrições de noticiários de rádio e TV, transcrições de conversas, discursos, etc.) com milhões ou bilhões de palavras. Geralmente, são usados para conhecer o significado e as características de palavras, expressões e construções a partir de usos reais registrados. Devido ao seu tamanho, os corpora (plural de corpus) precisam estar em formato eletrônico.

Um corpus geral (denominado corpus de referência) tem como objetivo básico ser uma ferramenta que permita obter as características globais que uma língua apresenta em dado momento da sua história. No caso do espanhol atual, o corpus deve abarcar textos de todos os tipos e também de todos os países do mundo hispânico.

Para tanto, os textos que fazem parte do CORPES são selecionados de acordo com uma série de parâmetros e são tratados como um sistema de codificação especialmente definido para este corpus e para a recuperação dos seus dados a partir desses parâmetros.

 

Fonte:

http://www.rae.es/recursos/banco-de-datos/corpes-xxi

Compartilhe

Av. Contorno, 2786 - Santa Efigênia - Belo Horizonte - Minas Gerais

presidencia@atpminas.com.br