Agenda do Suplemento Cultural: C-ORAL – BRASIL I: Corpus de referência do português brasileiro falado informal

quarta-feira, 4 de abril de 2012

C-ORAL – BRASIL I: Corpus de referência do português brasileiro falado informal

C-ORAL – BRASIL I: Corpus de referência do português brasileiro falado informal
Tommaso Raso, Heliana Mello (organizadores)

Obra Avulsa
Acompanha DVD
Formato: 23,5 x 17 cm, 720 gramas

C-ORAL-BRASIL

Este é um projeto que se dedica ao estudo da fala espontânea do português brasileiro, através da compilação de um corpus de textos orais produzidos em contexto natural.

O projeto está sediado na Faculdade de Letras da Universidade Federal de Minas Gerais (UFMG). Seus pesquisadores estão vinculados ao Núcleo de Estudos em Linguagem, Cognição e Cultura (NELC), ao Laboratório de Estudos Empíricos e Experimentais da Linguagem (LEEL) e ao Grupo Interfaces Linguagem, Cognição e Cultura (Incógnito).

O projeto C-ORAL-BRASIL visa ao estudo da fala espontânea do português brasileiro através da compilação de um corpus comparável aos corpora do projeto C-ORAL-ROM.

Seus coordenadores são Tommaso Raso e Heliana Mello.

O projeto é financiado pela Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG), pelo Conselho Nacional de Desenvolvimento Tecnológico (CNPq), pela Universidade Federal de Minas Gerais (UFMG) e pelo Banco Santander.

Síntse das especificações do corpus

O corpus será composto de pelo menos 200 textos e 300.000 palavras, divididos em uma metade formal (em fase de coleta) e uma metade informal (concluída).

A metade informal se divide em um domínio privado/familiar (80%) e um domínio público (20%). Cada domínio se divide em monólogos (1/3), diálogos (1/3) e conversações (1/3).

O objetivo principal da arquitetura do corpus é representar a variação diafásica da fala brasileira, com especial atenção à diatopia mineira (em particular a região metropolitana de Belo Horizonte). Portanto as gravações procuram buscar a maior variação situacional possível. Secundariamente, busca-se também representar a variação diastrática.

Os textos (em média de 1500 palavras) são segmentados em enunciados e unidades tonais, para permitir o estudo das ilocuções e da estrutura informacional com base na Teoria da Língua em Ato* de Emanuela Cresti, diretora do laboratório LABLITA da Universidade de Florença (Itália).

As principais fases de compilação são:

Gravação com equipamento wireless de alta qualidade;

Transcrição por transcritores experts segundo os critérios de segmentação mencionados e com base em critérios não sempre ortográficos, com o intuito de preservar fenômenos da fala que possam estar em curso de gramaticalização ou lexicalização;

Revisão das transcrições;

Segunda revisão durante o alinhamento com o software WinPitch de Philippe Martin;

Etiquetagem léxico-morfossintática com o software Palavras de Eckhard Bick, especialmente treinado para este corpus e com a ajuda de um pré-processamento utilizando o ambiente computacional R;

Etiquetagem informacional de um minicorpus de pelo menos 20 textos e 30.000 palavras com base na Teoria da Língua em Ato*.

*Veja-se:

CRESTI, E. Corpus di Italiano parlato. v. 1. Firenze: Accademia della Crusca, 2000.

CRESTI, E.; MONEGLIA, M. Informational patterning theory and the corpus-based description of spoken language: The compositionality issue in the topic-comment pattern. In: M. Moneglia; A. Panunzi (Eds.); Bootstrapping Information from Corpora in a Cross-Linguistic Perspective. p.13-45. Firenze: FUP, 2010.

O LIVRO
O livro e o DVD C-ORAL-BRASIL I: corpus de referência do português brasileiro falado informal fornecem um corpus de fala espontânea do português brasileiro único por suas características, que o tornam comparável aos corpora de espanhol, francês, italiano e português europeu do projeto C-ORAL-ROM. O corpus é acompanhado de estudos linguísticos e metodológicos e de grandes quantidades de dados e medidas estatísticas sobre a fala espontânea informal e seu texto sociolinguístico. Os arquivos de som, texto e alinhamento, também em versão etiquetada gramaticalmente, anotam os atos de fala e a estruturação informacional com base em critérios prosódicos e apresentam a fala em uma grande variedade de contextos de uso. O corpus fornece novos dados em uma perspectiva teórica inovadora, relevantes para a Linguística de Corpus, a Linguística Românica, a aquisição de segunda língua, a teoria sintática e a pesquisa prosódica. A metodologia de coleta o torna também útil para o estudo das patologias linguísticas e para estudos tecnológicos aplicados à linguagem humana, como o reconhecimento automático e a síntese da fala espontânea.