Tesouro Medieval Informatizado da Língua Galega

O Tesouro Medieval Informatizado da Língua Galega (TMILG) é um corpus linguístico fruto de um projeto de investigação homônimo realizado no Instituto da Língua Galega (ILG), em convênio com a Secretaria Geral de Política Linguística da Junta de Galiza.

Este recurso permite buscas variadas na documentação galega medieval. As obras que oferece são muito variadas, e vão desde a lírica profana ou religiosa (Lírica trovadoresca galego-portuguesa, Cantigas de Santa Maria) até a prosa técnica (Arte de Trovar, Tratado de Albeitaria), passando pela prosa literária (Crónica Troiana, História Troiana, Livro de Tristão), a prosa histórica (Crónica Geral e Crónica de Castela, Geral Historia), a prosa religiosa (Miragres de Santiago, Crónica de Santa Maria de Iria) e a prosa jurídica (Flores de Dereito, fragmentos da Partidas, Ordenamento de Alcalá de Henares etc.). Lugar preferencial ocupa a prosa notarial, abrangendo copiosas coleções religiosas e civis, entre as quais se destacam especialmente as monásticas. Para aceder a este corpus é preciso registrar-se.

Histórico

editar

A equipe dirigida por Xavier Varela é formada por investigadores, bolsistas e colaboradores da Universidade de Santiago de Compostela e da Universidade de Vigo. Desde 1993, e em coordenação com a equipe do TILG (Tesouro Informatizado da Língua Galega), vêm enriquecendo permanentemente as suas bases textuais. Nestes anos modificaram-se em várias ocasiões os procedimentos de etiquetagem e de lematização para refiná-los. Ao cabo da terceira revisão, incorporaram-se os textos ao recurso online. O projeto pôde realizar-se pelo esforço institucional do ILG com o patrocínio da Direção Geral de Política Linguística, através da Secretaria Geral de Política Linguística da Junta de Galiza.

Características

editar

Em outubro de 2005 a base do TMILG contém a totalidade das obras não notariais publicadas da Galiza medieval (literárias, históricas, religiosas, jurídicas e técnicas). Das obras notariais já está incluída uma boa parte das publicadas (aproximadamente 85%) e estão bem avançados os trabalhos para a inclusão das restantes, prevista para meados de 2006. Em número, os documentos coletados são mais de 12.500. O arco cronológico vai do século XIII a princípios do XVI (com registros romances desde o VIII).

Os textos não foram modificados, exceto pela junção de palavras cortadas ao final da linha, pelo que o usuário não se exime de encontrar erros inevitáveis na leitura e edição de textos medievais. Respeitaram-se as grafias da edição impressa empregada como base (os diferentes tipos de "s", o signo tironiano ou o til de nasalidade sobre vogais e consoantes).

A etiquetagem dos textos foi adaptada a cada tipologia textual. Na versão para a Internet excluíram-se algumas etiquetas para fazê-la mais homogénea e manejável. Ficaram as seguintes: nome padronizado, indicações para a localização dos exemplos (volume, capítulo e página), referências cronológicas (ano ou faixa de anos, século e, no caso dos documentos notariais, também o mês), autoria, localização geográfica, tipologia textual (até três níveis hierárquicos), carácter original ou não do texto e língua original, se se trata duma tradução.

Estatísticas

editar
  • Em número de palavras o TMILG passa na atualidade dos nove milhões, que dão ao redor de 170.000 formas gráficas distintas.
  • As dez mais frequentes são, pela ordem, d(e), e(t), a, que, o, en, por, el, os e se; constituem 29,62% de todo o corpus.
  • Os primeiros substantivos comuns são carta, parte, rrey, lugar e terra.
  • Os primeiros antropónimos são Fernando e Afonso.
  • Os primeiros topónimos galegos são Lugo, Orzellon, Oseira e Tuy.
  • Os forâneos são Castella, Troya, Toledo, Cordoua e Leõ.
  • As formas gráficas de ocorrência única rondam as 95.000.
  • Pelo número de sílabas as mais frequentes são as bissílabas, seguidas de perto pelas trissílabas, monossílabas, tetrassílabas e pentassílabas.

Consultas e utilidade

editar

O corpus é de acesso livre, após prévio registro como usuário. O sistema de consulta permite buscar uma ou várias palavras, fazer buscas lógicas e utilizar caracteres-curinga. Podem-se refinar as buscas fazendo restrições cronológicas, por género, por subgénero ou por obra.

Este corpus foi fabricado para a elaboração de uma gramática histórica. Tem utilidade em todas os ramos linguísticos e literários da filologia, bem como em muitas outras disciplinas, como a história, a paleografia, a geografia, o direito e a política, a antropologia, as ciências da saúde, a náutica, a botânica, a zoologia etc.

Ligações externas

editar