O valor tf–idf (abreviação do inglês term frequency–inverse document frequency, que significa frequência do termo–inverso da frequência nos documentos), é uma medida estatística que tem o intuito de indicar a importância de uma palavra de um documento em relação a uma coleção de documentos ou em um corpus linguístico.[1]:8 Ela é frequentemente utilizada como fator de ponderação na recuperação de informações e na mineração de dados.

O valor tf–idf de uma palavra aumenta proporcionalmente à medida que aumenta o número de ocorrências dela em um documento, no entanto, esse valor é equilibrado pela frequência da palavra no corpus. Isso auxilia a distinguir o fato da ocorrência de algumas palavras serem geralmente mais comuns que outras.

Motivação

editar

Frequência do termo (tf)

editar

Suponha que foram selecionados uma coleção de documento de textos em português e que nós desejamos determinar qual deles tem maior relação com a frase "uma vaca amarela". Uma maneira simples de iniciar essa análise seria simplesmente descartar todos os documentos que não contém as palavras "uma", "vaca" e "amarela", mas apenas esse procedimento não seria suficiente para completar a análise, pois muitos documentos provavelmente possuem as três palavras. Assim, para melhorar a distinção entre elas, nós podemos contar o número de vezes que um dos termos ocorre em cada documento e somar esse valor; o número de vezes que um termo ocorre em um documento é a frequência do termo.

A primeira forma de ponderação de termos é atribuída a Hans Peter Luhn (1957) e se baseia na suposição de Luhn:

  • O peso de um termo que ocorre em um documento é diretamente proporcional à sua frequência.[2]

Inverso da frequência nos documentos (idf)

editar

No entanto, como o termo "uma" é muito comum, isso vai dar ênfase em documentos que utilizam essa palavra com mais frequência, sem dar a ênfase apropriada para termos com mais significado como "vaca" e "amarela". O termo "uma" não é uma boa palavra-chave para distinguir documentos relevantes de não-relevantes em comparação com as palavras "vaca" e "amarela". Assim, o inverso da frequência do termo nos documentos é incorporado para diminuir o peso dos termos que ocorrem mais frequentemente no conjunto de textos selecionados, ao mesmo tempo que aumenta o peso daqueles que ocorrem raramente.

Karen Spärck Jones (1972) concebeu uma interpretação estatística do termo IDF, que se tornou um conceito base para a ponderação de termos:

  • A especificidade de um termo pode ser quantificada por uma função inversa do número de documentos em que ele ocorre.[3]

Referências

editar
  1. Rajaraman, Anand; Ullman, Jeffrey David. Data Mining. [S.l.: s.n.] p. 1-17. doi:10.1017/cbo9781139058452.002 
  2. Luhn, H.P. (1 de outubro de 1957). «A Statistical Approach to Mechanized Encoding and Searching of Literary Information». IBM Journal of Research and Development. 1 (4): 309-317. ISSN 0018-8646. doi:10.1147/rd.14.0309 
  3. «A STATISTICAL INTERPRETATION OF TERM SPECIFICITY AND ITS APPLICATION IN RETRIEVALnull». Journal of Documentation. 28 (1): 11-21. 1 de janeiro de 1972. ISSN 0022-0418. doi:10.1108/eb026526