Tf–idf

O valor tf–idf (abreviação do inglês term frequency–inverse document frequency, que significa frequência do termo–inverso da frequência nos documentos), é uma medida estatística que tem o intuito de indicar a importância de uma palavra de um documento em relação a uma coleção de documentos ou em um corpus linguístico.^[1]^:8 Ela é frequentemente utilizada como fator de ponderação na recuperação de informações e na mineração de dados.

O valor tf–idf de uma palavra aumenta proporcionalmente à medida que aumenta o número de ocorrências dela em um documento, no entanto, esse valor é equilibrado pela frequência da palavra no corpus. Isso auxilia a distinguir o fato da ocorrência de algumas palavras serem geralmente mais comuns que outras.

Motivação

Frequência do termo (tf)

Suponha que foram selecionados uma coleção de documento de textos em português e que nós desejamos determinar qual deles tem maior relação com a frase "uma vaca amarela". Uma maneira simples de iniciar essa análise seria simplesmente descartar todos os documentos que não contém as palavras "uma", "vaca" e "amarela", mas apenas esse procedimento não seria suficiente para completar a análise, pois muitos documentos provavelmente possuem as três palavras. Assim, para melhorar a distinção entre elas, nós podemos contar o número de vezes que um dos termos ocorre em cada documento e somar esse valor; o número de vezes que um termo ocorre em um documento é a frequência do termo.

A primeira forma de ponderação de termos é atribuída a Hans Peter Luhn (1957) e se baseia na suposição de Luhn:

O peso de um termo que ocorre em um documento é diretamente proporcional à sua frequência.^[2]

Inverso da frequência nos documentos (idf)

No entanto, como o termo "uma" é muito comum, isso vai dar ênfase em documentos que utilizam essa palavra com mais frequência, sem dar a ênfase apropriada para termos com mais significado como "vaca" e "amarela". O termo "uma" não é uma boa palavra-chave para distinguir documentos relevantes de não-relevantes em comparação com as palavras "vaca" e "amarela". Assim, o inverso da frequência do termo nos documentos é incorporado para diminuir o peso dos termos que ocorrem mais frequentemente no conjunto de textos selecionados, ao mesmo tempo que aumenta o peso daqueles que ocorrem raramente.

Karen Spärck Jones (1972) concebeu uma interpretação estatística do termo IDF, que se tornou um conceito base para a ponderação de termos:

A especificidade de um termo pode ser quantificada por uma função inversa do número de documentos em que ele ocorre.^[3]

Referências

↑ Rajaraman, Anand; Ullman, Jeffrey David. Data Mining. [S.l.: s.n.] p. 1-17. doi:10.1017/cbo9781139058452.002
↑ Luhn, H.P. (1 de outubro de 1957). «A Statistical Approach to Mechanized Encoding and Searching of Literary Information». IBM Journal of Research and Development. 1 (4): 309-317. ISSN 0018-8646. doi:10.1147/rd.14.0309
↑ «A STATISTICAL INTERPRETATION OF TERM SPECIFICITY AND ITS APPLICATION IN RETRIEVALnull». Journal of Documentation. 28 (1): 11-21. 1 de janeiro de 1972. ISSN 0022-0418. doi:10.1108/eb026526

[1] Rajaraman, Anand; Ullman, Jeffrey David. Data Mining. [S.l.: s.n.] p. 1-17. doi:10.1017/cbo9781139058452.002

[2] Luhn, H.P. (1 de outubro de 1957). «A Statistical Approach to Mechanized Encoding and Searching of Literary Information». IBM Journal of Research and Development. 1 (4): 309-317. ISSN 0018-8646. doi:10.1147/rd.14.0309

[3] «A STATISTICAL INTERPRETATION OF TERM SPECIFICITY AND ITS APPLICATION IN RETRIEVALnull». Journal of Documentation. 28 (1): 11-21. 1 de janeiro de 1972. ISSN 0022-0418. doi:10.1108/eb026526

[1]

[2]

[3]