Lei de Zipf
A Lei de Zipf é uma lei empírica formulada utilizando estatísticas matemáticas que se refere ao fato de que para muitos tipos de dados estudados nas ciências físicas e sociais, a distribuição de frequência de classificação é uma relação inversa[1]. A distribuição zipfiana esta inserida dentro da família de leis de distribuições de probabilidades poder discreta relacionadas. Está relacionado com a distribuição de zeta, mas não é idêntica.
A lei de Zipf foi originalmente formulada em termos de linguística quantitativa, afirmando que, dado algum corpus de expressões linguísticas naturais, a frequência de qualquer palavra é inversamente proporcional à sua classificação na tabela de frequências. Assim, a palavra mais frequente ocorrerá aproximadamente duas vezes mais frequentemente do que a segunda palavra mais frequente, três vezes mais vezes que a terceira palavra mais frequente, e assim sucessivamente. Não há consenso na literatura, porém, sobre o que causa o fenômeno[2].
A lei é nomeada em homenagem à George Kingsley Zipf, linguista da Universidade de Harvard, que a popularizou na década de 1940 por meio de sua obra Human Behaviour and the Principle of Least-Effort ("Comportamento Humano e o Principio do Menor Esforço").[3][1] Apesar disso, porém, alguns estudiosos já haviam notado essa regularidade antes de Zipf, como o estenógrafo francês Jean-Baptiste Estoup[4], e o físico alemão Felix Auerbach, em 1913[5].
A Lei de Zipf é semelhante em conceito, embora não idêntico na distribuição, à Lei de Benford.
Trata-se de uma lei de potências sobre a distribuição de valores de acordo com o nº de ordem numa lista. Numa lista, o membro n teria uma relação de valor com o 1º da lista segundo 1/n. Por exemplo, numa língua a frequência com que surgem as diversas palavras segue uma distribuição que se pode aproximar por:
onde Pn representa a frequência de uma palavra ordenada na n-ésima posição e o expoente a é próximo da unidade. Isto significa que o segundo elemento se repetirá aproximadamente com uma frequência que é metade da do primeiro, e o terceiro elemento com uma frequência de 1/3 e assim sucessivamente. Uma lei não empírica, mas mais precisa, derivada dos trabalhos de Claude Shannon foi descoberta por Benoît Mandelbrot.
Os campos de aplicação da lei de Zipf são diversos, e são também várias as tendências de pensamento que a têm proposto como contrapartida à distribuição gaussiana no âmbito das ciências sociais. Na realidade, nas ciências sociais não se segue sempre uma distribuição gaussiana, mas também não se segue sempre a lei de Zipf.
Génese
editarZipf analisou a obra monumental de James Joyce, Ulisses, e contou as palavras distintas, ordenando-as por frequência. Verificou-se que:
- a palavra mais comum surgia 8000 vezes;
- a décima, 800 vezes;
- a centésima, 80 vezes;
- a milésima, 8 vezes.
Os resultados fazem parecer, à luz de outros estudos que podem ser feitos rapidamente com qualquer computador, demasiado precisos para serem perfeitamente exatos, e em estudos similares a décima palavra mais comum surge cerca de 1000 vezes, por via de um efeito de cauda observado nesta distribuição. A lei de Zipf prevê que num dado texto, a frequência de ocorrência f(n) de uma palavra esteja ligada à sua ordem n na ordem das frequências por uma lei da forma: onde K é uma constante.
Aplicações
editarDurante algum tempo, acreditava-se que o livro medieval Código Voynich, indecifrado até hoje, pudesse ser um livro falso, uma fraude. Porém, como o texto do Código segue a Lei de Zipf, isso indica que o livro deve estar escrito em alguma linguagem desconhecida, ao invés de ser pura invenção. [6]
Ver também
editarLeituras complementares
editarPrincipais:
- George K. Zipf (1949) Human Behavior and the Principle of Least Effort. Addison-Wesley.
- George K. Zipf (1935) The Psychobiology of Language. Houghton-Mifflin. (citações em http://citeseer.ist.psu.edu/context/64879/0 )
Secundárias:
- Gelbukh, Alexander, and Sidorov, Grigori (2001) "Zipf and Heaps Laws’ Coefficients Depend on Language". Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, February 18–24, 2001, Mexico City. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, ISBN 3-540-41687-0, Springer-Verlag: 332–335.
- Damián H. Zanette (2006) "Zipf's law and the creation of musical context," Musicae Scientiae 10: 3-18.
- Kali R. (2003) "The city as a giant component: a random graph approach to Zipf's law," Applied Economics Letters 10: 717-720(4)
- Gabaix, Xavier (1999). «Zipf's Law for Cities: An Explanation» (PDF). Quarterly Journal of Economics. 114 (3): 739–67. ISSN 0033-5533. doi:10.1162/003355399556133
Referências
- ↑ a b Laura Cerqueira, Armando Malheiro da Silva (2007). «Uma abordagem infométrica no âmbito da Ciência de Informação a propósito dos dez anos de edição das Páginas a&b» (PDF)
- ↑ poder360.com.br/ O guarda-chuva do presidente
- ↑ «lei de Zipf». Arquivado do original em 3 de dezembro de 2010
- ↑ Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), ISBN 978-0-262-13360-9, p. 24
- ↑ Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76
- ↑ «O livro mais misterioso do mundo». El País. 12 de dezembro de 2015. Consultado em 15 de dezembro de 2015
Ligações externas
editar- «La ley de Zipf por Javier Sampedro, El País, 13 de dezembro de 2009» (em espanhol)
- «Zipf - Lista de palavras do léxico francês, com frequências»
- «Zipf - Lista de palavras do léxico português, com frequências - retirado do Project Gutenberg, pelo que inclui palavras noutras línguas retiradas de textos complementares aos disponíveis no site» (PDF)
- «Zipf - Lista de palavras para os léxicos inglês, francês espanhol, italiano, sueco, islandês, latim, português e finlandês, do Gutenberg Project. Inclui calculadora online para cálculo de frequências de palavras em textos»