Wikipédia:Esplanada/geral/Pesquisa sobre referências (16dez2014)

Pesquisa sobre referências (16dez2014)

 
Evolução da porcentagem de artigos referenciados

Realizei uma pesquisa sobre referências para identificar a evolução da porcentagem de artigos referenciados na Wikipédia lusófona, a pesquisa foi feita usando dumps, verificando sinais de referências em todas edições de todos artigos e listas, o resultado é o gráfico ao lado. A verificação foi feita procurando {{referêcias}}, http://, https:// ou <ref na linha azul e somente <ref na linha verde. Segundo esses dados estamos atualmente com 77% dos artigos com algum sinal de referência e 54% de artigos com notas de rodapé diretamente no texto (não contando por exemplo artigos com apenas nota de rodapé inserida pela infobox).

Uma coisa que fica evidente no gráfico é a subida constante do número de artigos referenciados, então podemos inferir que a referenciação de todos artigos é uma questão de tempo. Sobre os saltos que vemos no gráfico, pelo que pude constatar, o salto no inicio de 2013 que só aparece na linha azul foi as edições feitas pelo meu robô a pedido do João Carvalho e Stegop referenciando cerca de 30 mil artigos de comunas francesas (não aparece na linha verde porque as notas de rodapé foram colocadas através da infobox), e o salto no final de 2013 foi feito pelo robô do Fabiano Tatsch, o qual referenciou dezenas de milhares de asteroides, municípios da Itália e municípios da Espanha.

A pesquisa não é precisa a ponto de dizer se as referências são válidas ou se as ligações externas no artigo podem ser consideradas referência, e também não conta como referência por exemplo seções ==Bibliografia== citando apenas livros e não links, porém creio que dá uma boa visão sobre a evolução da referenciação que não tínhamos até então. Danilo.mac(discussão) 16h00min de 16 de dezembro de 2014 (UTC)[responder]

Excelente trabalho, Danilo.mac. Mais uma evidência de que a pt.wiki está melhorando. Seria possível fazer um trabalho semelhante analisando outros aspectos como tamanho do texto e número de ligações internas?Lechatjaune msg 18h24min de 16 de dezembro de 2014 (UTC)[responder]
É possível e é uma ideia interessante, mas é uma pesquisa um pouco mais complicada pois os dados são lineares (tamanho do artigo), enquanto na pesquisa de referências os dados são binários (tem ou não tem referência), o que nos obriga a trabalhar com médias, o que não é um indicador muito confiável, ou com gráfico em três dimensões. Vou ver o que consigo fazer. Danilo.mac(discussão) 21h14min de 16 de dezembro de 2014 (UTC)[responder]
Excelente. Isso é o tipo da coisa que vale comemorar e divulgar mais. Se os resultados forem mesmo sólidos e confiáveis, com certeza vale um post no Blog da Wikimedia. Está disposto a escrever? Tem minha ajuda pra escrever e pra traduzir. Abraço e parabéns.—Teles«fale comigo» 21h39min de 16 de dezembro de 2014 (UTC)[responder]
Eu concordo 100%. Conte comigo também. É notícia para se comemorar. José Luiz disc 00h18min de 17 de dezembro de 2014 (UTC)[responder]

Bom trabalho Danilo.mac. Parece-me que estamos no bom caminho. Vamos devagar, mas vamos ! --João Carvalho deixar mensagem 00h12min de 17 de dezembro de 2014 (UTC)[responder]

Parabéns Danilo.mac! Sabermos que as coisas estão melhorando é um incentivo. DARIO SEVERI (discussão) 01h23min de 17 de dezembro de 2014 (UTC)[responder]

Só passei aqui para dar os parabéns ao Danilo. Esse tipo de trabalho precisa ser comemorado. --Zoldyick (Discussão) 01h29min de 17 de dezembro de 2014 (UTC)[responder]

Muito interessante, Danilo.mac. Sem dúvida estão todos de parabéns. Talvez fosse interessante tentar distinguir entre artigos antigos que entretanto foram referenciados (como os que foram referenciados pelos bots que referiu e pelas camapanhas de referenciação) e artigos novos que já começam com referências ou as ganham no seu primeiro mês de existência (decorrente do trabalho dos patrulhadores de páginas novas ou melhoramentos por reacção a processos de eliminação). GoEThe (discussão) 09h05min de 17 de dezembro de 2014 (UTC)[responder]

Danilo.mac, um dado interessante e mais binário seria a evolução das marcas de {{sem-fontes}}. Por exempĺo: percentual da artigos com marcações do tipo {{sem-fontes}} e percentual de artigos sem fontes e sem a marcação. Outra informação interessantes, descobrir se as primeiras fontes vieram ou não depois da marcação. Lechatjaune msg 11h54min de 17 de dezembro de 2014 (UTC)[responder]

  • Fico feliz com a recepção que a pesquisa teve, obrigado.
  • @Teles: pelo que pude ver no blog da Wikimedia os post são grandes, e eu não sei o que mais dizer sobre a pesquisa além do que coloquei no início do tópico, não sei se é o suficiente para um post no blog, se alguém quiser escrever mais alguma coisa sobre o assunto talvez o post fique melhor. O responsável pela parte de pesquisa da WMF me sugeriu colocar a pesquisa em meta:Research:Projects.
 
Artigos referenciados no mês em que foram criados e referenciados depois.
  • Fiz o gráfico ao lado conforme sugestão do GoEThe, contando os artigos referenciados por mês, separando em os artigos que foram criados naquele mês (verde) e artigos que foram criados em um mês anterior (azul). O gráfico mostra que os artigos referenciados no mês em que foram criados continuam aproximadamente na média dos últimos anos, já a referenciação de artigos que foram criados há mais tempo caiu desde o começo deste ano para um patamar de aproximadamente mil por mês (a escala do gráfico é logarítmica para melhor visualização, cada linha horizontal é dez vezes a anterior), talvez um pouco por termos menos artigos antigos para referenciar, mas talvez um pouco também por não termos feito campanhas de referenciação este ano.
  • @Lechatjaune: é uma ideia interessante também, e mais simples, porém depende de uma nova pesquisa nos dumps, diferente do gráfico ao lado em que usei os dados que eu já tinha da primeira pesquisa, então pode demorar um pouco para eu fazer, assim que eu fizer eu aviso aqui. Danilo.mac(discussão) 01h58min de 18 de dezembro de 2014 (UTC)[responder]
@Danilo.mac: neste novo gráfico, ser "referenciado" significa ter <ref ou ter qualquer dos outros elementos que citou no começo? Helder 15h27min de 18 de dezembro de 2014 (UTC)[responder]
Qualquer um, nota de rodapé, ligação externa ou seção de referência, tinha esquecido de dizer. Danilo.mac(discussão) 15h50min de 18 de dezembro de 2014 (UTC)[responder]

@Danilo.mac: Uma parte é descrever o método da pesquisa, possíveis conclusões, sua importância (a notícia parece ser muito boa), suas limitações. Dá pra falar um pouco sobre nosso histórico, como antes destacávamos artigos sem fontes, como estamos hoje mais exigentes com relação ao uso delas e como isso pode explicar o aumento. Isso é o sinal de evolução de uma comunidade, um processo de busca pela qualidade de artigos, sem nenhum floreio, nem exagero.—Teles«fale comigo» 23h38min de 18 de dezembro de 2014 (UTC)[responder]