Usuário(a):HAndrade (WMF)/Pesquisa Vandalismo
Introdução
editarRecentemente, muito tem se debatido na Wikipédia sobre a ação de vândalos. Muitas opiniões estão sendo expostas e propostas estão sendo encaminhadas a partir da percepção pessoal de cada usuário, que pode variar de acordo com diversos fatores.
Essa pesquisa se propõe a expandir o trabalho iniciado pelo Alchimista analisando o vandalismo buscando padrões e identificando mudanças de comportamento a partir da retirada do modo emergencial do captcha realizada em 9 de Abril de 2013, fornecendo assim dados concretos que auxiliem o entendimento do cenário e fomentem a decisão de próximos passos.
Metodologia
editarSegundo a página Wikipédia:Vandalismo "Vandalismo é qualquer adição, remoção ou modificação de conteúdo feita de forma a comprometer deliberadamente a integridade da Wikipédia.". Dessa forma, para essa pesquisa quantitativa será considerada vandalismo toda edição que tiver sido revertida. Sabe-se que esse recorte é incompleto e deixará de fora das estatísticas os seguintes casos
- Vandalismos corrigidos manualmente
- Vandalismos feito após vandalismo no mesmo artigo antes do primeiro ser revertido
- Vandalismos que ainda estão presentes na Wikipédia
assim como poderá indevidamente contabilizar como vandalismo o seguinte caso:
- Edição de boa fé desfeita
Para evitar os caso acima citados seria necessário fazer uma análise qualitativa dos dados, enquanto esse pesquisa se propõe a fazer uma análise quantitativa. Acredita-se que o volume dos casos de vandalismo que estão dentro do recorte desta pesquisa seja suficiente como grupo amostral para responder as perguntas propostas nessa pesquisa. Uma abordagem mais detalhada para análise do vandalismo é indicada como possível trabalho futuro.
Identificando uma Reversão
editarPara identifcar uma reversão será observado o sumário de todas as revisões salvas no período analisado. Serão consideradas como reversões as edições com um dos padrões abaixo e vandalismo como vandalismo a revisão que tiver sido alterada pela reversão.
- 'Reversão%'
- '[[WP:REV|Revertidas]]%Huggle]])'
- 'Desfeita%'
Trabalhos Futuros
editarDurante o planejamento desse trabalho foram apontadas sugestões que extrapolavam o escopo desse projeto e estão aqui listadas como possíveis trabalhos futuros:
- Avaliar o que mudou na trajetória de um novo editor em marcos como dia 1, 2, 3, 4, 10 (se eles se tornaram autoconfirmados mais rapidamente do que antes, com CAPTCHA)
- Fazer uma outra pesquisa sobre "tempo de maturação" de um usuário, verificando quantos dias em médias um novo usuário leva para atingir X edições.
- Avaliar reversão de vandalismos antigos (que estavam visíveis por um tempo na Wikipédia) assim como vandalismos que foram corrigidos através de edição, e não de reversão.
Segunda Fase da Pesquisa
editarApós a realização da pesquisa conforme os critérios metodológicos aqui descritos foram feitas sugestões de melhoria para que mais edições relevantes fossem incluidas no espaço amostral pesquisado. Assim, foi realizada a Segunda Fase da pesquisa com novos critérios, que estão descritos junto com os resultados em uma subpágina por fins de organização.
Período Analisado
editarSerão Analisados os meses de Janeiro, Fevereiro, Março e Abril de 2012 e 2013.
Com esses dados o mês de Abril atual será comparado com o mesmo mês do ano anterior assim como com a tendência apontada pelos três meses imediatamente anteriores, levando em consideração variações que possam ser fruto do experimento "Reversores bloqueando vândalos".
Perguntas
editar- Qual o percentual de edições feitas por IPs, usuários não autoconfirmados e outros?
- Qual o índice de reversão de páginas criadas por IPs, usuários não autoconfirmados e outros?
- Qual o índice entre páginas revertidas / total de edições?
- Quem mais combate vandalismo?
- Admins e reversores estão sobrecarregados?
- Quais horários de pico de vandalismo?
- Quais horários de pico para combate ao vandalismo?
Dados
editar- Edições
- Edições feitas por IP
- Edições feitas por usuários não autoconfirmados
- Edições feitas por usuários autoconfirmados
- Edições revertidas
- Edições feitas por IP revertidas
- Edições feitas por usuários não autoconfirmados revertidas
- Edições feitas por usuários autoconfirmados revertidas
- Edições desfeitas
- Edições feitas por IP desfeitas
- Edições feitas por usuários não autoconfirmados desfeitas
- Tempo de vida de edição revertida
- Reversões feitas por admins
- Reversões feitas por admins usando Huggle
- Reversões feitas por reversores
- Reversões feitas por reversores usando Huggle
- Reversões feitas por bots
- Quantos admin fizeram reversões
- Quantos reversores fizeram reversões
- Quantos usuários desfizeram edições
Separar dados por mês, quinzena, dia e horário do dia (manhã, tarde, noite e madrugada, usando como referência o horário de Brasília).
Datas relevantes
editarData | Fato |
---|---|
Apr 12, 2012 | Concedida permissão para Reversores bloquearem vândalos |
Jun 12, 2012 | Retirada permissão para Reversores bloquearem vândalos |
Out 09, 2012 | Proposta de reversores bloqueando vândalos aprova em definitivo conforme Wikipédia:Votações/Reversores bloqueando vândalos/2 |
Apr 9, 2013 | Desativação do modo emergencial do captcha |
- | - |
Alterações de filtros e bots antivandalismo devem ser listadas aqui.
Dados Brutos
editarAno | 2012 | 2013 | ||||||
Mês | Janeiro | Fevereiro | Março | Abril | Janeiro | Fevereiro | Março | Abril |
---|---|---|---|---|---|---|---|---|
Total de Edições | 382959 | 523065 | 367444 | 353574 | 401375 | 349806 | 906335 | 364336 |
Edições feitas por Bots | 140573 | 291660 | 144658 | 123500 | 144306 | 132506 | 668457 | 107283 |
Edições feitas por Humanos | 242386 | 231405 | 222786 | 230074 | 257069 | 217300 | 237878 | 257053 |
Edições feitas por IP | 69773 | 65974 | 69847 | 68922 | 62423 | 56592 | 65826 | 83383 |
Edições feitas por Usuários Registrados | 172613 | 165431 | 152939 | 161152 | 194646 | 160708 | 172052 | 173670 |
Ano | 2012 | 2013 | ||||||
Mês | Janeiro | Fevereiro | Março | Abril | Janeiro | Fevereiro | Março | Abril |
---|---|---|---|---|---|---|---|---|
Total de Reversões | 11971 | 13453 | 13577 | 15330 | 10203 | 11626 | 13595 | 19283 |
Total de Reversões feitas por Humanos | 9241 | 9722 | 8985 | 11135 | 8469 | 9208 | 10720 | 15337 |
Edições Revertidas por Bots | 2730 | 3731 | 4592 | 4195 | 1734 | 2418 | 2875 | 3946 |
Edições Revertidas com Huggle | 2359 | 3560 | 3442 | 5359 | 2835 | 3295 | 4149 | 8671 |
Edições Revertidas (Outros) | 1904 | 1359 | 939 | 1316 | 2122 | 2092 | 2455 | 1951 |
Edições Desfeitas | 4978 | 4803 | 4604 | 4460 | 3512 | 3821 | 4116 | 4715 |
Tempo de vida médio de edição revertida (em horas) | 16.7886 | 14.6211 | 12.0412 | 11.0454 | 21.1081 | 15.7137 | 12.9768 | 8.7089 |
Tempo de vida médio de edição revertida por humanos (em horas) | 21.7489 | 20.2323 | 18.1951 | 15.2074 | 25.4299 | 19.8401 | 16.4571 | 10.9497 |
Tempo de vida médio de edição revertida por bots (em horas) | < 1 | < 1 | < 1 | < 1 | < 1 | < 1 | < 1 | < 1 |
Edições feitas por IPs revertidas | 8547 | 10160 | 10882 | 12172 | 7306 | 8771 | 10524 | 16287 |
Edições feitas por IPs revertidas por bots | 2386 | 3376 | 4293 | 3862 | 1544 | 2231 | 2634 | 3704 |
Edições feitas por IPs revertidas por humanos | 6161 | 6784 | 6589 | 8310 | 5762 | 6540 | 7890 | 12583 |
Ano | 2012 | 2013 | ||||||
Mês | Janeiro | Fevereiro | Março | Abril | Janeiro | Fevereiro | Março | Abril |
---|---|---|---|---|---|---|---|---|
Reversões feitas por Reversores | 3641 | 4385 | 3171 | 3143 | 3985 | 4027 | 5404 | 7993 |
Reversões feitas por Reversores usando Huggle | 1096 | 2359 | 1786 | 1337 | 2422 | 2786 | 3750 | 6392 |
Reversores Revertendo | 66 | 71 | 76 | 76 | 75 | 71 | 64 | 61 |
Reversores com mais de 5 reversões | 40 | 48 | 44 | 39 | 38 | 37 | 34 | 41 |
Reversores com mais de 100 reversões | 8 | 9 | 7 | 7 | 7 | 8 | 12 | 10 |
Reversoes feitas pelos reversores superativos | 2645 | 3331 | 2220 | 2235 | 2987 | 3192 | 5025 | 7093 |
Reversões feitas por Sysops | 1757 | 1516 | 1946 | 1530 | 1733 | 1979 | 1874 | 3510 |
Reversões feitas por Sysops usando Huggle | 1122 | 957 | 1373 | 1035 | 403 | 508 | 396 | 2256 |
Sysops Revertendo | 29 | 25 | 26 | 23 | 26 | 26 | 27 | 27 |
Sysops com mais de 5 reversões | 20 | 17 | 20 | 18 | 16 | 19 | 19 | 20 |
Sysops com mais de 100 reversões | 5 | 3 | 6 | 4 | 4 | 6 | 7 | 7 |
Reversoes feitas pelos sysops superativos | 1247 | 904 | 1427 | 981 | 1431 | 1745 | 1617 | 2892 |
Cronograma
editarData | Ação |
---|---|
Abril | Debate sobre métricas |
Primeira semana de Maio | Levantamento de Dados |
13 de Maio | Divulgação de Resultados |
Análise dos dados
editarAumento da quantidade de edições por IP em Abril de 2013
editar- Fiz a regressão linear dos dados de edições de IP em 2012 e curva de tendência é f(x)=132*x + 68299 e nos três primeiros meses de 2013 foi de f(x)=1701*x + 58210. Assumindo que a tendência de 2013, a quantidade de edições previstas para IPs em abril seria de 65014 o que significa que houve um aumento de 28,2% quando comparado com o valor real de 83383. Levando em consideração a tendência de 2012 (e substituindo pelo coeficiente linear de 2013 para corrigir o ponto zero da curva), as edições previstas para IPs seria de 58739 o que significa que o aumento foi de 42,0% em relação ao valor real de 83383. É possível usar a regressão linear dos dados de 2012 sem a correção do coeficiente linear e neste caso o valor de x na equação seria 16 (e não 4) porém o erro seria muito maior em vista de não haver os dados dos meses entre maio e dezembro de 2012. OTAVIO1981 (discussão) 17h18min de 17 de maio de 2013 (UTC)
Aumento da quantidade de edições por Registrados em Abril de 2013
editar- Seguindo a metodologia anterior, a linha de tendência em 2012 foi f(x)=-4698*x+174752 e a de 2013 (excluindo abril) foi de f(x)=-11297*x+198396. Levando em consideração a tendência de 2012 (corrigida), seria previsto 179648 edições de registrados em abril de 2013 o que significa que houve uma redução de 3,3% uma vez que o total de edições neste mês foi de 173670. Para a linha de tendência de 2013, a quantidade de edições previstas para registrados foi de 153208 o que significa que houve um aumento de 13,3%. Este aumento não deve ser interpretado como aumento na retenção pois foi impactado pelo aumento da quantidade de reversões. Subtraindo o total de reversões por humanos (15337) deste valor total de edições (173670) o aumento foi de somente 3,3%. OTAVIO1981 (discussão) 17h58min de 17 de maio de 2013 (UTC)
Aumento da quantidade de reversões em Abril de 2013
editar- Para esta avaliação, os dados serão ponderados pelo total de edições feitas por humanos de modo a atenuar os efeitos de crescimento do projeto. A linha de tendência dos três primeiros meses do ano foi f(x)=0,00873*x+0,03265 enquanto para o primeiro quadrimestre de 2012 foi f(x)=0,00545*x+0,04514. De acordo com a tendência de 2013, o percentual de reversões previsto para abril seria de 6,75% que no total de edições do período (257053) correspondem a 17369 reversões. Uma vez que em Abril houve 19283 edições, o aumento na quantidade de reversões foi de 11,0%. Utilizando a curva de tendência de 2012 (corrigindo o coeficiente linear), o percentual previsto para abril de 2013 seria de 5,45% que no total de edições do período correspondem a 13996 reversões. O aumento neste cenário foi de 37,8%.OTAVIO1981 (discussão) 15h26min de 19 de maio de 2013 (UTC)
Consolidado das análises por OTAVIO1981
editarParâmetro | Análise por 2012 | Análise por 2013 | ||
Edições preditas | Diferença % em relação ao real | Edições preditas | Diferença % em relação ao real | |
---|---|---|---|---|
Edições por IPs | 58739 | 42,0% | 65014 | 28,2% |
Edições por registrados | 179648 | -3,3% | 153208 | 13,3%* |
Total de reversões | 13996 | 37,8% | 17369 | 11,0% |
Por humanos | 10195 | 50,4% | 13431 | 14,2% |
Por robôs | 3806 | 3,7% | 3940 | 0,2% |
Por huggle | 6280 | 38,1% | 5388 | 60,9% |
Outros** | 1210 | 61,2% | 2948 | -33,8% |
Desfeitas | 2859 | 64,9% | 5096 | -7,5% |
* Deve se levar em consideração que este aumento pode ser reflexo do aumento do número de vandalismos. Um valor corrigido indica que o aumento foi de 3,3% ** O número deve ser analisado por cuidado em função da pequena quantidade de edições o que deixa o percentual sucetível a variações maiores no acompanhamento.