Wikipédia:Esplanada/geral/Bot quebrando artigos de cidades (14mai2023)

Bot quebrando artigos de cidades (14mai2023)

Gostaria de trazer à atenção dos colegas o bot Usuário(a):Atualizador-cidades-bot. Reparem que esta edição dele deixou um artigo destacado neste estado, com referências quebradas e informação inconsistente entre a infocaixa e o texto do artigo. Em suma, é um robô que atualiza somente a infocaixa de artigos de cidade, sem preocupação com o que consta no texto ou se as referências da infocaixa que ele remove em prol de novas são usadas ao longo do artigo. No caso citado, ele inclusive substituiu uma fonte válida por outra que continha exatamente a mesma informação, mas deixou referências quebradas ao longo do artigo no processo. E mais... reparem que no caso citado, o robô coloca a cidade em quinto lugar no rank do PIB do RS, ligando ao artigo Lista de municípios do Rio Grande do Sul por PIB, que mostra a cidade em sétimo lugar... A informação do robô está correta (adicionei fonte em edição subsequente), mas ele liga a um artigo com informação diferente. Um robô desleixado, digamos assim. Solicito comentário dos colegas interessados em como proceder, se consideram que há alguma ação a tomar... Saturnalia0 (discussão) 13h51min de 14 de maio de 2023 (UTC)[responder]

Esse robô operado pelo Bernardo Lansing está sendo discutido aqui desde 2022 e ainda se encontra em fase de testes. Infelizmente há o risco de deixar essas quebras nas referências, como o criador deixou bem claro, mas ao mesmo tempo é preciso uma atualização em massa desses verbetes, alguns dos quais constavam IDH de 2000 e PIB de 2008, por exemplo. As operações foram bem sucedidas nos testes apresentados no pedido de aprovação. Com esses artigos jogados às traças ao longo dos anos (sem me referir, obviamente, aos poucos destacados como o caso que citastes), não há um padrão a ser seguido e consequentemente não haverá como atender a todos os casos específicos, sendo necessário eventuais correções manuais. Foi assim quando propuseram o InternetArchiveBot, que atendia a uma escala ainda maior (toda a wiki). Mas não acho certo classificá-lo como "desleixado", até porque imagino que não há como um robô prever que a lista vizinha está desatualizada ou dados destoantes no meio dos textos. Essa lista de municípios por PIB, por exemplo, ainda tem dados de 2017 e a fonte nem cobre o conteúdo. Lembrando que qualquer ajuda no sentido de sanar essas falhas técnicas será bem-vinda. --HVL disc. 14h22min de 14 de maio de 2023 (UTC)[responder]
Olá @Saturnalia0. Obrigado pelo feedback. As referências que quebraram são aquelas que ligavam os campos que foram atualizados. Há uma grande chance de elas serem muito antigas, exceto nos municípios maiores. Se você olhar qualquer artigo de cidadezinha de interior, vai perceber que os dados mais recentes geralmente são o PIB de 2008. Se elas tiverem sido reusadas no corpo do artigo, então sim, irão quebrar. Mas isso não é tão frequente assim. Claro que vai acontecer mais em municípios maiores.
Como esse foi o primeiro acionamento em massa do bot, é natural que alguns problemas aconteçam. Esse erro das referências pode ser consertado, mas eu queria garantir que o bot estivesse operacional antes da publicação do censo.
Quanto à questão dos rankings, eu não entendi seu ponto. Você está dizendo que é melhor então que se continue tudo desatualizado em nome da "coerência"? Em todos os rankings está explicitado o ano da estatística. Além disso, um dos próximos upgrades do bot é justamente atualizar essas listas, visto que elas também são maçantes de manter.
Bem, o bot foi desenvolvido apenas por mim e eu não sou uma pessoa que costuma ter tempo livre. Se o meu trabalho lhe pareceu desleixado, eu sinto muito. Mas devo lembrar que o Atualizador-cidade-bot é código livre! Então você pode empenhar todo seu esforço nas questões que precisam ser resolvidas:
https://github.com/bernardolansing/atualizador-cidades-bot
Amanhã à noite quando eu estiver em casa eu vou poder dar mais atenção às pendências que surgiram. Bernardo Lansing (discussão) 14h34min de 14 de maio de 2023 (UTC)[responder]
  Sugestão Acho que já não é a primeira vez que faço esta sugestão em relação a dados de população, mas suponho que ela poderá ser válida para outros dados. A sugestão é criar predefinições/módulos para colocação automática desses dados nas ifocaixas e texto do artigo, o que dispensa alterações massivas aos artigos cada vez que há dados novos, garantindo que os dados estão sempre atualizados a partir de fiáveis e provavelmente tecnicamente é mais simples de implementar do que um bot de atualização.
Isso já foi feito com êxito para a população de comunas francesas e espanholas. Por exemplo, no caso da Espanha, os valores da população são colocados através de {{População municípios Espanha}} ou uma das similares (específicas para regiões), ignorando o que estiver na infocaixa. Para usar no corpo do artigo existem {{POB-ES}} e {{Densidade populacional Espanha}}. No caso da França, para o corpo do artigo há {{Pop comuna francesa2}} (que recorre a {{População comunas francesas}}, que ainda é mais completa, pois escreve uma frase em vez de dar apenas um valor.
Ainda na Espanha, no caso de Navarra existe também uma predefinição com as áreas, {{Área município de Navarra}}.
Se alguém quiser que eu tente explicar mais detalhadamente contacte-me. --Stego (discussão) 16h14min de 14 de maio de 2023 (UTC)[responder]
Seria o ideal, pois reduz a replicação da informação. Saturnalia0 (discussão) 20h18min de 14 de maio de 2023 (UTC)[responder]
Outro colega deu uma sugestão parecida na discussão do pedido de aprovação do bot. Eu não tinha conhecimento de que era possível se fazer isso na Wikipédia. Talvez eu devesse ter procurado alternativas melhores logo de cara. Sim, futuramente eu vou procurar adequar o projeto inteiro para um formato mais inteligente. Bernardo Lansing (discussão) 01h21min de 15 de maio de 2023 (UTC)[responder]
Uma outra alternativa é colocar os dados no Wikidata em vez de em predefinições, com isso os artigos em outras wikis poderão pegar os mesmos dados e não precisarão ter o mesmo trabalho. Da mesma forma que nós também podemos aproveitar os dados do Wikidata inseridos por usuários de outras wikis. Eu sei que muitos editores ainda têm muita resistência em usar dados do Wikidata por causa da dificuldade em monitorar as edições feitas lá e como elas impactam as informações nos artigos daqui, mas em questão de diminuir a necessidade de repetição do trabalho em várias wikis essa é a melhor solução. Danilo.mac(discussão) 02h02min de 15 de maio de 2023 (UTC)[responder]
Bernardo Lansing e HVL chamei o robô de desleixado de forma jocosa, pois um robô não tem personalidade, não me referi ao trabalho do colega, que é voluntário e, como qualquer empenho em automatizar a atualização dos dados, louvável. Suponho que o robô possa ser um net gain para o projeto, mesmo que deixe alguns artigos com erro, até por isso solicitei comentários. Quando à consistência versus atualização dos dados, eu acho preferível ter dados consistentes entre texto e infocaixa, mesmo que desatualizados, do que ter dados conflitantes entre os dois, um atual e o outro antigo, mas consigo ver um argumento contrário sendo feito. Se a preferência dos colegas é a contrária não vou me opor. Quanto às melhorias para o robô, uma sugestão seria verificar ser referências foram quebradas com a edição dele e, caso afirmativo, simplesmente manter as referências antigas no rodapé. Ou então, se não for possível verificar por erros em referências através da API, simplesmente mover todas referências que hoje são removidas ao rodapé. Na pior das hipóteses ficaria-se com ligações externas ao fim do artigo, melhor que referências quebradas. Outra alternativa seria rodar o bot que recupera referências quebradas a partir do histórico (acho que existe tal bot na anglófona, mas posso estar confundindo com outro). Sds Saturnalia0 (discussão) 20h18min de 14 de maio de 2023 (UTC)[responder]
Uma outra sugestão seria integrar à API da OpenAI para a IA atualizar o texto com os dados atualizados na infocaixa - testando antes e com aprovação da comunidade, é claro. Mas essa seria uma ideia um tanto mais audaciosa. Quem sabe um TCC para o colega Bernardo? Hehe. Sds Saturnalia0 (discussão) 20h21min de 14 de maio de 2023 (UTC)[responder]
kkkkk. Acho que não precisa de tanto poder de fogo para isso. No decorrer da semana eu vou consertar esse problema, uma vez que ele se revelou mais grave do que havíamos pensado durante os testes. Bernardo Lansing (discussão) 01h18min de 15 de maio de 2023 (UTC)[responder]