Apodrecimento de links
O apodrecimento de links (também chamado de quebra de links ou apodrecimento de referência) é o fenômeno de que hiperlinks tendem, com o tempo, a deixar de apontar para o arquivo, página da web ou servidor original. Um link que não aponta mais para seu destino, geralmente chamado de link quebrado ou inativo, é um caso especial de apontador pendente.
A taxa de podridão de links é um assunto de estudo e pesquisa devido à sua importância para a capacidade da Internet de preservar informações.
Prevalência
editarVários estudos examinaram a prevalência da podridão de links na World Wide Web, na literatura acadêmica que usa URLs para citar conteúdo da web e em bibliotecas digitais.[1][2]
Um estudo de 2003 descobriu que, na Web, cerca de um em cada 200 links quebrava por semana,[3] sugerindo uma meia-vida de 138 semanas. Essa taxa foi confirmada, de forma geral, por um estudo de links de 2016–2017 no Yahoo! Directory que estimoua meia-vida dos links do diretório era de dois anos.[4]
Um estudo de 2004 mostrou que subconjuntos de links da Web (como aqueles direcionados a tipos de arquivo específicos ou aqueles hospedados por instituições acadêmicas) podem ter meias-vidas dramaticamente diferentes.[5] Os URLs selecionados para publicação parecem ter maior longevidade do que o URL médio. Um estudo de 2015 da Weblock analisou mais de 180.000 links de referências nos corpora de texto completo de três grandes editoras de acesso aberto e encontrou uma meia-vida de cerca de 14 anos,[6] geralmente confirmando um estudo de 2005 que descobriu que metade dos URLs citados na D-Lib Magazine, os links estavam ativos 10 anos após a publicação.[7] Outros estudos encontraram taxas mais altas de podridão de links na literatura acadêmica, mas normalmente sugerem uma meia-vida de quatro anos ou mais.[8][9] Um estudo de 2013 publicado na BMC Bioinformatics analisou cerca de 15.000 links em resumos do índice de citações da Web of Science da Thomson Reuters e descobriu que a vida útil média das páginas da web era de 9,3 anos, e apenas 62% estavam arquivados.[10]
Um estudo de 2002 sugeriu que o apodrecimento de links em bibliotecas digitais é consideravelmente mais lento do que na web, descobrindo que cerca de 3% dos objetos não estavam mais acessíveis após um ano[11] (equivalente a uma meia-vida de quase 23 anos).
Causas
editarA podridão do link pode resultar de várias ocorrências. Uma página da web de destino pode ser removida. O servidor que hospeda a página de destino pode falhar, ser removido do serviço ou realocado para um novo nome de domínio. O registro de um nome de domínio pode caducar ou ser transferido para outra parte. Algumas causas farão com que o link não encontre nenhum alvo e retorne um erro como HTTP 404. Outras causas farão com que um link direcione um conteúdo diferente do pretendido pelo autor do link.
Outros motivos para links quebrados incluem:
- a reestruturação de sites que causa mudanças nos URLs (por exemplo,
domain.net/pine_tree
pode ser movido paradomain.net/tree/pine
) - realocação de conteúdo anteriormente gratuito para atrás de um paywall
- uma mudança na arquitetura do servidor que resulta em um código como o PHP funcionando de maneira diferente
- conteúdo dinâmico da página, como resultados de pesquisa que mudam de design
- a presença de informações específicas do usuário (como um nome de login) no link
- bloqueio deliberado por filtros de conteúdo ou firewalls
- a remoção de gTLDs[12]
Prevenção e detecção
editarAs estratégias para prevenir o apodrecimento de links podem se concentrar em colocar conteúdo onde sua probabilidade de persistência for maior, criar links com menor probabilidade de serem quebrados, tomar medidas para preservar links existentes ou reparar links cujos alvos foram realocados ou removidos.
A criação de URLs que não mudam com o tempo é o método fundamental para prevenir o apodrecimento do link. O planejamento preventivo foi defendido por Tim Berners-Lee e outros pioneiros da web.[13]
As estratégias relativas à autoria de links incluem:
- evitando links que apontam para recursos nas páginas pessoais dos pesquisadores[7]
- usando URLs limpos[14] ou de outra forma empregando normalização de URL ou canonização de URL
- usando permalinks e identificadores persistentes como ARKs, DOIs e PURLs
- evitando links para documentos que não sejam páginas da web
- evitando links profundos
- links para arquivos da web [a], como o Internet Archive,[16] WebCite,[17] Archive.is, Perma.cc,[18] ou Amber[19]
As estratégias relativas à proteção de links existentes incluem:
- usando mecanismos de redirecionamento, como HTTP 301, para referir automaticamente os navegadores e rastreadores ao conteúdo realocado
- usando sistemas de gerenciamento de conteúdo que podem atualizar automaticamente os links quando o conteúdo do mesmo site é realocado ou substituir automaticamente os links por URLs canônicos[20]
- integração de recursos de pesquisa em páginas HTTP 404[21]
A detecção de links quebrados pode ser feita manualmente ou automaticamente. Os métodos automatizados incluem plug-ins para sistemas de gerenciamento de conteúdo, bem como verificadores de link quebrado autônomo, como o Link Sleuth do Xenu . A verificação automática pode não detectar links que retornam um soft 404 ou links que retornam uma resposta 200 OK, mas apontam para o conteúdo que foi alterado.[22]
Ver também
editar- ↑ Habibzadeh. «Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals». Applied Clinical Informatics. 4: 455–464. PMC 3885908 . PMID 24454575. doi:10.4338/aci-2013-07-ra-0055
- ↑ «Hiberlink». Hiberlink.org. Consultado em 15 de janeiro de 2015. Cópia arquivada em 29 de janeiro de 2015
- ↑ 2003 http://www2003.org/cdrom/papers/refereed/p097/P97%20sources/p97-fetterly.html Em falta ou vazio
|título=
(ajuda) - ↑ van der Graaf, Hans. «The half-life of a link is two year». ZOMDir's blog. Consultado em 31 de janeiro de 2019. Cópia arquivada em 17 de outubro de 2017
- ↑ Koehler (2004). «A longitudinal study of web pages continued: a consideration of document persistence». Information Research. 9
- ↑ «All-Time Weblock Report». Agosto de 2015. Consultado em 12 de janeiro de 2016. Cópia arquivada em 4 de março de 2016
- ↑ a b (PDF). 2005 http://www.iwaw.net/05/papers/iwaw05-mccown1.pdf. Cópia arquivada (PDF) em 17 de julho de 2012 Em falta ou vazio
|título=
(ajuda) - ↑ Spinellis (2003). «The Decay and Failures of Web References». Communications of the ACM. 46: 71–77. CiteSeerX 10.1.1.12.9599 . doi:10.1145/602421.602422
- ↑ «Persistence of Web References in Scientific Research». Computer. 34: 26–31. 2001. CiteSeerX 10.1.1.97.9695 . doi:10.1109/2.901164
- ↑ «A Cross Disciplinary Study of Link Decay and the Effectiveness of Mitigation Techniques». BMC Bioinformatics. 14: S5. PMC 3851533 . PMID 24266891. doi:10.1186/1471-2105-14-S14-S5
- ↑ «Object Persistence and Availability in Digital Libraries». D-Lib Magazine. 8. 2002. doi:10.1045/january2002-nelson
- ↑ «The death of a TLD». blog.benjojo.co.uk. Consultado em 27 de julho de 2018. Cópia arquivada em 26 de julho de 2018
- ↑ Berners-Lee, Tim (1998). «Cool URIs Don't Change». Consultado em 31 de janeiro de 2019. Cópia arquivada em 2 de março de 2000
- ↑ Kille, Leighton Walter (8 de novembro de 2014). «The Growing Problem of Internet "Link Rot" and Best Practices for Media and Online Publishers». Journalist's Resource, Harvard Kennedy School. Consultado em 16 de janeiro de 2015. Cópia arquivada em 12 de janeiro de 2015
- ↑ Habibzadeh, Parham (30 de julho de 2015). «Are current archiving systems reliable enough?». International Urogynecology Journal. 26 (10). 1553 páginas. ISSN 0937-3462. PMID 26224384. doi:10.1007/s00192-015-2805-7
- ↑ «Internet Archive: Digital Library of Free Books, Movies, Music & Wayback Machine». 10 de março de 2001. Consultado em 7 de outubro de 2013. Cópia arquivada em 26 de janeiro de 1997
- ↑ «Going, going, still there: Using the WebCite service to permanently archive cited web pages». Journal of Medical Internet Research. 7: e60. 2005. PMC 1550686 . PMID 16403724. doi:10.2196/jmir.7.5.e60
- ↑ «Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations» (PDF). Legal Information Management. 14: 88–99. doi:10.1017/S1472669614000255
- ↑ «Harvard University's Berkman Center Releases Amber, a "Mutual Aid" Tool for Bloggers & Website Owners to Help Keep the Web Available | Berkman Center». cyber.law.harvard.edu. Consultado em 28 de janeiro de 2016. Cópia arquivada em 2 de fevereiro de 2016
- ↑ Rønn-Jensen, Jesper (5 de outubro de 2007). «Software Eliminates User Errors And Linkrot». Justaddwater.dk. Consultado em 5 de outubro de 2007. Cópia arquivada em 11 de outubro de 2007
- ↑ Mueller, John (14 de dezembro de 2007). «FYI on Google Toolbar's Latest Features». Google Webmaster Central Blog. Consultado em 9 julho de 2008. Cópia arquivada em 13 de setembro de 2008
- ↑ 2004. pp. 328–337. ISBN 978-1581138443 Em falta ou vazio
|título=
(ajuda)
Leitura adicional
editar- «Broken Links: The Ephemeral Nature of Educational WWW Hyperlinks». Journal of Science Education and Technology. 11: 105–108. 2002. doi:10.1023/A:1014627511641
- (PDF). 2006 http://xldb.di.fc.ul.pt/daniel/docs/papers/gomes06urlPersistence.pdf. Cópia arquivada (PDF) em 16 de julho de 2011 Em falta ou vazio
|título=
(ajuda) - «Going, Going, Gone: Lost Internet References». Science. 302: 787–788. 2003. PMID 14593153. doi:10.1126/science.1088234
- Koehler (1999). «An Analysis of Web Page and Web Site Constancy and Permanence». Journal of the American Society for Information Science. 50: 162–180. doi:10.1002/(SICI)1097-4571(1999)50:2<162::AID-ASI7>3.0.CO;2-B
- Sellitto (2005). «The impact of impermanent Web-located citations: A study of 123 scholarly conference publications» (PDF). Journal of the American Society for Information Science and Technology. 56: 695–703. CiteSeerX 10.1.1.473.2732 . doi:10.1002/asi.20159
Notas
Referências
Ligações externas
editar- Preparando seus URIs para o futuro
- Jakob Nielsen, "Fighting Linkrot", Jakob Nielsen's Alertbox, 14 de junho de 1998.