Banco de dados MNIST

O banco de dados MNIST (Instituto Nacional de Padrões e Tecnologia Modificado[1]) é um grande banco de dados de dígitos manuscritos, comumente usado para treinar vários sistemas de processamento de imagens.[2][3] O banco de dados também é amplamente utilizado para treinamento e teste no campo do aprendizado de máquina.[4][5] Ele foi criado por meio da "remixagem" das amostras dos conjuntos de dados originais do NIST.[6] Os criadores acharam que, como o conjunto de dados de treinamento do NIST foi retirado de funcionários do Departamento Estadunidense de Senso, enquanto o conjunto de dados de teste foi retirado de estudantes estadunidenses do ensino médio, ele não era adequado para experimentos de aprendizado de máquina.[7] Além disso, as imagens em preto e branco do NIST foram normalizadas para caber em uma caixa delimitadora de 28x28 píxeis e antisserrilhadas, o que introduziu níveis de escala de cinza.[7]

MNIST sample images
Imagens de amostra do banco de dados de teste MNIST

O banco de dados MNIST contém 60.000 imagens de treinamento e 10.000 imagens de teste.[8] Metade do conjunto de treinamento e metade do conjunto de teste foram retirados do conjunto de dados de treinamento do NIST, enquanto a outra metade do conjunto de treinamento e a outra metade do conjunto de teste foram retirados do conjunto de dados de teste do NIST.[9] Os criadores originais do banco de dados mantêm uma lista de alguns dos métodos testados nele.[7] Em seu artigo original, eles usam uma máquina de vetor de suporte para obter uma taxa de erro de 0,8%.[10]

O MNIST estendido (EMNIST) é um conjunto de dados mais recente desenvolvido e lançado pelo NIST para ser o sucessor (final) do MNIST.[11][12] O MNIST incluía imagens apenas de dígitos manuscritos. O EMNIST inclui todas as imagens do NIST Special Database 19, que é um grande banco de dados de letras maiúsculas e minúsculas manuscritas, bem como dígitos.[13][14] As imagens no EMNIST foram convertidas no mesmo formato de 28x28 píxeis, pelo mesmo processo, que as imagens do MNIST. Dessa forma, as ferramentas que funcionam com o conjunto de dados MNIST mais antigo e menor funcionarão provavelmente sem modificações com o EMNIST.

História

editar

O conjunto de imagens no banco de dados MNIST foi criado em 1994[15] como uma combinação de dois bancos de dados do NIST: Banco de dados especial 1 e banco de dados especial 3, que consistem em dígitos escritos por estudantes do ensino médio e funcionários do Departamento do Censo dos Estados Unidos, respectivamente.[7]

O conjunto de dados original era um conjunto de imagens binárias de 128x128, processadas em imagens em escala de cinza de 28x28. Originalmente, havia 60 mil amostras no conjunto de treinamento e no conjunto de teste, mas 50 mil do conjunto de teste foram descartadas. Consulte Cold Case: The Lost MNIST Digits[16] para um histórico detalhado e uma reconstrução do conjunto de teste descartado.

Desempenho

editar

Alguns pesquisadores alcançaram um "desempenho quase humano" no banco de dados MNIST, usando um comitê de redes neurais. No mesmo artigo, os autores alcançaram o dobro do desempenho de humanos em outras tarefas de reconhecimento.[17] A taxa de erro mais alta listada[7] no site original do banco de dados é de 12%, obtida usando um classificador linear simples sem pré-processamento.[10]

Em 2004, pesquisadores obtiveram uma taxa de erro de 0,42% no banco de dados usando um novo classificador chamado LIRA, um classificador neural com três camadas de neurônios, baseado nos princípios do perceptron de Rosenblatt.[18]

Alguns pesquisadores testaram sistemas de inteligência artificial usando o banco de dados submetido a distorções aleatórias. Nesses casos, os sistemas geralmente são redes neurais e as distorções usadas tendem a ser distorções afins ou distorções elásticas.[7] Às vezes, esses sistemas podem ser muito bem-sucedidos. Um desses sistemas atingiu uma taxa de erro no banco de dados de 0,39%.[19]

Em 2011, uma taxa de erro de 0,27%, superando o melhor resultado anterior, foi relatada por pesquisadores que usaram um sistema semelhante de redes neurais.[20] Em 2013, uma abordagem baseada na regularização de redes neurais usando DropConnect atingiu uma taxa de erro de 0,21%.[21] Em 2016, o melhor desempenho de uma única rede neural convolucional foi de 0,25% de taxa de erro.[22] Em agosto de 2018, o melhor desempenho de uma única rede neural convolucional treinada nos dados de treinamento do MNIST sem aumento de dados era de 0,25% de taxa de erro.[22][23] Além disso, o Parallel Computing Center (Khmelnytskyi, Ucrânia) obteve um conjunto de apenas 5 redes neurais convolucionais com desempenho no MNIST de 0,21% de taxa de erro.[24][25] Algumas imagens no conjunto de dados de teste são pouco legíveis e podem impedir que se atinjam taxas de erro de teste de 0%.[26] Em 2018, pesquisadores do Departamento de Engenharia de Sistemas e Informação da Universidade da Virgínia anunciaram um erro de 0,18% com três tipos de redes neurais empilhadas simultaneamente (redes neurais totalmente conectadas, recorrentes e de convolução).[27]

Classificadores

editar

Esta é uma tabela de alguns dos métodos de aprendizado de máquina usados no conjunto de dados e suas taxas de erro, por tipo de classificador:

Tipo Classificador Distorção Pré-processamento Taxa de erro (%)
Classificador linear Classificador linear par a par Nenhuma Deskewing 7,6[10]
K-Vizinhos Mais Próximos K-NN com transformações rígidas Nenhuma Nenhum 0,96[28]
K-Vizinhos Mais Próximos K-NN com deformação não linear (P2DHMDM) Nenhuma Bordas deslocáveis 0,52[29]
Boosted Stumps Produto de stumps em características Haar Nenhuma Características Haar 0,87[30]
Classificador não linear 40 PCA + classificador quadrático Nenhuma Nenhum 3,3[10]
Random Forest Fast Unified Random Forests for Survival, Regression, and Classification (RF-SRC)[31] Nenhuma Importância estatística simples do pixel 2,8[32]
Máquina de vetores de suporte (SVM) SVM virtual, deg-9 poly, 2 pixels com jitters Nenhuma Deskewing 0,56[33]
Rede Neural 2 camadas 784-800-10 Nenhuma Nenhum 1,6[34]
Rede Neural 2 camadas 784-800-10 Deformações elásticas Nenhum 0,7[34]
Rede Neural profunda (DNN) 6 camadas 784-2500-2000-1500-1000-500-10 Deformações elásticas Nenhum 0,35[35]
Rede neural convolucional (CNN) 6 camadas 784-40-80-500-1000-2000-10 Nenhuma Expansão dos dados de treinamento 0,31[36]
Rede neural convolucional (CNN) 6 camadas 784-50-100-500-1000-10-10 Nenhuma Expansão dos dados de treinamento 0,27[37]
Rede neural convolucional (CNN) 13 camadas 64-128(5x)-256(3x)-512-2048-256-256-10 Nenhuma Nenhum 0,25[22]
Rede neural convolucional (CNN) Comitê de 35 CNNs, 1-20-P-40-P-150-10 Deformações elásticas Normalizações de largura 0,23[17]
Rede neural convolucional (CNN) Comitê de 5 CNNs, 6-layer 784-50-100-500-1000-10-10 Nenhuma Expansão dos dados de treinamento 0,21[24][25]
Aprendizagem profunda multimodal aleatória (RMDL) 10 NN-10 RNN - 10 CNN Nenhuma Nenhum 0,18[27]
Rede neural convolucional (CNN) Comitê de 20 CNNS com Squeeze-and-Excitation Networks[38] Nenhuma Aumento de dados 0,17[39]
Rede neural convolucional (CNN) Conjunto de 3 CNNs com tamanhos de kernel variados Nenhuma Aumento de dados que consiste em rotação e translação 0,09[40]

Ver também

editar

Referências

editar
  1. «THE MNIST DATABASE of handwritten digits» (em inglês). Yann LeCun, Courant Institute, NYU Corinna Cortes, Google Labs, New York Christopher J.C. Burges, Microsoft Research, Redmond. Arquivado do original em 13 de fevereiro de 2024 
  2. «Support vector machines speed pattern recognition - Vision Systems Design». Vision Systems Design (em inglês). Setembro de 2004. Consultado em 17 de agosto de 2013 
  3. Gangaputra, Sachin. «Handwritten digit database» (em inglês). Consultado em 17 de agosto de 2013 
  4. Qiao, Yu (2007). «THE MNIST DATABASE of handwritten digits» (em inglês). Consultado em 18 de agosto de 2013. Arquivado do original em 11 de março de 2013 
  5. Platt, John C. (1999). «Using analytic QP and sparseness to speed training of support vector machines» (PDF). Advances in Neural Information Processing Systems (em inglês): 557–563. Consultado em 18 de agosto de 2013. Cópia arquivada (PDF) em 4 de março de 2016 
  6. Grother, Patrick J. «NIST Special Database 19 - Handprinted Forms and Characters Database» (PDF). National Institute of Standards and Technology (em inglês) 
  7. a b c d e f LeCun, Yann; Cortez, Corinna; Burges, Christopher C.J. «The MNIST Handwritten Digit Database» . Yann LeCun's Website yann.lecun.com (em inglês). Consultado em 30 de abril de 2020 
  8. Kussul, Ernst; Baidyk, Tatiana (2004). «Improved method of handwritten digit recognition tested on MNIST database». Image and Vision Computing (em inglês). 22 (12): 971–981. doi:10.1016/j.imavis.2004.03.008 
  9. Zhang, Bin; Srihari, Sargur N. (2004). «Fast k-Nearest Neighbor Classification Using Cluster-Based Trees» (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence (em inglês). 26 (4): 525–528. PMID 15382657. doi:10.1109/TPAMI.2004.1265868. Consultado em 20 de abril de 2020. Arquivado do original (PDF) em 26 de abril de 2019 
  10. a b c d LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). «Gradient-Based Learning Applied to Document Recognition» (PDF). Proceedings of the IEEE (em inglês). 86 (11): 2278–2324. doi:10.1109/5.726791. Consultado em 18 de agosto de 2013. Arquivado do original (PDF) em 7 de outubro de 2021 
  11. NIST (4 de abril de 2017). «The EMNIST Dataset». NIST (em inglês). Consultado em 11 de abril de 2022 
  12. NIST (27 de agosto de 2010). «NIST Special Database 19». NIST (em inglês). Consultado em 11 de abril de 2022 
  13. Cohen, G.; Afshar, S.; Tapson, J.; van Schaik, A. (2017). «EMNIST: an extension of MNIST to handwritten letters.» (em inglês). arXiv:1702.05373  [cs.CV] 
  14. Cohen, G.; Afshar, S.; Tapson, J.; van Schaik, A. (2017). «EMNIST: an extension of MNIST to handwritten letters.» (em inglês). arXiv:1702.05373v1  [cs.CV] 
  15. Bottou, L.; Cortes, C.; Denker, J.S.; Drucker, H.; Guyon, I.; Jackel, L.D.; LeCun, Y.; Muller, U.A.; Sackinger, E. (1994). «Comparison of classifier methods: a case study in handwritten digit recognition». IEEE Comput. Soc. Press (em inglês): 77–82. ISBN 978-0-8186-6270-6. doi:10.1109/ICPR.1994.576879 
  16. Yadav, Chhavi; Bottou, Leon (2019). «Cold Case: The Lost MNIST Digits». Curran Associates, Inc. Advances in Neural Information Processing Systems. 32. arXiv:1905.10498  
  17. a b Cires¸an, Dan; Ueli Meier; Jürgen Schmidhuber (2012). «Multi-column deep neural networks for image classification» (PDF). 2012 IEEE Conference on Computer Vision and Pattern Recognition (em inglês). [S.l.: s.n.] pp. 3642–3649. CiteSeerX 10.1.1.300.3283 . ISBN 978-1-4673-1228-8. arXiv:1202.2745 . doi:10.1109/CVPR.2012.6248110 
  18. Kussul, Ernst; Tatiana Baidyk (2004). «Improved method of handwritten digit recognition tested on MNIST database» (PDF). Image and Vision Computing (em inglês). 22 (12): 971–981. doi:10.1016/j.imavis.2004.03.008. Consultado em 20 de setembro de 2013. Arquivado do original (PDF) em 21 de setembro de 2013 
  19. Ranzato, Marc'Aurelio; Christopher Poultney; Sumit Chopra; Yann LeCun (2006). «Efficient Learning of Sparse Representations with an Energy-Based Model» (PDF). Advances in Neural Information Processing Systems (em inglês). 19: 1137–1144. Consultado em 20 de setembro de 2013 
  20. Ciresan, Dan Claudiu; Ueli Meier; Luca Maria Gambardella; Jürgen Schmidhuber (2011). «Convolutional neural network committees for handwritten character classification» (PDF). 2011 International Conference on Document Analysis and Recognition (ICDAR) (em inglês). [S.l.: s.n.] pp. 1135–1139. CiteSeerX 10.1.1.465.2138 . ISBN 978-1-4577-1350-7. doi:10.1109/ICDAR.2011.229. Consultado em 20 de setembro de 2013. Cópia arquivada (PDF) em 22 de fevereiro de 2016 
  21. Wan, Li; Matthew Zeiler; Sixin Zhang; Yann LeCun; Rob Fergus (2013). Regularization of Neural Network using DropConnect. International Conference on Machine Learning(ICML) (em inglês) 
  22. a b c SimpleNet (2016). «Lets Keep it simple, Using simple architectures to outperform deeper and more complex architectures» (em inglês). arXiv:1608.06037 . Consultado em 3 de dezembro de 2020 
  23. SimpNet (2018). «Towards Principled Design of Deep Convolutional Networks: Introducing SimpNet». Github (em inglês). arXiv:1802.06205 . Consultado em 3 de dezembro de 2020 
  24. a b Romanuke, Vadim. «Parallel Computing Center (Khmelnytskyi, Ukraine) represents an ensemble of 5 convolutional neural networks which performs on MNIST at 0.21 percent error rate.» (em inglês). Consultado em 24 de novembro de 2016 
  25. a b Romanuke, Vadim (2016). «Training data expansion and boosting of convolutional neural networks for reducing the MNIST dataset error rate». Research Bulletin of NTUU "Kyiv Polytechnic Institute" (em inglês). 6 (6): 29–34. doi:10.20535/1810-0546.2016.6.84115  
  26. MNIST classifier, GitHub. «Classify MNIST digits using Convolutional Neural Networks». GitHub (em inglês). Consultado em 3 de agosto de 2018 
  27. a b Kowsari, Kamran; Heidarysafa, Mojtaba; Brown, Donald E.; Meimandi, Kiana Jafari; Barnes, Laura E. (3 de maio de 2018). «RMDL: Random Multimodel Deep Learning for Classification». Proceedings of the 2nd International Conference on Information System and Data Mining (em inglês). [S.l.: s.n.] pp. 19–28. ISBN 9781450363549. arXiv:1805.01890 . doi:10.1145/3206098.3206111 
  28. Lindblad, Joakim; Nataša Sladoje (janeiro de 2014). «Linear time distances between fuzzy sets with applications to pattern matching and classification». IEEE Transactions on Image Processing (em inglês). 23 (1): 126–136. Bibcode:2014ITIP...23..126L. PMID 24158476. doi:10.1109/TIP.2013.2286904 
  29. Keysers, Daniel; Thomas Deselaers; Christian Gollan; Hermann Ney (agosto de 2007). «Deformation models for image recognition». IEEE Transactions on Pattern Analysis and Machine Intelligence (em inglês). 29 (8): 1422–1435. CiteSeerX 10.1.1.106.3963 . PMID 17568145. doi:10.1109/TPAMI.2007.1153 
  30. Kégl, Balázs; Róbert Busa-Fekete (2009). «Boosting products of base classifiers». Proceedings of the 26th Annual International Conference on Machine Learning (em inglês). [S.l.: s.n.] pp. 497–504. ISBN 9781605585161. doi:10.1145/1553374.1553439. Consultado em 27 de agosto de 2013 
  31. «RandomForestSRC: Fast Unified Random Forests for Survival, Regression, and Classification (RF-SRC)» (em inglês). 21 de janeiro de 2020 
  32. «Mehrad Mahmoudian / MNIST with RandomForest» 
  33. Decoste, Dennis; Schölkopf, Bernhard (2002). «Training Invariant Support Vector Machines». Machine Learning (em inglês). 46 (1–3): 161–190. ISSN 0885-6125. OCLC 703649027. doi:10.1023/A:1012454411458  
  34. a b Patrice Y. Simard; Dave Steinkraus; John C. Platt (2003). «Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis». Proceedings of the Seventh International Conference on Document Analysis and Recognition (em inglês). 1. [S.l.]: Institute of Electrical and Electronics Engineers. 958 páginas. ISBN 978-0-7695-1960-9. doi:10.1109/ICDAR.2003.1227801 
  35. Ciresan, Claudiu Dan; Ueli Meier; Luca Maria Gambardella; Juergen Schmidhuber (dezembro de 2010). «Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition». Neural Computation (em inglês). 22 (12): 3207–20. PMID 20858131. arXiv:1003.0358 . doi:10.1162/NECO_a_00052 
  36. Romanuke, Vadim. «The single convolutional neural network best performance in 18 epochs on the expanded training data at Parallel Computing Center, Khmelnytskyi, Ukraine» (em inglês). Consultado em 16 de novembro de 2016 
  37. Romanuke, Vadim. «Parallel Computing Center (Khmelnytskyi, Ukraine) gives a single convolutional neural network performing on MNIST at 0.27 percent error rate» (em inglês). Consultado em 24 de novembro de 2016 
  38. Hu, Jie; Shen, Li; Albanie, Samuel; Sun, Gang; Wu, Enhua (2019). «Squeeze-and-Excitation Networks». IEEE Transactions on Pattern Analysis and Machine Intelligence (em inglês). 42 (8): 2011–2023. PMID 31034408. arXiv:1709.01507 . doi:10.1109/TPAMI.2019.2913372 
  39. «GitHub - Matuzas77/MNIST-0.17: MNIST classifier with average 0.17% error». GitHub (em inglês). 25 de fevereiro de 2020 
  40. An, Sanghyeon; Lee, Minjun; Park, Sanglee; Yang, Heerin; So, Jungmin (4 de outubro de 2020). «An Ensemble of Simple Convolutional Neural Network Models for MNIST Digit Recognition». arXiv:2008.10400  [cs.CV] 

Leitura adicional

editar

Ligações externas

editar