Imputação de Valores Omissos em Análise Descritiva de Dados, em R
DOI:
https://doi.org/10.18227/2447-7028rct.v96974Resumo
Os valores omissos representam um problema frequente no processo de análise de dados. Neste artigo foram comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de dados relacionados com a área da educação. Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro conjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variáveis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que a imputação pela Moda forneceu quase de forma constante menores valores de erro.
Downloads
Downloads
Publicado
Edição
Seção
Licença
Copyright (c) 2023 RCT - Revista de Ciência e Tecnologia

Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.