Imputação de Valores Omissos em Análise Descritiva de Dados, em R

Autores

DOI:

https://doi.org/10.18227/2447-7028rct.v96974

Resumo

Os valores omissos representam um problema frequente no processo de análise de dados. Neste artigo foram comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de da­dos relacionados com a área da educação. Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro conjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variá­veis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que a imputação pela Moda forneceu quase de forma constante menores valores de erro.

Downloads

Não há dados estatísticos.

Biografia do Autor

Luzizila Salambiaku, Universidade da Beira Interior, Instituto de Telecomunicações (IT-UBI) Covilhã, Portugal

Mestre em Informática pelo Departamento de Informática da Universidade da Beira Interior.

Paula Prata, Universidade da Beira Interior, Instituto de Telecomunicações (IT-UBI) Covilhã, Portugal

PhD em Informática; Investigadora do Instituto de Telecomunicações e Professora Auxiliar do Departamento de Informática da Universidade da Beira Interior

Maria Eugénia Ferrão, Universidade da Beira Interior, Centro de Matemática Aplicada e Economia (CEMAPRE), Portugal

Investigadora do Centro de Matemática
Aplicada à Previsão e Decisão Económica e Professora Auxiliar com Agregação do Departamento
de Matemática da Universidade da Beira Interior

Downloads

Publicado

03/03/2023

Edição

Seção

Tecnologias da Informação, Comunicação e Energia