Imputação de Valores Omissos em Análise Descritiva de Dados, em R

Authors

DOI:

https://doi.org/10.18227/2447-7028rct.v96974

Abstract

Os valores omissos representam um problema frequente no processo de análise de dados. Neste artigo foram comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de da­dos relacionados com a área da educação. Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro conjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variá­veis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que a imputação pela Moda forneceu quase de forma constante menores valores de erro.

Downloads

Download data is not yet available.

Author Biographies

Luzizila Salambiaku, Universidade da Beira Interior, Instituto de Telecomunicações (IT-UBI) Covilhã, Portugal

Mestre em Informática pelo Departamento de Informática da Universidade da Beira Interior.

Paula Prata, Universidade da Beira Interior, Instituto de Telecomunicações (IT-UBI) Covilhã, Portugal

PhD em Informática; Investigadora do Instituto de Telecomunicações e Professora Auxiliar do Departamento de Informática da Universidade da Beira Interior

Maria Eugénia Ferrão, Universidade da Beira Interior, Centro de Matemática Aplicada e Economia (CEMAPRE), Portugal

Investigadora do Centro de Matemática
Aplicada à Previsão e Decisão Económica e Professora Auxiliar com Agregação do Departamento
de Matemática da Universidade da Beira Interior

Published

03/03/2023

Issue

Section

Information, Communication, and Energy Technologies