Como tratar as não-respostas (missing values)

5 de fevereiro de 2025

Compartilhe:

Como tratar as não respostas (missing values)

Sobre não-respostas

Sim, você também pode fazer com que perguntas não respondidas falem! Mas do que estamos falando aqui?
Entre os indicadores de qualidade de resposta, a taxa de conclusão indica a 
proporção de respostas completas em todo o banco de dados . Quando está baixo, isso pode causar sérias dificuldades, principalmente no contexto de análises bivariadas ou, ainda mais, multivariadas, como regressões múltiplas ou análises de cluster.
Diante dessa falta de informação que 
afeta a confiabilidade e o enriquecimento dos dados, diversas estratégias podem ser adotadas . Neste artigo, explicamos os métodos para lidar com valores ausentes para obter os resultados mais consistentes possíveis.

I – Manter as não respostas



  • Se o volume de não respostas permanecer em um nível aceitável ou se, para certas perguntas específicas, essas não respostas refletirem uma opinião ou comportamento interessante de analisar, é possível  manter a base de respostas intacta  . De fato, esta opção permite que os  dados iniciais não sejam alterados e, assim, preserva a integridade das respostas coletadas .
    Neste caso, é essencial indicar claramente, nas tabelas resumo de resultados, o número de não respostas e/ou a taxa de resposta para cada questão. Isso nos permite 
    contextualizar as análises e evitar qualquer interpretação tendenciosa . Além disso, as porcentagens podem ser calculadas de duas maneiras distintas:
    Sobre as observações : levar em consideração todos os indivíduos questionados, incluindo aqueles que não responderam a determinadas perguntas.
  • Sobre citações : com base apenas em indivíduos que forneceram uma resposta.


Essa abordagem é particularmente útil para 
estudos exploratórios ou descritivos , nos quais se deseja apresentar uma imagem fiel dos dados coletados sem tentar preencher artificialmente as lacunas.

II – Substituir pela média ou pela moda


  • Uma das soluções mais simples para lidar com valores ausentes é substituí-los por indicadores estatísticos como:
    A média : para perguntas com respostas numéricas.
  • A moda  (categoria mais citada): para perguntas fechadas.


  De fato, esse método se baseia na hipótese de que 
os não respondentes têm comportamentos ou opiniões próximas aos da maioria  dos respondentes. É fácil de implementar e permite  manter todos os dados nas análises.
  Entretanto, essa abordagem tem 
limitações significativas  . De fato, ao substituir os valores ausentes pela média ou moda,  você reduzirá artificialmente a variabilidade interindividual  , o que tende a  enviesar os resultados ao homogeneizar a amostra . Além disso, não é adequado para situações em que as não respostas revelam uma característica específica ou singularidade dos indivíduos.
Essa abordagem é particularmente útil quando os valores ausentes dizem respeito a determinados itens da mesma escala de medição. Por exemplo, isso pode ser aplicado no contexto da avaliação de um construto psicológico, como o estresse ocupacional (demand control), medida pelo modelo KARASEK, frequentemente utilizado em estudos sobre riscos psicossociais (PSR) em empresas.

III – Substituir pelo valor do “vizinho mais próximo”


  Outra estratégia mais completa e lógica é  substituir um valor ausente pelo de um indivíduo com características semelhantes  . Isto é o que chamamos de método do “vizinho mais próximo”. Baseia-se na ideia de que um não respondente provavelmente compartilha comportamentos ou opiniões próximas às de um indivíduo com  perfil semelhante .
Assim, uma vez identificado esse “vizinho mais próximo”, é apropriado atribuir logicamente às respostas ausentes as desse “sósia”.


a) Exemplo de valor de “vizinho mais próximo”


Vamos imaginar uma pesquisa com turistas, na qual um indivíduo, o número 122, não respondeu a uma pergunta sobre seu tipo de acomodação (pergunta 1 na tabela abaixo). Para preencher essa lacuna, identificamos, entre os 536 indivíduos que responderam a pesquisa,  aquele cujas respostas às outras perguntas são mais próximas daquelas do indivíduo nº 122 .
Usando um cálculo de distância, o “vizinho mais próximo” do indivíduo #122 é o indivíduo #51.
De fato, observamos na tabela abaixo que as duas pessoas têm em comum seis respostas das 13 possíveis, além de respostas muito semelhantes para as demais questões. Portanto, atribuímos ao não respondente n.º 122 a resposta do seu vizinho mais próximo, n.º 51, para o modo de acomodação. Por dedução, aqui está ele no hotel! 

Proximidade

b) Cálculo de proximidade



  • A proximidade entre dois indivíduos é avaliada usando um  indicador de distância , que mede a diferença entre suas respostas. Quanto mais próxima a distância for de 0, mais semelhantes os indivíduos serão. Por outro lado, quanto maior, mais diferentes são os entrevistados.
    Para realizar esse cálculo, levamos em consideração todas as perguntas que os dois indivíduos responderam. No entanto, também é possível limitar essa análise a algumas perguntas específicas que provavelmente preverão melhor o valor ausente, como gênero, idade ou ocupação.
    Este método tem várias vantagens:
    preserva a 
    variabilidade interindividual
  • reflete melhor as relações entre as variáveis
  • reduz vieses  introduzidos por suposições excessivamente simplistas


Por outro lado, requer um banco de dados suficientemente rico para permitir comparações relevantes. 

IV – Substituição pela modalidade de resposta mais escolhida


  Para substituir valores ausentes em um questionário, um método final é  usar a resposta mais frequente dada por um indivíduo a outras perguntas na mesma dimensão  . Essa abordagem é particularmente útil quando você precisa calcular uma  pontuação , porque cada participante deve ter respondido a todas as perguntas para que a pontuação seja válida.
  Este método é baseado no princípio da  coerência intraindividual  . É semelhante à técnica do vizinho mais próximo, mas se aplica apenas a um  determinado indivíduo . A ideia é que, como perguntas na mesma dimensão medem o mesmo conceito, é possível inferir uma resposta provável para uma pergunta com base nas respostas já dadas para outras perguntas.
Por exemplo, se um participante responder “concordo totalmente” a duas perguntas sobre a cordialidade de um recepcionista – como “Ele ou ela é amigável?” e “Ele lhe proporcionou uma recepção calorosa?" – podemos supor que ele daria uma resposta semelhante a uma terceira pergunta da mesma natureza, como “Ele tem um bom relacionamento com você?".


Conclusão


Em última análise, manter as não respostas ou substituí-las depende dos objetivos do estudo e da natureza dos dados.

Texto traduzido e adaptado de:

https://www.lesphinx-developpement.fr/blog/comment-traiter-non-reponses-questionnaire/ 

Veja Também:

10 perigos em pesquisas: Artigo 3 - O Viés do Entrevistador
Por SPHINX Brasil 6 de junho de 2025
O viés do entrevistador ocorre quando características, comportamentos, percepções ou erros do entrevistador influenciam, consciente ou inconscientemente, as respostas fornecidas pelos participantes de maneira não aleatória, criando distorções sistemáticas nos resultados. O reconhecimento de que a neutralidade perfeita é impossível deve motivar esforços contínuos para compreender e controlar esses vieses, ao invés de ignorá-los na esperança de que se cancelem mutuamente.
10 perigos em pesquisas: O Perigo da Amostragem Não Representativa ou Enviesada
Por SPHINX Brasil 4 de junho de 2025
A amostragem constitui o pilar fundamental da inferência estatística em pesquisas sociais, determinando a capacidade de generalização dos resultados para populações mais amplas. Amostras não representativas ou enviesadas comprometem a validade externa dos estudos, produzindo conclusões que podem ser sistematicamente incorretas ou aplicáveis apenas a subgrupos específicos da população-alvo. Este problema metodológico representa uma das principais fontes de erro em surveys, com implicações que se estendem desde a formulação de políticas públicas até a construção do conhecimento científico.
10 perigos em pesquisas: Artigo 1 - O Perigo da Má Formulação das Perguntas
Por SPHINX Brasil 2 de junho de 2025
Perguntas mal elaboradas podem comprometer irreversivelmente toda a pesquisa, introduzindo vieses sistemáticos e produzindo informações imprecisas ou distorcidas. Este fenômeno representa um dos principais desafios enfrentados por pesquisadores em ciências sociais, exigindo rigor teórico e técnico na construção dos instrumentos de coleta.