Análise de dados: avaliando a qualidade do bolo

Depois de definir o tipo de bolo (desenho do estudo), selecionar os ingredientes principais (população) e os outros ingredientes (variáveis), e detalhar a receita (procedimentos), agora é a hora de definir como você vai avaliar a qualidade do seu bolo, ou seja, o seu plano de análise. Você irá descrever o aspecto geral do bolo (análise descritiva) e depois analisar as informações mais a fundo, comparando texturas e sabores (análise comparativa). Talvez seja necessário analisar o efeito da combinação dos diferentes componentes da receita para identificar qual mais influenciou no resultado final (análise multivariada). Assim como a qualidade de um bolo depende não apenas dos ingredientes, mas também de como eles são combinados, a validade das conclusões de um estudo depende de análise de dados bem planejada e executada.

A importância do plano de análise

A análise de dados é o processo que transforma os dados brutos em informações significativas, permitindo que você responda a sua pergunta de pesquisa. Um plano de análise bem elaborado não apenas orienta o processo de análise estatística, mas também garante que os dados sejam tratados de forma consistente e objetiva. Mesmo que a análise seja feita por um consultor externo, é essencial que você participe ativamente desta fase, junto com ele. É você quem domina os objetivos e nuances do estudo, e os detalhes dos instrumentos utilizados. Essas informações garantirão a precisão da análise e, consequentemente, a qualidade das conclusões.

Antes de qualquer coisa, é essencial ter clareza sobre o que você deseja alcançar com a análise de dados. Relembre os objetivos específicos do seu estudo, que devem guiar a escolha dos métodos de análise. Por exemplo, se o objetivo é comparar a eficácia de duas intervenções, você precisará de testes estatísticos que permitam essa comparação.

Conferência e limpeza do banco de dados

O primeiro passo é conferir a qualidade do banco de dados. Esta etapa inclui conferir as seguintes informações:

    • valores faltantes – identifique e trate dados ausentes. Você pode optar por imputação de valores, exclusão de casos ou análise específica para dados faltantes;
    • valores inválidos – verifique se os valores inseridos estão dentro dos intervalos esperados para cada variável. Corrija os erros identificados. Se não for possível recuperar a informação, trate-os como valores faltantes;
    • duplicatas – com base no identificador único, verifique se os voluntários foram inseridos apenas uma vez e remova entradas (registros) duplicadas. No caso de estudos prospectivos, cada voluntário deve ter apenas uma entrada em cada momento do estudo (inclusão e término, por exemplo). Neste caso, pode ser que algum voluntário tenha faltado a alguma das avaliações intermediárias ou final. Esses casos devem ser tratados como dado faltante;
    • conferência lógica – avalie se há inconsistências lógicas entre variáveis relacionadas. Por exemplo, um paciente não pode ter “idade” menor que “idade no diagnóstico” ou não tabagista não pode ter consumo diário de cigarros diferente de zero. Caso não seja possível recuperar a informação, o dado deve ser tratado como faltante.

Codificação e transformação de variáveis

Como o banco de dados limpo, está na hora de conferir a codificação das variáveis e realizar os cálculos necessários. Lembre-se que na fase de coleta, não se deve fazer cálculos, apenas coletar os dados brutos, isso reduz a chance de erro e a necessidade de conferência dos cálculos feitos manualmente.

Certifique-se de que todas as variáveis estão corretamente codificadas, de acordo com o Manual de Coleta de Dados. Isso inclui a transformação de variáveis categóricas (dicotômicas, ordinais e nominais) em códigos numéricos e a padronização de escalas de medição. Depois, você vai incluir novas variáveis, que sejam resultado de cálculos, como o índice de massa corporal ou a média ou soma de notas, por exemplo.

No caso de instrumentos de medida, como qualidade de vida, empatia entre outros, normalmente é preciso calcular o escore final dele. Em alguns casos, há também escores intermediários. A forma de cálculo dos escores depende do instrumento. Em alguns deles é necessário inverter o valor respondido de alguns itens, para depois somar o valor de todos os itens. Em outros instrumentos, o valor dos itens pode ter pesos diferentes. Por exemplo, um determinado item pode ter que ser multiplicado por dois antes de ser somado aos outros itens.

Outra possibilidade é a necessidade de transformação de uma variável categórica ou contínua em variável dicotômica. Por exemplo, ao invés de analisar a idade como variável contínua, é preciso dividir o seu grupo em idosos (idade ≥ 60 anos) e não idosos. Ou dividir os alunos em reprovados e aprovados com base na nota. Ou ainda, agrupar uma resposta tipo Likert, em discorda (de 1 a 3) e concorda (4 e 5). Algumas vezes, a necessidade de transformações é identificada apenas durante a análise em si, já na fase final da execução do projeto. Não há problemas nisso, mas você não pode se esquecer que atualizar o plano de análise de dados, incluindo as transformações que foram realizadas durante a análise.

Sempre que for possível e, logicamente, plausível, você deve transformar as variáveis categóricas nominais ou ordinais ou variáveis numéricas em variáveis dicotômicas. Isso facilita muito a análise comparativa e a interpretação dos resultados.

Em todas as situações em que for necessária a transformação de dados e recodificação de variáveis, é fortemente recomendado que você crie novas variáveis ao invés de sobrescrever as variáveis originais. Desta forma, você poderá conferir ou refazer os cálculos, se necessário.

Nível de significância

O nível de significância é um valor que ajuda a determinar se os resultados de um teste estatístico são confiáveis. Ele é representado pela letra alfa (α) e indica o risco de rejeitar a hipótese nula (afirmar que há uma diferença entre os grupos quando na verdade essa diferença não existe). Se o valor de p, calculado pelo teste estatístico, for maior que o α, considera-se que não há evidência suficiente para afirmar que há diferença entre os grupos.

Alguns autores descrevem o valor de p como a probabilidade de que a diferença observada entre dois grupos ocorra apenas por acaso. No entanto, tecnicamente, o valor de p mede a probabilidade de obter resultados tão extremos quanto os observados, supondo que a hipótese nula (de não haver diferença) seja verdadeira. Esta interpretação simplificada pode ser útil para facilitar a compreensão do conceito por aqueles menos familiarizados com estatística, embora não seja totalmente precisa.

Se p ≤ α, então a diferença entre os grupos é considerada estatisticamente significativa. Se não, considera-se que não há diferença entre os grupos. Normalmente, em estudos na área da saúde e educação, utiliza-se o valor de 0,05 (ou 5%).

Análise Exploratória de Dados

Para uma boa análise, é preciso que você “entenda” os seus dados. Para isso, após a limpeza e transformação do banco de dados, você deve fazer uma análise exploratória. Faça gráficos para melhor visualizar os comportamentos dos dados. Para variáveis contínuas, você pode usar gráficos tipo boxplot, dispersão ou linha. Para variáveis categóricas, pode usar gráficos de barra ou histogramas. Você também pode calcular distribuições de frequência para variáveis categóricas e médias, medianas, modas e desvios padrão para variáveis contínuas.

Analise os gráficos e tabelas e procure identificar padrões no comportamento das variáveis. Eles podem fornecer insights valiosos para as próximas etapas da análise. Aproveite também para verificar a consistência dos dados, principalmente se os outliers não são erros de digitação.

Análise descritiva

O objetivo da análise descritiva é ter uma visão geral dos dados, antes de realizar a análise comparativa. Ela também é chamada de univariada, pois não há comparação de dados, apenas a descrição individual de cada variável, de acordo com o seu tipo (categórica ou contínua).

Você pode utilizar os resultados da análise exploratória na análise descritiva, que será a primeira parte da seção Resultados de seu relatório ou dissertação. No caso da escala de Likert, podem ser feitas duas abordagens. A escala pode ser transformada em uma variável dicotômica ou pode ser tratada como uma variável contínua, apesar de ser uma variável categórica ordinal. Em instrumentos de avaliação de comportamento, normalmente ela é tratada como uma variável contínua.

Análise bivariada

A análise bivariada é a primeira fase da análise comparativa. Ela recebe este nome por comparar a relação entre duas variáveis, ou seja, você vai comparar as variáveis independentes e de confusão com a variável dependente. Por exemplo, a média de idade entre o tratamento e grupo controle, ou entre os alunos expostas a uma intervenção educativa e o grupo não exposto.

O teste estatístico a ser utilizado, dependerá do tipo de variável e do número de grupos. No caso de uma variável contínua, é preciso avaliar se a distribuição dela é normal ou não antes de escolher o teste de comparação. Se a distribuição for normal, utiliza-se um teste paramétrico, caso contrário, um teste não paramétrico.

Comparação entre variáveis categóricas

Para testar a associação entre duas variáveis categóricas, utiliza-se o teste do qui-quadrado, com suas variações, como o teste de Fisher. A lógica por trás do teste é avaliar se a proporção (percentual) de determinado evento, como a cura no caso de estudo de tratamento de pneumonia, está dentro do esperado nos dois grupos. Se um grupo tiver um percentual de cura muito maior que o outro, há mais chance da diferença entre os grupos ser estatisticamente significativa. Lembre-se que o tamanho da amostra influencia nas análises de associação. Às vezes, no caso de amostras pequenas, uma diferença percentual alta pode não alcançar significância estatística por causa do tamanho da amostra. O qui-quadrado pode ser utilizado em tabelas 2 x 2 (duas linhas e duas colunas), no caso de comparação de duas variáveis dicotômicas (o que é o ideal), ou em tabelas com mais classes.

Comparação entre variáveis categóricas e contínuas

No caso de variáveis contínuas, primeiro deve-se testar a normalidade da amostra. Normalmente, utiliza-se o teste de Shapiro-Wilk. Ele parte do princípio de que a distribuição de dados é normal (hipótese nula). Se o valor de p > 0,05 aceita-se a hipótese nula (considera-se a distribuição dos dados normal). Se o valor de p for ≤ 0,05, rejeita-se a hipótese nula e assume-se que a distribuição não é normal.

No caso da distribuição ser normal, utilizam-se testes paramétricos. Eles comparam as médias e os desvios-padrão entre dois ou mais grupos para avaliar se a diferença observada entre as médias é estatisticamente significativa ou não. Caso a distribuição não seja normal, utiliza-se testes não paramétricos, que seguem a mesma lógica, mas baseiam-se nas medianas ao invés das médias.

Vejamos alguns testes paramétricos para comparação de médias de variáveis contínuas entre variáveis categóricas com dois ou mais grupos:

    • dois grupos independentes – teste t de Student;
    • dois grupos dependentes ou pareados – teste t de Student pareado;
    • mais de dois grupos independentes – análise de variância (ANOVA);
    • mais de dois grupos dependentes (estudos tipo antes e depois ou prospectivos) ou pareados (estudos caso controle) – ANOVA de medidas repetidas.

Caso a ANOVA indique que há diferença estatística entre os grupos, é necessário realizar uma análise post hoc, como teste de Turkey ou de Bonferroni, para identificar quais classes diferem entre si.

No caso de testes não paramétricos, você pode utilizar:

    • dois grupos independentes – teste de Mann-Whitney;
    • dois grupos dependentes (estudos tipo antes e depois ou prospectivos) ou pareados (estudos caso controle) – teste de Wilcoxon ou Wilcoxon pareado, respectivamente;
    • mais de dois grupos independentes – teste de Kruskal-Wallis;
    • mais de dois grupos dependentes ou pareados – teste de Friedman.

Caso o teste de Kruskal-Wallis ou de Friedman indiquem uma diferença significativa entre os grupos, é possível realizar testes de comparação múltipla, como o teste de Wilcoxon com correção de Bonferroni, para identificar quais grupos diferem entre si.

Comparação entre variáveis contínuas

Para comparação de duas variáveis contínuas, você deve utilizar um teste de correlação. Por exemplo, se quiser comparar a idade com a pressão arterial. Caso a medida das duas variáveis aumentem juntas, ou seja, quanto maior a idade, maior a pressão arterial, existe uma correlação positiva entre elas. Se a relação for inversa, à medida que uma aumenta a outra diminui, diz-se que existe uma correlação negativa. Apesar de pouco provável, no exemplo dado, a pressão arterial deveria diminuir à medida que a idade aumenta.

Além de indicar o tipo de relação entre as variáveis, o teste de correlação também indica a intensidade dessa associação. Quando mais próximo de 1 (ou -1 no caso de correlações negativas) mais forte a associação entre as variáveis e, quando mais próximo de 0, mais fraca a associação entre elas.

 O teste de correlação de Pearson é utilizado para avaliar a relação entre variáveis contínuas de distribuição normal. Já o teste de Spearman é utilizado para variáveis ordinais (como na escala de Likert) ou variáveis de distribuição não normal.

Análise multivariada

A análise multivariada é uma técnica estatística utilizada para analisar simultaneamente múltiplas variáveis em um conjunto de dados. Ao invés de analisar as variáveis duas a duas, como visto no tópico anterior, a análise multivariada busca identificar padrões e relações entre as variáveis em conjunto. Ela nos ajuda a entender como as variáveis se influenciam mutuamente e quais são os principais fatores e relações que explicam o comportamento dos dados estudados.

Você pode utilizar a análise multivariada para identificar as variáveis que realmente interferem no desfecho do estudo através do valor de p (chamado de p ajustado em comparação com o p bruto da análise bivariada). Ela também mede a intensidade de relação entre as variáveis, permitindo o desenvolvimento de modelos preditivos, que podem ser utilizado em pessoas que não estão envolvidos no estudo. Por exemplo, o escore de Framingham, que estima o risco de doença coronariana é originado de uma análise multivariada de um estudo de coorte (estudo de Framingham).

A regressão linear é utilizada quando a variável dependente é contínua. A regressão logística é indicada quando a variável dependente é dicotômica. Já a ANOVA Multivariada (MANOVA) é utilizada quando se tem múltiplas variáveis dependentes contínuas. Em todos os casos, você pode utilizar variáveis categóricas ou dicotômicas para realização da análise.

Estas são as técnicas de análise e os testes mais utilizados na maior parte dos estudos, mas não são todos os testes existentes. De acordo com o objetivo e o desenho de seu estudo, pode ser necessário fazer análise de sobrevida, ou teste de confiabilidade, ou teste de concordância, ou o cálculo do tamanho do efeito, entre outros.

Softwares de análise estatística

Quando chega a hora de realizar a análise estatística, você tem várias opções de software à disposição. Aqui estão algumas das mais populares e recomendadas.

SPSS (Statistical Package for the Social Sciences)

    • Descrição: um dos softwares estatísticos mais conhecidos e amplamente utilizado em diversas áreas de pesquisa.
    • Prós: fácil de aprender, possui uma interface gráfica intuitiva e é adequado tanto para análises simples quanto avançadas.
    • Contras: é pago e pode ser bastante dispendioso, especialmente para instituições ou pesquisadores com orçamento limitado.

R + R Studio

    • Descrição: uma alternativa gratuita e poderosa para análise estatística. Trata-se de uma linguagem de programação e não de um aplicativo propriamente dito.
    • Prós: extremamente versátil e extensível com uma vasta gama de pacotes para diferentes tipos de análises.
    • Contras: a interface não é muito intuitiva e exige um esforço considerável de aprendizado, principalmente para quem não tem experiência prévia com programação.

JASP

    • Descrição: desenvolvido pela Universidade de Amsterdam, é uma ferramenta gratuita que combina facilidade de uso com poderosas capacidades analíticas.
    • Prós: possui uma interface amigável, suporte para português de Portugal e muitos tutoriais gratuitos on-line, tornando-o acessível para pesquisadores com pouca experiência em estatística.
    • Contras: embora seja bastante completo, pode não ter todos os recursos especializados que alguns estudos mais avançados podem exigir.

Atualmente, eu utilizo o JASP. Aqui estão algumas razões pelas quais considero o JASP a melhor opção de software livre de análise estatística disponível atualmente:

    • gratuito – não há custos associados ao seu uso, o que é ideal para pesquisadores com orçamentos limitados;
    • interface amigável – a interface é intuitiva e fácil de navegar, o que reduz a curva de aprendizado para novos usuários;
    • suporte para português – oferece suporte para o português de Portugal, facilitando o uso para pesquisadores lusófonos;
    • recursos educacionais – existem vários cursos gratuitos e tutoriais na internet que ensinam a utilizar o JASP, ajudando você a começar rapidamente e a melhorar suas habilidades.

Escolher o software de análise estatística certo depende de suas necessidades específicas, orçamento e nível de experiência. Se você está começando ou tem recursos limitados, o JASP é uma excelente opção devido à sua acessibilidade e facilidade de uso. Para pesquisadores que necessitam de uma ferramenta mais robusta e estão dispostos a investir tempo no aprendizado, o R + R Studio é uma alternativa poderosa. E, se o orçamento permitir, o SPSS continua sendo uma escolha sólida pela sua simplicidade e abrangência.

Conclusão

Um plano de análise de dados bem estruturado envolve desde a conferência e limpeza do banco de dados até a seleção e aplicação dos testes estatísticos adequados. Garantir a precisão e integridade dos dados é crucial para obter resultados confiáveis. A análise descritiva, bivariada e multivariada permite uma compreensão completa dos dados, ajudando a responder às perguntas de pesquisa de forma consistente e válida. A participação do pesquisador no desenvolvimento do plano de análise de dados é essencial, mesmo que a análise seja feita por um consultor, pois é você que detém o conhecimento sobre o projeto em si e sobre as variáveis e os instrumentos de coleta de dados. Além disso, a responsabilidade final sobre os resultados será sua e não do consultor.