Médico | Professor | Mentor | Conselheiro
Depois de definir o tipo de bolo (desenho do estudo), selecionar os ingredientes principais (população) e os outros ingredientes (variáveis), e detalhar a receita (procedimentos), agora é a hora de definir como você vai avaliar a qualidade do seu bolo, ou seja, o seu plano de análise. Você irá descrever o aspecto geral do bolo (análise descritiva) e depois analisar as informações mais a fundo, comparando texturas e sabores (análise comparativa). Talvez seja necessário analisar o efeito da combinação dos diferentes componentes da receita para identificar qual mais influenciou no resultado final (análise multivariada). Assim como a qualidade de um bolo depende não apenas dos ingredientes, mas também de como eles são combinados, a validade das conclusões de um estudo depende de análise de dados bem planejada e executada.
A análise de dados é o processo que transforma os dados brutos em informações significativas, permitindo que você responda a sua pergunta de pesquisa. Um plano de análise bem elaborado não apenas orienta o processo de análise estatística, mas também garante que os dados sejam tratados de forma consistente e objetiva. Mesmo que a análise seja feita por um consultor externo, é essencial que você participe ativamente desta fase, junto com ele. É você quem domina os objetivos e nuances do estudo, e os detalhes dos instrumentos utilizados. Essas informações garantirão a precisão da análise e, consequentemente, a qualidade das conclusões.
Antes de qualquer coisa, é essencial ter clareza sobre o que você deseja alcançar com a análise de dados. Relembre os objetivos específicos do seu estudo, que devem guiar a escolha dos métodos de análise. Por exemplo, se o objetivo é comparar a eficácia de duas intervenções, você precisará de testes estatísticos que permitam essa comparação.
O primeiro passo é conferir a qualidade do banco de dados. Esta etapa inclui conferir as seguintes informações:
Como o banco de dados limpo, está na hora de conferir a codificação das variáveis e realizar os cálculos necessários. Lembre-se que na fase de coleta, não se deve fazer cálculos, apenas coletar os dados brutos, isso reduz a chance de erro e a necessidade de conferência dos cálculos feitos manualmente.
Certifique-se de que todas as variáveis estão corretamente codificadas, de acordo com o Manual de Coleta de Dados. Isso inclui a transformação de variáveis categóricas (dicotômicas, ordinais e nominais) em códigos numéricos e a padronização de escalas de medição. Depois, você vai incluir novas variáveis, que sejam resultado de cálculos, como o índice de massa corporal ou a média ou soma de notas, por exemplo.
No caso de instrumentos de medida, como qualidade de vida, empatia entre outros, normalmente é preciso calcular o escore final dele. Em alguns casos, há também escores intermediários. A forma de cálculo dos escores depende do instrumento. Em alguns deles é necessário inverter o valor respondido de alguns itens, para depois somar o valor de todos os itens. Em outros instrumentos, o valor dos itens pode ter pesos diferentes. Por exemplo, um determinado item pode ter que ser multiplicado por dois antes de ser somado aos outros itens.
Outra possibilidade é a necessidade de transformação de uma variável categórica ou contínua em variável dicotômica. Por exemplo, ao invés de analisar a idade como variável contínua, é preciso dividir o seu grupo em idosos (idade ≥ 60 anos) e não idosos. Ou dividir os alunos em reprovados e aprovados com base na nota. Ou ainda, agrupar uma resposta tipo Likert, em discorda (de 1 a 3) e concorda (4 e 5). Algumas vezes, a necessidade de transformações é identificada apenas durante a análise em si, já na fase final da execução do projeto. Não há problemas nisso, mas você não pode se esquecer que atualizar o plano de análise de dados, incluindo as transformações que foram realizadas durante a análise.
Sempre que for possível e, logicamente, plausível, você deve transformar as variáveis categóricas nominais ou ordinais ou variáveis numéricas em variáveis dicotômicas. Isso facilita muito a análise comparativa e a interpretação dos resultados.
Em todas as situações em que for necessária a transformação de dados e recodificação de variáveis, é fortemente recomendado que você crie novas variáveis ao invés de sobrescrever as variáveis originais. Desta forma, você poderá conferir ou refazer os cálculos, se necessário.
O nível de significância é um valor que ajuda a determinar se os resultados de um teste estatístico são confiáveis. Ele é representado pela letra alfa (α) e indica o risco de rejeitar a hipótese nula (afirmar que há uma diferença entre os grupos quando na verdade essa diferença não existe). Se o valor de p, calculado pelo teste estatístico, for maior que o α, considera-se que não há evidência suficiente para afirmar que há diferença entre os grupos.
Alguns autores descrevem o valor de p como a probabilidade de que a diferença observada entre dois grupos ocorra apenas por acaso. No entanto, tecnicamente, o valor de p mede a probabilidade de obter resultados tão extremos quanto os observados, supondo que a hipótese nula (de não haver diferença) seja verdadeira. Esta interpretação simplificada pode ser útil para facilitar a compreensão do conceito por aqueles menos familiarizados com estatística, embora não seja totalmente precisa.
Se p ≤ α, então a diferença entre os grupos é considerada estatisticamente significativa. Se não, considera-se que não há diferença entre os grupos. Normalmente, em estudos na área da saúde e educação, utiliza-se o valor de 0,05 (ou 5%).
Para uma boa análise, é preciso que você “entenda” os seus dados. Para isso, após a limpeza e transformação do banco de dados, você deve fazer uma análise exploratória. Faça gráficos para melhor visualizar os comportamentos dos dados. Para variáveis contínuas, você pode usar gráficos tipo boxplot, dispersão ou linha. Para variáveis categóricas, pode usar gráficos de barra ou histogramas. Você também pode calcular distribuições de frequência para variáveis categóricas e médias, medianas, modas e desvios padrão para variáveis contínuas.
Analise os gráficos e tabelas e procure identificar padrões no comportamento das variáveis. Eles podem fornecer insights valiosos para as próximas etapas da análise. Aproveite também para verificar a consistência dos dados, principalmente se os outliers não são erros de digitação.
O objetivo da análise descritiva é ter uma visão geral dos dados, antes de realizar a análise comparativa. Ela também é chamada de univariada, pois não há comparação de dados, apenas a descrição individual de cada variável, de acordo com o seu tipo (categórica ou contínua).
Você pode utilizar os resultados da análise exploratória na análise descritiva, que será a primeira parte da seção Resultados de seu relatório ou dissertação. No caso da escala de Likert, podem ser feitas duas abordagens. A escala pode ser transformada em uma variável dicotômica ou pode ser tratada como uma variável contínua, apesar de ser uma variável categórica ordinal. Em instrumentos de avaliação de comportamento, normalmente ela é tratada como uma variável contínua.
A análise bivariada é a primeira fase da análise comparativa. Ela recebe este nome por comparar a relação entre duas variáveis, ou seja, você vai comparar as variáveis independentes e de confusão com a variável dependente. Por exemplo, a média de idade entre o tratamento e grupo controle, ou entre os alunos expostas a uma intervenção educativa e o grupo não exposto.
O teste estatístico a ser utilizado, dependerá do tipo de variável e do número de grupos. No caso de uma variável contínua, é preciso avaliar se a distribuição dela é normal ou não antes de escolher o teste de comparação. Se a distribuição for normal, utiliza-se um teste paramétrico, caso contrário, um teste não paramétrico.
Comparação entre variáveis categóricas
Para testar a associação entre duas variáveis categóricas, utiliza-se o teste do qui-quadrado, com suas variações, como o teste de Fisher. A lógica por trás do teste é avaliar se a proporção (percentual) de determinado evento, como a cura no caso de estudo de tratamento de pneumonia, está dentro do esperado nos dois grupos. Se um grupo tiver um percentual de cura muito maior que o outro, há mais chance da diferença entre os grupos ser estatisticamente significativa. Lembre-se que o tamanho da amostra influencia nas análises de associação. Às vezes, no caso de amostras pequenas, uma diferença percentual alta pode não alcançar significância estatística por causa do tamanho da amostra. O qui-quadrado pode ser utilizado em tabelas 2 x 2 (duas linhas e duas colunas), no caso de comparação de duas variáveis dicotômicas (o que é o ideal), ou em tabelas com mais classes.
Comparação entre variáveis categóricas e contínuas
No caso de variáveis contínuas, primeiro deve-se testar a normalidade da amostra. Normalmente, utiliza-se o teste de Shapiro-Wilk. Ele parte do princípio de que a distribuição de dados é normal (hipótese nula). Se o valor de p > 0,05 aceita-se a hipótese nula (considera-se a distribuição dos dados normal). Se o valor de p for ≤ 0,05, rejeita-se a hipótese nula e assume-se que a distribuição não é normal.
No caso da distribuição ser normal, utilizam-se testes paramétricos. Eles comparam as médias e os desvios-padrão entre dois ou mais grupos para avaliar se a diferença observada entre as médias é estatisticamente significativa ou não. Caso a distribuição não seja normal, utiliza-se testes não paramétricos, que seguem a mesma lógica, mas baseiam-se nas medianas ao invés das médias.
Vejamos alguns testes paramétricos para comparação de médias de variáveis contínuas entre variáveis categóricas com dois ou mais grupos:
Caso a ANOVA indique que há diferença estatística entre os grupos, é necessário realizar uma análise post hoc, como teste de Turkey ou de Bonferroni, para identificar quais classes diferem entre si.
No caso de testes não paramétricos, você pode utilizar:
Caso o teste de Kruskal-Wallis ou de Friedman indiquem uma diferença significativa entre os grupos, é possível realizar testes de comparação múltipla, como o teste de Wilcoxon com correção de Bonferroni, para identificar quais grupos diferem entre si.
Comparação entre variáveis contínuas
Para comparação de duas variáveis contínuas, você deve utilizar um teste de correlação. Por exemplo, se quiser comparar a idade com a pressão arterial. Caso a medida das duas variáveis aumentem juntas, ou seja, quanto maior a idade, maior a pressão arterial, existe uma correlação positiva entre elas. Se a relação for inversa, à medida que uma aumenta a outra diminui, diz-se que existe uma correlação negativa. Apesar de pouco provável, no exemplo dado, a pressão arterial deveria diminuir à medida que a idade aumenta.
Além de indicar o tipo de relação entre as variáveis, o teste de correlação também indica a intensidade dessa associação. Quando mais próximo de 1 (ou -1 no caso de correlações negativas) mais forte a associação entre as variáveis e, quando mais próximo de 0, mais fraca a associação entre elas.
O teste de correlação de Pearson é utilizado para avaliar a relação entre variáveis contínuas de distribuição normal. Já o teste de Spearman é utilizado para variáveis ordinais (como na escala de Likert) ou variáveis de distribuição não normal.
A análise multivariada é uma técnica estatística utilizada para analisar simultaneamente múltiplas variáveis em um conjunto de dados. Ao invés de analisar as variáveis duas a duas, como visto no tópico anterior, a análise multivariada busca identificar padrões e relações entre as variáveis em conjunto. Ela nos ajuda a entender como as variáveis se influenciam mutuamente e quais são os principais fatores e relações que explicam o comportamento dos dados estudados.
Você pode utilizar a análise multivariada para identificar as variáveis que realmente interferem no desfecho do estudo através do valor de p (chamado de p ajustado em comparação com o p bruto da análise bivariada). Ela também mede a intensidade de relação entre as variáveis, permitindo o desenvolvimento de modelos preditivos, que podem ser utilizado em pessoas que não estão envolvidos no estudo. Por exemplo, o escore de Framingham, que estima o risco de doença coronariana é originado de uma análise multivariada de um estudo de coorte (estudo de Framingham).
A regressão linear é utilizada quando a variável dependente é contínua. A regressão logística é indicada quando a variável dependente é dicotômica. Já a ANOVA Multivariada (MANOVA) é utilizada quando se tem múltiplas variáveis dependentes contínuas. Em todos os casos, você pode utilizar variáveis categóricas ou dicotômicas para realização da análise.
Estas são as técnicas de análise e os testes mais utilizados na maior parte dos estudos, mas não são todos os testes existentes. De acordo com o objetivo e o desenho de seu estudo, pode ser necessário fazer análise de sobrevida, ou teste de confiabilidade, ou teste de concordância, ou o cálculo do tamanho do efeito, entre outros.
Quando chega a hora de realizar a análise estatística, você tem várias opções de software à disposição. Aqui estão algumas das mais populares e recomendadas.
R + R Studio
JASP
Atualmente, eu utilizo o JASP. Aqui estão algumas razões pelas quais considero o JASP a melhor opção de software livre de análise estatística disponível atualmente:
Escolher o software de análise estatística certo depende de suas necessidades específicas, orçamento e nível de experiência. Se você está começando ou tem recursos limitados, o JASP é uma excelente opção devido à sua acessibilidade e facilidade de uso. Para pesquisadores que necessitam de uma ferramenta mais robusta e estão dispostos a investir tempo no aprendizado, o R + R Studio é uma alternativa poderosa. E, se o orçamento permitir, o SPSS continua sendo uma escolha sólida pela sua simplicidade e abrangência.
Um plano de análise de dados bem estruturado envolve desde a conferência e limpeza do banco de dados até a seleção e aplicação dos testes estatísticos adequados. Garantir a precisão e integridade dos dados é crucial para obter resultados confiáveis. A análise descritiva, bivariada e multivariada permite uma compreensão completa dos dados, ajudando a responder às perguntas de pesquisa de forma consistente e válida. A participação do pesquisador no desenvolvimento do plano de análise de dados é essencial, mesmo que a análise seja feita por um consultor, pois é você que detém o conhecimento sobre o projeto em si e sobre as variáveis e os instrumentos de coleta de dados. Além disso, a responsabilidade final sobre os resultados será sua e não do consultor.