Lors de la recherche, il devient parfois nécessaire d’analyser des données en comparant plus de deux échantillons ou groupes. Un type de test statistique inférentiel, l’analyse de variance (ANOVA), permet d’examiner plusieurs échantillons en même temps afin de déterminer s’il existe une relation significative entre eux. Le raisonnement est identique aux tests t, seule l’analyse de variance inclut des variables indépendantes de deux échantillons ou plus. Les différences entre les échantillons ainsi que la différence au sein d’un échantillon sont déterminées. L’ANOVA repose sur quatre hypothèses : le niveau de mesure, la méthode d’échantillonnage, la distribution de la population et l’homogénéité de la variance.
Afin de déterminer si les différences sont significatives, l’ANOVA s’intéresse aux différences entre et au sein des échantillons, ce que l’on appelle la variance. L’ANOVA peut déterminer si la variance est plus grande entre les échantillons par rapport à celle parmi les membres de l’échantillon. Si cela s’avère vrai, alors les différences sont considérées comme significatives.
La réalisation d’un test ANOVA implique l’acceptation de certaines hypothèses. La première est que la méthode d’échantillonnage aléatoire indépendante est utilisée et que le choix des membres de l’échantillon d’une seule population n’influence pas le choix des membres des populations ultérieures. Les variables dépendantes sont mesurées principalement au niveau du rapport d’intervalle; cependant, il est possible d’appliquer l’analyse de variance aux mesures de niveau ordinal. On peut supposer que la population est normalement distribuée, même si cela n’est pas vérifiable, et que les variances de population sont les mêmes, ce qui signifie que les populations sont homogènes.
L’hypothèse de recherche suppose qu’au moins une moyenne est différente des autres, mais les différentes moyennes ne sont pas identifiées comme plus grandes ou plus petites. Seul le fait qu’une différence existe est prédit. L’ANOVA teste l’hypothèse nulle, ce qui signifie qu’il n’y a pas de différence entre toutes les valeurs moyennes, telles que A = B = C. Cela nécessite de définir l’alpha, se référant au niveau de probabilité où l’hypothèse nulle sera rejetée.
Le rapport F est une statistique de test utilisée spécifiquement pour l’analyse de la variance, car le score F indique où commence la zone de rejet de l’hypothèse nulle. Développée par le statisticien Ronald Fisher, la formule pour F est la suivante : F = estimation de la variance entre les groupes (MSB) divisée par l’estimation de la variance au sein du groupe (MSW), telle que F = MSB/MSW. Chacune des estimations de la variance se compose de deux parties : la somme des carrés (SSB et SSW) et les degrés de liberté (df). En utilisant les tableaux statistiques pour la recherche biologique, agricole et médicale, l’alpha peut être défini et basé sur cela, et l’hypothèse nulle d’absence de différence peut être rejetée. On peut conclure qu’il existe une différence significative entre tous les groupes, si tel est le cas.