AFC pour développement méthodologique

Bonjour à tous,

# Analyse multivarié
# AFC
# Biostatistiques

Quels tests statistiques s'appliquent à mes questions et à mes données?

Je travail sur 156 mailles de 1 ha au sein duquel on a relevé 3 types de données. Le premier est l'habitat (hab), et les deux autres présences d'hétérogénéité (he) ou d'homogénéité (ho) d'habitat au sein de ces mêmes mailles. Les données sont donc le nombre de mailles pour chaque critères d'hétérogénéité ou homogénéité par type d'habitat.
Sur la base des données ci-dessous, un exemple:
L'habitat E0 est présente sur 16 mailles dites "hétérogènes", et 6 mailles dites "homogènes".

Il y a t-il une relation particulière entre type d'habitat et critères d'hétérogénéités? Quelles sont liens de proximité ou dissimilarité présentes au sein du tableau de contingence ci-dessous ?
Plus concrètement, j'aimerai savoir si les habitats permettent de mesurer l'hétérogénéité du milieu ou pas...
Format tableur (code reproductible R ci-dessous)
Hab	he	ho
E0	16	6
C1Y	3	15
C1X	7	7
B2Y	3	9
B1X	7	4
A1X	0	10
C2	6	4
D1X	1	9
A1Z	1	7
B1Y	2	6
D1Y	1	4
A1Y	0	4
C0	2	2
C3	0	4
B3	0	3
D0	1	2
D3	1	2
E1X	1	2
B2X	1	1
A2Z	0	1
E3	1	0



Pour R
data<-structure(list(hab = structure(1:21, .Label = c("A1X", "A1Y",
                                                "A1Z", "A2Z", "B1X", "B1Y", "B2X", "B2Y", "B3", "C0", "C1X",
                                                "C1Y", "C2", "C3", "D0", "D1X", "D1Y", "D3", "E0", "E1X", "E3"
), class = "factor"), he = c(0L, 0L, 1L, 0L, 7L, 2L, 1L, 3L,
                             0L, 2L, 7L, 3L, 6L, 0L, 1L, 1L, 1L, 1L, 16L, 1L, 1L), ho = c(10L,
                                                                                          4L, 7L, 1L, 4L, 6L, 1L, 9L, 3L, 2L, 7L, 15L, 4L, 4L, 2L, 9L,
                                                                                          4L, 2L, 6L, 2L, 0L)), class = "data.frame", row.names = c(NA,
                                                                                                                                                    -21L))



Le code sur R.

res.ca <- CA (data2, graph = FALSE)

summary(res.ca)

Call:
CA(X = data2, graph = FALSE)

The chi square of independence between the two variables is equal to 44.95003 (p-value =  0.001120815 ).
Eigenvalues
Error in dimnames(x) <- dn :
  la longueur de 'dimnames' [1] n'est pas égale à l'étendue du tableau


Les messages d'erreurs que je reçois me font comprendre qu'il ne s'agit pas d'une AFC... mais de quel(s) test(s) peux t-il s'agir?

Je penses que pour un statisticien, l'identification du test, ou des incohérences dans mon résonnement sera assez facile à identifier. Pour moi, c'est plus difficile. :)

C'est mon premier message sur ce forum.

D'avance merci à tous!
Samuel

Réponses

  • Bonsoir,

    Une AFC n'aurait pas grand sens avec le peu de modalités de tes données. Pour résoudre ton problème, il faudra s'appuyer sur le chi-deux. Est-ce qu'il n'a pas d'indices d'homogénéité comme l'indice de Simpson ou de Gini souvent utilisés en Biostatistique ?

    Cordialement.
  • Bonjour JMA,

    Merci beaucoup pour votre réponse qui confirme bien ce que je pensais.
    Votre message me permet d'avancer même s'il faut que j'abandonne l'AFC :) (que je garde pour plus tard)

    Si je puis me permettre d'abuser de votre disponibilité, accepteriez-vous de suivre mon résonnement dans la mise en place du test?

    Je considère l'Hypothèse Null suivante. Ho= Il n'y a pas de différence significative entre mes deux critères d'hétérogénéités. En d'autres termes, mes habitats, ont autant de chance d'être homogène ou hétérogène.

    Grâce à R j'obtiens cela:
    > chisq.test (data2)
    
    	Pearson's Chi-squared test
    
    data:  data2
    X-squared = 44.95, df = 20, p-value = 0.001121
    
    Warning message:
    In chisq.test(data2) : l'approximation du Chi-2 est peut-être incorrecte
    

    J'obtiens une p-value inférieur à 5% pour un Chi2 de 44,95 à 20 ddl. Je peux donc rejeter l'hypothèse nulle et considérer qu'il y a bien moins de cinq chances sur 1000 de me tromper en déclarant qu'il y a bien un lien entre habitat et critère d'hétérogénéité.
    En d'autres termes, touts ou parties de mes habitats définissent une hétérogénéité ou une homogénéité?
    Ce résonnement est-il juste?

    Pensez-vous que je puisses pousser d'avantage mon interprétation en observant les résidus du test?

    [code]
    > chisq$residuals
    he ho
    A1X -1.86052102 1.35372788
    A1Y -1.17669681 0.85617269
    A1Z -1.06317538 0.77357371
    A2Z -0.58834841 0.42808634
    B1X 1.63596430 -1.19033887
    B1Y -0.46225016 0.33633640
    B2X 0.36980013 -0.26906912
    B2Y -0.56613852 0.41192628
    B3 -1.01904933 0.74146730
    C0 0.52297636 -0.38052120
    C1X 0.97839918 -0.71188997
    C1Y -1.29430046 0.94174191
    C2 1.36438208 -0.99273378
    C3 -1.17669681 0.85617269
    D0 -0.03774257 0.02746175
    D1X -1.32303717 0.96265094
    D1Y -0.55547008 0.40416385
    D3 -0.03774257 0.02746175
    E0 3.03834597 -2.21072142
    E1X -0.03774257 0.02746175
    E3 1.11132477 -0.80860754

    > colSums(chisq$residuals)
    he ho
    -2.177719 1.584523

    [code]

    Lorsque je somme les résidus de mes deux colonnes, je constate que Ho est supérieur à He. Quelle interprétation pourrions-nous oser faire?

    Par la suite, j'investiguerai sur la possibilité de décrire plus précisément les liens entre certains de ces habitats et le critère (si cela est possible).

    Je ne suis pas certains de bien connaitre les tests d'homogénéité dont vous parlez mis à part celui le Simpson qui est d'avantage utilisé pour mesurer la diversité spécifique au sein d'un échantillon, d'une population.
    Merci!!
    Bien cordialement,
    Samuel
  • Bonjour

    Je reviendrais vers toi dès que possible.

    Cordialement.
  • Bonsoir,

    Le test du chi-deux n'est pas applicable à cause de trop faibles effectifs du tableau de contingence. Personnellement, je ne vois pas trop comment répondre à tes questions avec des méthodes élaborées parce qu'il n'y a pas assez de renseignements (même si ceux que tu donnes t'ont sûrement coûtés). Pour ce que tu présentes, il faudrait peut-être l'aborder de manière plus "qualitative" et utiliser des statistiques descriptives de base.

    Cordialement.
  • Bonjour JMA,

    En parcourant la littérature sur le chi2, je constate qu'il y a bien, et c'est normal, des questions d'échantillon minimum pour pouvoir effectuer ce test. On parle de 50 (ou 30). Dans mon jeu de donnée, il y a beaucoup de Xij petits, proches de 1.. S'agit-il de cela?

    Je peux diminuer mon nombre de lignes, et augmenter mes Xij, en faisant des classes plus importantes. Par exemple en faisant des classes d'habitats comme ci-dessous.

    Ce type de données vous parait-elle plus adapté à un test d'indépendance?
    Hab	he	ho
    A	1	22
    B	13	23
    C	18	32
    D	4	17
    E	18	8
    


    Voici le résultat:
    > chisq.test (data2)
    
    	Pearson's Chi-squared test
    
    data:  data2
    X-squared = 25.401, df = 4,
    p-value = 4.178e-05
    
    > chisq$residuals
              he         ho
    A -2.4672135  1.7951615
    B  0.1525348 -0.1109853
    C  0.1664101 -0.1210811
    D -1.2125547  0.8822632
    E  3.0000000 -2.1828206
    
    > colSums(chisq$residuals)
            he         ho 
    -0.3608234  0.2625376 
    

    Ce qui conclurait à rejeter Ho, et à conclure sur l'existence de relation entre les lignes et les colonnes. Les résidus (ou autres) me permettraient-ils d'interpréter la direction que peut prendre cette relation?

    Si vous pensez que j'insiste trop à faire parler ces données, alors qu'elles n'en ont pas le potentiel, n'hésitez pas à me le dire :).
    Encore une fois, merci.
    Bien cordialement,
    Samuel
Connectez-vous ou Inscrivez-vous pour répondre.