AFC pour développement méthodologique
dans Statistiques
Bonjour à tous,
# Analyse multivarié
# AFC
# Biostatistiques
Quels tests statistiques s'appliquent à mes questions et à mes données?
Je travail sur 156 mailles de 1 ha au sein duquel on a relevé 3 types de données. Le premier est l'habitat (hab), et les deux autres présences d'hétérogénéité (he) ou d'homogénéité (ho) d'habitat au sein de ces mêmes mailles. Les données sont donc le nombre de mailles pour chaque critères d'hétérogénéité ou homogénéité par type d'habitat.
Sur la base des données ci-dessous, un exemple:
L'habitat E0 est présente sur 16 mailles dites "hétérogènes", et 6 mailles dites "homogènes".
Il y a t-il une relation particulière entre type d'habitat et critères d'hétérogénéités? Quelles sont liens de proximité ou dissimilarité présentes au sein du tableau de contingence ci-dessous ?
Plus concrètement, j'aimerai savoir si les habitats permettent de mesurer l'hétérogénéité du milieu ou pas...
Le code sur R.
Les messages d'erreurs que je reçois me font comprendre qu'il ne s'agit pas d'une AFC... mais de quel(s) test(s) peux t-il s'agir?
Je penses que pour un statisticien, l'identification du test, ou des incohérences dans mon résonnement sera assez facile à identifier. Pour moi, c'est plus difficile.
C'est mon premier message sur ce forum.
D'avance merci à tous!
Samuel
# Analyse multivarié
# AFC
# Biostatistiques
Quels tests statistiques s'appliquent à mes questions et à mes données?
Je travail sur 156 mailles de 1 ha au sein duquel on a relevé 3 types de données. Le premier est l'habitat (hab), et les deux autres présences d'hétérogénéité (he) ou d'homogénéité (ho) d'habitat au sein de ces mêmes mailles. Les données sont donc le nombre de mailles pour chaque critères d'hétérogénéité ou homogénéité par type d'habitat.
Sur la base des données ci-dessous, un exemple:
L'habitat E0 est présente sur 16 mailles dites "hétérogènes", et 6 mailles dites "homogènes".
Il y a t-il une relation particulière entre type d'habitat et critères d'hétérogénéités? Quelles sont liens de proximité ou dissimilarité présentes au sein du tableau de contingence ci-dessous ?
Plus concrètement, j'aimerai savoir si les habitats permettent de mesurer l'hétérogénéité du milieu ou pas...
Format tableur (code reproductible R ci-dessous) Hab he ho E0 16 6 C1Y 3 15 C1X 7 7 B2Y 3 9 B1X 7 4 A1X 0 10 C2 6 4 D1X 1 9 A1Z 1 7 B1Y 2 6 D1Y 1 4 A1Y 0 4 C0 2 2 C3 0 4 B3 0 3 D0 1 2 D3 1 2 E1X 1 2 B2X 1 1 A2Z 0 1 E3 1 0
Pour R data<-structure(list(hab = structure(1:21, .Label = c("A1X", "A1Y", "A1Z", "A2Z", "B1X", "B1Y", "B2X", "B2Y", "B3", "C0", "C1X", "C1Y", "C2", "C3", "D0", "D1X", "D1Y", "D3", "E0", "E1X", "E3" ), class = "factor"), he = c(0L, 0L, 1L, 0L, 7L, 2L, 1L, 3L, 0L, 2L, 7L, 3L, 6L, 0L, 1L, 1L, 1L, 1L, 16L, 1L, 1L), ho = c(10L, 4L, 7L, 1L, 4L, 6L, 1L, 9L, 3L, 2L, 7L, 15L, 4L, 4L, 2L, 9L, 4L, 2L, 6L, 2L, 0L)), class = "data.frame", row.names = c(NA, -21L))
Le code sur R.
res.ca <- CA (data2, graph = FALSE) summary(res.ca) Call: CA(X = data2, graph = FALSE) The chi square of independence between the two variables is equal to 44.95003 (p-value = 0.001120815 ). Eigenvalues Error in dimnames(x) <- dn : la longueur de 'dimnames' [1] n'est pas égale à l'étendue du tableau
Les messages d'erreurs que je reçois me font comprendre qu'il ne s'agit pas d'une AFC... mais de quel(s) test(s) peux t-il s'agir?
Je penses que pour un statisticien, l'identification du test, ou des incohérences dans mon résonnement sera assez facile à identifier. Pour moi, c'est plus difficile.
C'est mon premier message sur ce forum.
D'avance merci à tous!
Samuel
Réponses
-
Bonsoir,
Une AFC n'aurait pas grand sens avec le peu de modalités de tes données. Pour résoudre ton problème, il faudra s'appuyer sur le chi-deux. Est-ce qu'il n'a pas d'indices d'homogénéité comme l'indice de Simpson ou de Gini souvent utilisés en Biostatistique ?
Cordialement. -
Bonjour JMA,
Merci beaucoup pour votre réponse qui confirme bien ce que je pensais.
Votre message me permet d'avancer même s'il faut que j'abandonne l'AFC (que je garde pour plus tard)
Si je puis me permettre d'abuser de votre disponibilité, accepteriez-vous de suivre mon résonnement dans la mise en place du test?
Je considère l'Hypothèse Null suivante. Ho= Il n'y a pas de différence significative entre mes deux critères d'hétérogénéités. En d'autres termes, mes habitats, ont autant de chance d'être homogène ou hétérogène.
Grâce à R j'obtiens cela:> chisq.test (data2) Pearson's Chi-squared test data: data2 X-squared = 44.95, df = 20, p-value = 0.001121 Warning message: In chisq.test(data2) : l'approximation du Chi-2 est peut-être incorrecte
J'obtiens une p-value inférieur à 5% pour un Chi2 de 44,95 à 20 ddl. Je peux donc rejeter l'hypothèse nulle et considérer qu'il y a bien moins de cinq chances sur 1000 de me tromper en déclarant qu'il y a bien un lien entre habitat et critère d'hétérogénéité.
En d'autres termes, touts ou parties de mes habitats définissent une hétérogénéité ou une homogénéité?
Ce résonnement est-il juste?
Pensez-vous que je puisses pousser d'avantage mon interprétation en observant les résidus du test?
[code]
> chisq$residuals
he ho
A1X -1.86052102 1.35372788
A1Y -1.17669681 0.85617269
A1Z -1.06317538 0.77357371
A2Z -0.58834841 0.42808634
B1X 1.63596430 -1.19033887
B1Y -0.46225016 0.33633640
B2X 0.36980013 -0.26906912
B2Y -0.56613852 0.41192628
B3 -1.01904933 0.74146730
C0 0.52297636 -0.38052120
C1X 0.97839918 -0.71188997
C1Y -1.29430046 0.94174191
C2 1.36438208 -0.99273378
C3 -1.17669681 0.85617269
D0 -0.03774257 0.02746175
D1X -1.32303717 0.96265094
D1Y -0.55547008 0.40416385
D3 -0.03774257 0.02746175
E0 3.03834597 -2.21072142
E1X -0.03774257 0.02746175
E3 1.11132477 -0.80860754
> colSums(chisq$residuals)
he ho
-2.177719 1.584523
[code]
Lorsque je somme les résidus de mes deux colonnes, je constate que Ho est supérieur à He. Quelle interprétation pourrions-nous oser faire?
Par la suite, j'investiguerai sur la possibilité de décrire plus précisément les liens entre certains de ces habitats et le critère (si cela est possible).
Je ne suis pas certains de bien connaitre les tests d'homogénéité dont vous parlez mis à part celui le Simpson qui est d'avantage utilisé pour mesurer la diversité spécifique au sein d'un échantillon, d'une population.
Merci!!
Bien cordialement,
Samuel -
Bonjour
Je reviendrais vers toi dès que possible.
Cordialement. -
Bonsoir,
Le test du chi-deux n'est pas applicable à cause de trop faibles effectifs du tableau de contingence. Personnellement, je ne vois pas trop comment répondre à tes questions avec des méthodes élaborées parce qu'il n'y a pas assez de renseignements (même si ceux que tu donnes t'ont sûrement coûtés). Pour ce que tu présentes, il faudrait peut-être l'aborder de manière plus "qualitative" et utiliser des statistiques descriptives de base.
Cordialement. -
Bonjour JMA,
En parcourant la littérature sur le chi2, je constate qu'il y a bien, et c'est normal, des questions d'échantillon minimum pour pouvoir effectuer ce test. On parle de 50 (ou 30). Dans mon jeu de donnée, il y a beaucoup de Xij petits, proches de 1.. S'agit-il de cela?
Je peux diminuer mon nombre de lignes, et augmenter mes Xij, en faisant des classes plus importantes. Par exemple en faisant des classes d'habitats comme ci-dessous.
Ce type de données vous parait-elle plus adapté à un test d'indépendance?Hab he ho A 1 22 B 13 23 C 18 32 D 4 17 E 18 8
Voici le résultat:> chisq.test (data2) Pearson's Chi-squared test data: data2 X-squared = 25.401, df = 4, p-value = 4.178e-05 > chisq$residuals he ho A -2.4672135 1.7951615 B 0.1525348 -0.1109853 C 0.1664101 -0.1210811 D -1.2125547 0.8822632 E 3.0000000 -2.1828206 > colSums(chisq$residuals) he ho -0.3608234 0.2625376
Ce qui conclurait à rejeter Ho, et à conclure sur l'existence de relation entre les lignes et les colonnes. Les résidus (ou autres) me permettraient-ils d'interpréter la direction que peut prendre cette relation?
Si vous pensez que j'insiste trop à faire parler ces données, alors qu'elles n'en ont pas le potentiel, n'hésitez pas à me le dire .
Encore une fois, merci.
Bien cordialement,
Samuel
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 165.1K Toutes les catégories
- 59 Collège/Lycée
- 22.1K Algèbre
- 37.5K Analyse
- 6.3K Arithmétique
- 58 Catégories et structures
- 1.1K Combinatoire et Graphes
- 13 Sciences des données
- 5.1K Concours et Examens
- 20 CultureMath
- 51 Enseignement à distance
- 2.9K Fondements et Logique
- 10.7K Géométrie
- 83 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 79 Informatique théorique
- 3.9K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 24 Mathématiques et finance
- 337 Mathématiques et Physique
- 5K Mathématiques et Société
- 3.3K Pédagogie, enseignement, orientation
- 10.1K Probabilités, théorie de la mesure
- 801 Shtam
- 4.2K Statistiques
- 3.8K Topologie
- 1.4K Vie du Forum et de ses membres