"Pairwise distances" et ré-échantillonnage

Leandro · November 2020

Bonjour,

Dans tout ce qui suit on travaille en bivarié : deux variables $X$, $Y$ sont mesurées sur chaque individu.

Imaginons qu'on dispose d'un groupe de référence, connu, de taille suffisante. Imaginons également qu'on ait un autre groupe "cible" constitué de seulement deux individus, et il est matériellement impossible de simplement aller récolter plus d'individus pour ce groupe-là.
On constate que dans le groupe cible, les deux individus sont très distants l'un de l'autre, alors que de telles distances inter-individuelles sont très rares dans le groupe de référence. Ce fait interpelle, mais parler de comparer des variabilités quand un des groupes n'a que deux individus est évidemment un peu problématique.

Faute de mieux, est-il fondé de suivre la démarche suivante pour tenter de prouver que la variabilité dans la population sous-jacente du "groupe cible" est plus élevée que dans la population sous-jacente du groupe de référence ?

Piocher $B$ paires d'individus dans le groupe de référence
Pour chaque paire d'individus de référence, calculer la distance entre les deux individus
Établir un intervalle (empirique) comprenant les 90 ou 95% de distances les plus "centrales"
Comparer la distance observée entre les deux individus cibles et cette plage du groupe de référence, puis conclure.

Question subsidiaire : comment formuler l'hypothèse testée en procédant ainsi ? Est-il recevable de définir la "variabilité" des groupes par la distance usuellement observée entre deux individus choisis au hasard, et de comparer cet indicateur-là ? (Je sais qu'il existe un lien direct entre l'inertie d'un nuage de points et la somme des distances entre tous les individus deux à deux, donc je suppose que oui...)

Merci !

gerard0 · November 2020

Bonjour.

Je ne comprends pas trop ce que tu veux justifier (*). Si ton groupe cible est constitué de ces deux individus, tu sais déjà qu'il est particulier, tu l'as bien remarqué. par contre, après avoir dit qu'il est constitué de ces deux individus, tu dis " impossible de simplement aller récolter plus d'individus pour ce groupe-là", ce qui laisse entendre qu'il pourrait y avoir une population plus grande.

Si la population cible est seulement ces deux individus, tu as fini. La comparaison est quasi directe, puisque pour cette population, tu as tous les résultats.
S'il s'agit seulement d'un échantillon de deux sur une population plus grande, nécessairement biaisé ("matériellement impossible de simplement aller récolter plus d'individus pour ce groupe-là"), toute manipulation sur l'autre échantillon laisse inchangé l'absence d'un échantillon suffisant pour pouvoir en faire un représentant de sa population. Tu es dans une situation trop limite pour faire des stats.

Enfin, si tu veux comparer la distance entre tes deux individus à la distance moyenne dans ton échantillon, inutile de faire du Monte Carlo, tu calcules la distance moyenne entre deux individus directement. Un tirage au sort n'aurait d'intérêt que si l'échantillon est immense, et encore, dans ce cas, on tirerait plutôt un sous échantillon.

Cordialement.

(*) j'avais envie d'utiliser "démontrer", mais on ne démontre rien en stats.

Leandro · November 2020

Bonjour,

Merci pour ta réponse !
Oui, le second groupe constitué de deux individus seulement est également un échantillon issu d'une plus grande population inconnue (désolé si ce n'était pas clair).

gerard0 écrivait:

> Enfin, si tu veux comparer la distance entre tes deux individus à la distance moyenne dans ton
> échantillon, inutile de faire du Monte Carlo, tu calcules la distance moyenne entre deux individus
> directement. Un tirage au sort n'aurait d'intérêt que si l'échantillon est immense, et
> encore, dans ce cas, on tirerait plutôt un sous échantillon.

Oui, effectivement... Dans ce cas, il suffirait de calculer l'ensemble des distances inter-individuelles dans le groupe de référence, et de positionner la distance entre les deux individus cibles au sein de cette distribution ? (Donc faire la même démarche, mais exhaustivement plutôt que par rééchantillonnage)

Merci !

gerard0 · November 2020

Dans ce cas, difficile de parler de comparaison statistique.

"je suis plus grand que la moyenne des gens de ma génération". Puis-je en déduire statistiquement que ma famille est une famille de "grands" ?

Cordialement.

"Pairwise distances" et ré-échantillonnage

Réponses

Lettre d'information