Choix de test gros échantillons

tomyboy · November 2020

Bonjour à tous

Dans le cadre de mon travail, je dessine des cartes d'atterrissage pour permettre à des hélicoptères de se poser sur des hôpitaux par mauvais temps. Pour ce faire, je dois analyser beaucoup de données météo de 2 stations (une station de référence, et une autre plus proche de l'hôpital).
Chacune des 2 stations a environ 43000 données et je dois déterminer si la différence entre ces 2 échantillons est significative.

Je penchais vers un test de Student mais il semble qu'il n'est pas adapté aux gros échantillons. Je pense donc à un test de Welch.
Que feriez-vous à ma place ?
D'avance, merci pour vos lumières :-)
Thomas.

gerard0 · November 2020

Bonsoir.

le test de Welch aura, à vue de nez, le même problème que celui de Student : Pour des populations très importantes, le t aura un dénominateur très petit (sauf si les deux échantillons sont vraiment très dispersés) donc sera systématiquement très grand en valeur absolue; le test sera donc toujours significatif. C'est le problème des grands échantillons.
Question : Pourquoi tant de données ? 43000 données permettent une comparaison complète de ce qui s'est passé entre les stations sur une certaine période (statistiques descriptives) : fréquence des différences nettes, lien éventuel avec le calendrier, ... mais ne peuvent permettre d'en tirer des conséquences sur ce qui va se passer dans l'avenir que sous la condition : tout se passera désormais comme auparavant. A moins qu'une analyse temporelle soit possible et qu'elle mette en évidence une tendance.
Question subsidiaire : est-ce vraiment une échantillon représentatif (pris au hasard) ?

Cordialement.

tomyboy · November 2020

Bonsoir Gérard, et merci pour votre réponse,

J'avais cette intuition pour le test de Welch, c'est bien ce qui m'inquiétait... Malheureusement, je n'avais que l'intuition, je ne suis pas vraiment un mathématicien aguerri…
L'échantillon aussi gros n'est qu'arbitraire, Météo France me fourni les données que je leur demande, et il s'agit des relevés de chaque heure depuis les 5 dernières années. 5 ans me paraissaient suffisantes pour justement pouvoir proposer que "tout se passera désormais comme auparavant".
C'est selon moi un échantillon suffisamment grand selon les standards météo (et les règles que l'on utilise pour créer ce genre de routes) pour qu'il soit jugé représentatif, mais il n'en est pas forcément "stable". La température par exemple varie entre les étés et les hivers...
Peut-être devrais-je plutôt traiter beaucoup de petits échantillons, qu'en pensez-vous ?

gerard0 · November 2020

Il va falloir commencer à trier avec tes données entre ce que tu veux faire et ce que tu peux faire.
Ce que tu veux faire : A quoi te sert de savoir qu'il y a 1% de différence de nébulosité. Et pourtant, si c'est systématique, et systématiquement dans le même sens, tu sais que la différence est très nette ("significative" n'a pas de sens dans cette situation, il ne s'agit pas de résultat aléatoire d'un test, mais d'une réalité concrète).
Ce que tu peux faire : Quel est le but de cette analyse de données ? Si c'est de faire un test, tu fais du Student et ce sera significatif (toujours avec des échantillons déraisonnables). Ça ne sert à rien, mais tu as trouvé "une différence significative".

Au vu de ce que tu disais au départ, j'orienterais mon analyse sur la recherche des cas où il peut y avoir un problème d'atterrissage; sur l'un ou l'autre des sites. Ce qui réduit fortement la taille des données (à moins que les sites soient systématiquement perturbés). Puis je ferais une analyse descriptive : fréquence annuelle des cas, comparaison entre les sites, corrélation entre les problèmes. J'y joindrais une analyse de fréquence des cas dans l'ensemble des données, sans doute une étude temporelle : séries des problèmes mois par mois, variations saisonnières, recherche d'une tendance.

Mais quand je dis cela, c'est sans connaître la situation réelle. Évidemment, s'il s'agit de comparer le site de l'hôpital militaire de Brest (tempêtes, crachin, jamais de gel) avec celui de Briançon (300 jours de soleil par an, d'importantes chutes de neige), ce que j'ai écrit n'a plus aucun intérêt. mais une étude avec test non plus, c'est enfoncer les portes ouvertes. J'ai pensé que les deux situations étaient à priori peu différentes.

Cordialement.

NB : Les stats appliquées, c'est cela : très peu de maths, beaucoup de connaissances sur la situation.

tomyboy · November 2020

Oui, je vais donner un peu de contexte pour mieux comprendre ce que je veux faire alors.

Il y a un aéroport avec une station météo co-implantée. A 4km de là, il y a l'hélistation de l'hôpital et juste après, une deuxième station météo, mais qui est "isolée". La station météo de l'aéroport est reliée aux écrans des contrôleurs aériens et le pilote peut donc connaitre les infos météo grace à sa radio.
Mais la station météo proche de l'hôpital n'est reliée à rien, il n'est donc pas possible de connaitre "sa" météo.

Montrer que les infos des 2 stations sont identiques ( à un delta près) permettrait d'approximer la situation météo à l'hôpital grace à la station de l'aéroport.

C'est ce que je veux faire.

gerard0 · November 2020

Donc c'est bien la situation que je disais. En général, les deux stations ont à peu près le même temps, et ce qui importe c'est de connaître, à partir de la situation à l'aéroport, la météo à l'hôpital. Donc savoir que les météos sont significativement différentes n'apporte rien; savoir que le teste de comparaison n'est pas significatif n'apportera rien non plus !!

Cordialement.

tomyboy · November 2020

Oui, tout à fait, je pensais qu'il était possible de monter que les météos étaient justement significativement identique...

gerard0 · November 2020

"significativement identique" correspond à un type de test que je ne connais pas. Il faudrait que l'hypothèse H₁ soit "identique" (*), et le définir correctement, vu qu'il s'agit de mesures, généralement imprécises. D'autre part, comment donner un modèle d'une situation basée sur H₀ : "les météos sont différentes". Il y a tellement de façons d'être différent !

Cordialement.

(*) "significativement" veut dire que le test échoue, que la valeur test est en dehors de l'intervalle d'acceptation, dans une zone qui a, H₀ étant parfaitement vérifiée, une faible chance d'arriver, 5%, par exemple.

Choix de test gros échantillons

Réponses

Bonjour!

Catégories

In this Discussion

Qui est en ligne 1