Chez moi, il fait beau aux 17 janvier

Bonjour,

Via mon installation de production d'électricité photovoltaïque, je collecte la production quotidienne depuis juillet 2010.
En particulier, j'analyse la production de chaque journée en fixant une date dans le calendrier annuel. Par exemple, voici les productions (en kWh) des journées entre les 7 et 27 janvier de 2011 à 2020.
k7bm.gif

En couleur, à droite, je fais figurer la moyenne de production sur ces neuf années. On voit clairement une date sortir du lot : le 17 janvier, dont la production moyenne est grosso-modo le double des productions quotidiennes des 10 jours suivants et 10 jours précédents (analyse sur une plage de trois semaines). Cette situation m'a donc interpellé. Bien entendu, avant de m'attarder sur le 17 janvier, je n'avais pas de date favorite, pas d'a priori. C'est donc suite à une étude de toutes les dates du calendrier que j'ai repéré le 17 janvier. C'est donc a posteriori que je fais focus sur le 17 janvier. J'ai voulu savoir si ce résultat est statistiquement significatif ou pas.

Ne connaissant pas de manière théorique la distribution des productions quotidiennes (*), je me suis rabattu sur l'étude des rangs (figurant en dernière ligne) qu'occupe le 17 janvier parmi les 21 productions de la même année : en clair,
-- le rang 1 désigne la production la plus basse, 21 la production la plus haute sur trois semaines ;
-- le 17 janvier 2011 occupe le 16 ème rang en 2011 (ie bonne production) ;
-- le 17 janvier 2012 occupe le 21 ème rang en 2012 (ie la production la plus élevée pendant ces trois semaines en janvier 2012) ;
-- le 17 janvier 2013 occupe le 21 ème rang en 2013 (idem en 2013) ;
etc .
Et enfin, le "rang moyen" du 17 janvier sur ces trois semaines est 18.33 . Très élevé, comme on s'en doutait.
Reste à savoir s'il est étonnant de trouver un tel "rang moyen" sur l'ensemble des 365 jours de l'année...

Pour cela, j'ai fait une simulation statistique de l'expérience suivante :
je tire 9 entiers (9 "rangs") aléatoirement avec loi uniforme entre 1 et 21 et calcule la moyenne ("rang moyen") de ces 9 entiers ;
je collectionne 365 "rangs moyens" (car il y a 365 jours dans une année) et je regarde le "rang moyen" le plus élevé de l'année, que j'appelle "rang moyen quotidien, maximal annuel (RMQMA) " (un peu long , pardon) ;
et cela, pour 100 000 années, pour obtenir une liste de 100 000 "RMQMA"...
Enfin, je regarde le classement du "RMQMA" observé sur mes données, à savoir celui du 17 janvier, avec la valeur 18.33.

Après cette simulation statistique, je constate que 18.33 est à la hauteur des 1.5% "RMQMA" les plus élevés obtenus par simulation.
Code Maple :
restart :
 
 tir := () -> add( rand(1..21)(), i=1..9)/9. :  # un rang moyen
 an := () -> max( seq(tir(), i=1..365) ) :  # un RMQMA
 L := sort([seq( an() , i=1..100000)]) :  # une liste ordonnée de 100 000 RMQMA
 
L[ceil(.98*nops(L))] ; L[ceil(.985*nops(L))] ; L[ceil(.99*nops(L))] ; L[ceil(.995*nops(L))] ;
Résultat statistique de la simulation :
18.22 est à hauteur des 2% des "RMQMA" les plus élevés ;
18.33 est à hauteur des 1.5% des "RMQMA" les plus élevés ;
18.44 est à hauteur des 1% des "RMQMA" les plus élevés ;
18.66 est à hauteur des 0.5% des "RMQMA" les plus élevés ;

La conclusion que j'en tire, c'est qu'il y a un phénomène particulier (probabilité de 1.5% ! ) quelque part dans tout ça...

Que pensez-vous de ma démarche ? en voyez-vous une autre ? ou, au contraire, il n'y a rien à en tirer ?

Merci d'avoir eu le courage de lire jusqu'ici.

(*) Ce n'est ni une distribution normale, ni uniforme, ni exponentielle, etc. etc.

PS. je peux envoyer le fichier de données si nécessaire (sur les trois semaines, ou les années complètes).

EDIT : Pour toute personne qui aurait du temps de voir cela aussi, voici un lien pour télécharger un .zip contenant les 9 fichiers de production des mois de janvier 2012 à 2020 : https://www.petit-fichier.fr/2020/10/13/janvier2012-2020/

Réponses

  • Bonjour.

    Tu es tombé sur le piège de la justification à postériori. Celui qui donne la célèbre "loi des séries".
    Il est vrai qu'il a fait nettement plus beau les 17 janvier 2012, 2013, 2016, 2017 et 2018 que les 16 et 18 janvier de ces années là.
    Ta simulation n'est pas la bonne, car ce n'est qu'en comparaison des 21 jours que le rang du 17/1 est élevé. Il te faudrait faire tes simulations, puis prendre toutes les tranches de 21 jours et voir si tu trouves des jours avec des rangs souvent élevés. Je pense que tu trouverais que ça arrive assez régulièrement.

    Cordialement.
  • Merci Gérard pour ton intérêt.

    Comme simuler la production électrique me parait bien compliquée (vu que je ne connais pas la loi de probabilité en fonction des jours), je me suis rabattu sur une quantité plus simple à gérer : le rang.

    J'ai fait des simulations de rangs par tranches de 21 jours (dans la première ligne de code Maple). Mais il est vrai que dans ma simulation, toutes les tranches de 21 jours sont indépendantes les unes des autres. Or ce n'est pas la cas dans la réalité.

    Tu dis :
    << Ta simulation n'est pas la bonne, car ce n'est qu'en comparaison des 21 jours que le rang du 17/1 est élevé. Il te faudrait faire tes simulations, puis prendre toutes les tranches de 21 jours et voir si tu trouves des jours avec des rangs souvent élevés. >>

    Faire des simulations, ok, mais suivant quel protocole ?
  • Je ne sais pas, et (désolé) je ne vais pas y consacrer des efforts, car je suis persuadé qu'il s'agit d'une "loi des séries".

    Cordialement.
  • Qu'appelles-tu une "loi des séries" ?

    La nuit porte conseil : comme tu l'as suggéré, j'ai repris une autre manière de faire des simulations, en générant aléatoirement des productions quotidiennes tenant compte des minima, maxima, moyenne, ecart-type quotidiens empiriques. En clair, à vue d'oeil, on ne voit pas trop de différences entre les vrais relevés produit par mon onduleur, et les simulations.

    Et là, ce "RMQMA" d'une valeur de 18.33 est un phénomène pas si banal. A voir...
  • On appelle "loi des séries" la constatation du fait que trois (ou plus) événements rares se sont produits sur une courte période. Par exemple trois accidents d'avions commerciaux en l'espace de 2 mois. Bien évidemment, si la période est longue, on ne fait pas le rapprochement.
    Cette erreur de point de vue vient du fait qu'on est incapable de sentir intuitivement ce qu'est l'aléatoire. On est d'ailleurs incapable de simuler une suite aléatoire à la main (en général trop peu de sous-séries surprenantes); et qu'inversement, notre cerveau est habitué à faire apparaître des schémas (reconnaître des visages) et à théoriser sur des petites séries (induction, au sens des philosophes); quitte à se tromper (des visages dans les nuages, la Vierge sur une pizza,..).

    Cordialement.
  • ok ! merci pour cette précision.
  • Bonjour

    C'est justement parce que j'ai bien conscience que notre intuition a parfois du mal à appréhender les situations aléatoires, que je prends soin de faire des simulations (à défaut d'avoir une réflexion théorique). J'ai bien compris également qu'il est délicat de faire de bonnes simulations quand on n'a pas saisi le point délicat et essentiel précisant où et comment le hasard joue. Et pourtant, malgré toutes mes précautions dans mes simulations et calculs statistiques, il se trouve qu'un "RMQMA" d'une valeur d'au moins 18.33 a une probabilité < 1.5% , ce qui , en sciences expérimentale, est largement suffisant pour se poser des questions. Et j'en suis toujours à ce point là.

    Bonne journée.
  • On avait discuté de cela ici : https://www.maths-forum.com/cafe-mathematique/chez-moi-fait-toujours-beau-janvier-t214427-20.html
    Il me semble que dans la discussion l'idée de prendre une loi uniforme n'était pas bonne, non ?

    [Correction du lien. AD]
  • Oui, et depuis, il y a une année supplémentaire... :)

    Tu évoques la loi uniforme (car je choisis un rang entre 1 et 21, selon la loi uniforme, c'est vrai).
    Alors je précise que la production électrique quotidienne ne suit pas une loi uniforme, mais une loi de probabilité "bizarre de la nature".

    Mais considérer le rang permet justement de s'affranchir de déterminer la loi de probabilité "bizarre de la nature" pour faire une simulation. En effet, si on veut tirer au hasard une production électrique pour une journée (par exemple le 17 janvier), on peut piocher au hasard parmi toutes les productions répertoriées (et triées par ordre croissant) dans la période de temps autour de cette journée (par exemple entre le 7 et le 27 janvier).

    Je rappelle aussi que,
    si x_1, ...., x_n sont des réalisations indépendantes d'une même expérience (de loi de probabilité continue),
    alors Rang( x_i ) / n tend presque surement vers P( X < x_i ) quand n tend vers l'infini. C'est pourquoi le Rang permet, d'une certaine manière, de s'affranchir de la loi de probabilité "bizarre de la nature".

    Par ailleurs, tu m'avais fait remarqué que la dépendance d'une journée à l'autre n'est pas négligeable. Et cela, il faut aussi l'intégrer dans les simulations...
  • Le pire est que, plus j'essaie de faire des simulations collant à la réalité (en tout cas, celle observée dans les fichiers de production), plus la probabilité d'observer un tel phénomène diminue.

    Pour toute personne qui aurait du temps de voir cela aussi, voici un lien pour télécharger un .zip contenant les 9 fichiers de production des mois de janvier 2012 à 2020 :
    https://www.petit-fichier.fr/2020/10/13/janvier2012-2020/
Connectez-vous ou Inscrivez-vous pour répondre.