Quelles lois de probabilité pour des phénomènes donnés ?

Bonjour
Ante-Scriptum : ma question me semble davantage liée aux probabilités qu'à la statistique, ce pourquoi je souhaiterais que ce sujet ne soit pas déplacé dans le coin "statistique" du forum même si le mot "statistique" va apparaître dans mon propos. En fait je me questionne davantage sur les lois de probabilité plutôt que sur des méthodes statistiques.

Existe-t-il des références auxquelles se reporter pour déterminer globalement par quel type de loi on peut espérer représenter un phénomène ? En-dehors des phénomènes de type "tirage de boules avec et sans remise", loi d'attentes, et loi exponentielle, y a-t-il des annuaires pouvant suggérer des liens entre des phénomènes donnés et des lois ?

Existe-t-il un genre d'annuaire, ou des travaux, purement empiriques, reliant des phénomènes réels aux lois, dans lequel, par exemple, on pourrait lire (j'écris n'importe quoi mais c'est pour me faire comprendre) : 
"Pour modéliser la durée de vie d'un ordinateur, on peut espérer utiliser la loi exponentielle ; la production annuelle de ressources dans un secteur donné (bois, minerai) peut quant à elle être approchée par une loi Gamma ; en physique, tel phénomène sera plutôt décrit par une loi de Poisson dans tel cas, avec telles subtilités dans tels sous-cas, et plutôt la loi de Conway-Maxwell-Poisson dans cet autre cas." etc. ?

Si nous est donnée, par exemple, une série statistique du nombre de poissons pêchés chaque année dans un lac. La théorie de l'inférence statistique nous dit que si on suppose que le phénomène peut être décrit par une loi $P_{(\ell_1,\ell_2,\ell_3)}$, alors on peut déterminer les paramètres $(\ell_1,\ell_2,\ell_3)$ intervenant dans l'expression de la loi d'après les seules informations de la série statistique. Mais comment diable peut-on espérer trouver le "type de loi" que suit la variable aléatoire représentant le nombre de poissons pêchés chaque année ?

Réponses

  • Bonjour. 

    Il existe effectivement des travaux sur l'utilisation de telle ou telle loi pour modéliser des phénomènes concrets. Mais on ne les trouvera pas en probas, mais en statistique, en sciences de l'ingénieur, en physique, etc.
    Par exemple, en fiabilité, on utilise la loi exponentielle pour les dispositifs sans vieillissement, et la loi de Weibull dans le cas général. 
    Mais bien sûr, il ne s'agit pas de preuve mathématique. 

    Cordialement 
  • Le choix de telle ou telle loi peut se justifier mathématiquement dans certains cas: pour la loi exponentielle il y a un résultat qui dit que c'est la seule loi sans mémoire (i.e. $X$ est positive et telle que $P(X \geq s+t|X\geq s)=P(X\geq t)$ pour tous $s,t\geq 0$).
    Le choix des gaussiennes se justifie lorsque le phénomène envisagé peut être vu comme un réel ou un vecteur somme d'un grand nombre de valeurs aléatoires indépendantes.
    Ceci ne dispense pas de vérifier que les hypothèses des théorèmes employées sont vérifiées ou au moins crédibles lors de l'application du résultat mathématique à une situation réelle (par exemple lorsqu'une distribution ne vérifie pas la loi de Gauss en raison du fait que dans la situation réelle envisagée les chocs ne sont pas indépendants, comme dans le cas d'actifs financiers qui perdent rapidement leur valeur, ce ne sont pas les mathématiques qui sont en cause dans l'échec de la modélisation).
    Une fonction est un ensemble $f$ de couples tel que pour tous $x,y,z$, si $(x,y)\in f$ et $(x,z)\in f$ alors $y = z$.
  • Merci de vos réponses. Auriez-vous une idée de loi(s) pour modéliser un phénomène croissant ? Comme le nombre de nouveaux bateaux sur les mers, le nombre de satellites dans l'espace, le nombre de naissances chaque année, le nombre de forêts détruites chaque année, la fréquence des ouragans. Bref des lois pour des "ensembles" croissants.
  • Je me souviens d'une discussion sur un sujet similaire : le nombre de personnes ayant un accès à internet. Comment modéliser ça ? (je pense que le mot modéliser est particulièrement adapté pour ta question, beaucoup plus adapté que le mot probabilité).  
    Le type qui se posait la question bâtit des lois, il fait des choix ...  et il arrive à un modèle qui dit qu'en 2030, 20 milliards d'humains seront connectés à Internet. Sachant qu'on prévoit peut-être 10 milliards d'humains en 2030 !!
    Dans ta question sur les forêts détruites, attention à ne pas tomber dans la même erreur. 

    Il faut vraiment blinder le modèle, pour dire des choses réalistes.
    Pour le nombre de satellites dans l'espace, tu peux étudier la suite Sn = Nombre de satellites présents dans l'espace au jour n, mais tu peux aussi étudier la suite Ln= Nombre de satellites lancés mois par mois.  Peut-être que cette suite là est plus facile à modéliser.

    Par ailleurs, tu as dit au départ que tu voulais absolument poster ce sujet dans la rubrique probabilités, et c'est là l'erreur.
    Pour ces phénomènes, tu as des données à disposition, les données des 50 dernières années par exemple. 
    Tu as les données. Point final.  On ne parle pas du tout de probabilité.
    Si tu veux modéliser les données, pour prévoir l'évolution dans les 5 ou 10 prochaines années, très vite, on n'est pas du tout dans le domaine des probabilités, mais dans celui de l'expertise sur un domaine.

    Le nombre de naissances ... C'est lié directement au taux de fécondité. En Europe, le taux de fécondité est passé de 7 ou 8 enfants par femme il y a 2 siècles à 2 . Pourquoi ?   Est-ce que le taux de fécondité va suivre la même évolution dans les pays en voie de développement ? A quelle échéance ?
    Pour analyser sérieusement le nombre des naissances au niveau monde, tu dois absolument découper le monde en 4 ou 5 zones géographiques plus ou moins homogènes.

    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • gerard0
    Modifié (November 2021)
    Et attention aux fausses mathématisations de situations, qui utilisent des hypothèses aussi fortes que leur conclusion, voire fausses. Je pense en particulier à la "preuve mathématique" du fait que le nombre d'arrivées de nouveaux appels dans un central téléphonique suit une loi de Poisson. L'hypothèse d'indépendance des appels est évidemment fausse (on ne peut pas appeler pendant qu'on téléphone !), et pourtant la modélisation est efficace, utilisée journellement.
    C'est le problème des modélisateurs : une modélisation peu rigoureuse peut donner un excellent modèle, et une modélisation très précise peut ne rien donner d'utile.

    Cordialement.
  • attention aux fausses mathématisations de situations, qui utilisent des hypothèses aussi fortes que leur conclusion, voire fausses


    @gerard0 : Ben, d'une certaine façon, tout théorème utilise des hypothèses aussi fortes que sa conclusion (il n'y a pas de "substance émergente", puisqu'on ne fait qu'enchaîner des utilisations d'axiomes). Et je dirais que toute modélisation utilise des hypothèses fausses. Bref, je pense que tu es un peu trop catégorique : de tels comportements ne sont pas problématiques en soi.


    @Hob___ : Mon avis est le suivant (mais bon, je n'y connais rien en modélisation, ça provient juste de mes réflexions nourries par des lectures en diagonales de diverses sources) : comparons deux "procédés".

    - Le premier consiste à trouver une table de données, regarder un peu la forme des courbes, puis essayer de trouver une loi de probabilité (fabriquée à partir de lois classiques) qui colle au mieux.

    - Le deuxième consiste à exagérément simplifier le problème, identifier un petit nombre de mécanismes dont on suspecte qu'ils sont responsables de la diversité observer, modéliser ces petits mécanismes par des lois de probabilités et ensuite faire des calculs pour voir ce que la combinaison de tous ces trucs donne, et comparer avec les données (ce qui permettra de faire une expérience qui pourra conclure à "les mécanismes identifiés et simplifiés ne suffisent pas à expliquer/reproduire la réalité". Par exemple, la "preuve mathématique" décriée par gerard0 du fait que les appels téléphoniques sont un processus de Poisson est tout de même un théorème mathématique tout à fait intéressant (le seul écueil à éviter est de croire que ses hypothèses formalisées mathématiquement collent parfaitement à la réalité).


    Eh bien, je pense que le deuxième procédé est scientifique, et le premier non, tout simplement parce que le deuxième nous renseigne un peu, alors que l'autre non. Donc, chercher dans un annuaire le "bon" modèle pour sa situation, je ne pense pas que ce soit très scientifique.

    En outre, je pense qu'il faut avoir une réflexion épistémologique minimale sur le rôle du hasard dans cette histoire : bon nombre de phénomènes de ce type n'ont rien d"aléatoires" et le fait qu'on arrive à les modéliser avec précision avec des outils probabilistes dit beaucoup moins de choses sur la réalité que sur le succès de la théorie mathématique des probas. Et même, il faut réfléchir un peu sur la modélisation, en général.



  • Georges : Il ne s'agit pas ici de théorème, mais de preuves d'applicabilité d'une théorie à une situation. Si, pour justifier qu'une méthode mathématique marche dans le "monde réel", il faut prendre des hypothèses qu'on ne pourra jamais vérifier (voir le cas des centraux téléphoniques), il ne reste qu'un théorème de "maths pures" qui n'a rien à voir avec le but. Il est bien plus réaliste et sérieux de reconnaître que c'est une constatation empirique, que "ça marche". L'habillage mathématique est une manipulation mentale.
    De la même façon, les "gens du téléphone", habitué au vieillissement des cartes électro-mécaniques, ont appris à utiliser la loi exponentielle pour les cartes électroniques, très peu sensibles au vieillissement. Mais aussi à tenir compte du fait que la carte qu'on a changé 6 mois auparavant pour que le central téléphonique fonctionne, peut en remplacer une autre et fonctionner longtemps, donc qu'on ne doit pas les considérer comme perdues (elles ne sont pas réparables).

    Et je suis entièrement d'accord avec ce que tu dis à Hob_.

    Cordialement.
  • Hob___
    Modifié (November 2021)
    @lourran Oui, ça n'a pas grand sens. C'est pour cela que je posais la question. Je supputais que ça susciterait -sans pouvoir dire par avance lesquels- des commentaires qui pourraient m'amener à réfléchir un peu plus loin, même si au moment de partager ma question, j'avais déjà peu ou prou le même raisonnement que toi.

    En l'occurrence, un point qui me semble particulièrement intéressant dans ton message, c'est que tu tends à considérer qu'on peut modéliser le nombre de satellites présents dans l'espace avec Sn = Nombre de satellites présents dans l'espace au jour n ou Ln = Nombre de satellites lancés mois par mois, mais qu'on ne peut pas modéliser de façon probabiliste le nombre de naissances chaque année au niveau mondial. Je suis effectivement de ton avis. La natalité au niveau mondial est beaucoup trop hétérogène pour pouvoir être conjecturée dans un modèle probabiliste global. La natalité dépend du niveau d'alphabétisation, du rapport du pays avec les autres pays, du statut de la femme, du niveau de vie, de la présence d'infrastructures etc. C'est donc impossible d'en tirer une loi de probabilité au niveau global. Néanmoins si tu sembles considérer qu'on puisse modéliser le nombre de satellites dans l'espace, c'est peut-être parce que les satellites te semblent relativement peu nombreux, et assez "isolés" puisqu'ils sont dans l'espace et qu'une fois envoyés, on les récupère rarement. Pourtant, cela me paraît tout autant difficile de trouver une loi pour modéliser le nombre de satellites dans l'espace qu'une loi suivant la natalité d'une ville, par exemple, bien qu'on n'ait plus le problème d'hétérogénité. C'est-à-dire que même dans un cas simple et relativement homogène (tu suggérais de découper des zones géographiques ou sous-zones), la probabilité semble exclue pour modéliser le phénomène.

    @gerard0 Tu écris : "C'est le problème des modélisateurs : une modélisation peu rigoureuse peut donner un excellent modèle, et une modélisation très précise peut ne rien donner d'utile". Pour moi une modélisation (sous-entendue probabiliste) peu rigoureuse, par définition, n'est pas une modélisation probabiliste. De même que si quelqu'un considérait au milieu d'une démonstration "mathématique" qu'une fonction qui n'est pas bijective est bijective, alors considérerions-nous que sa démonstration est "mathématique" ? Donc j'interprète ton message comme la même chose en substance, que le propos de @lourran : la plupart du temps une modélisation probabiliste est inutile.

    @Georges Abitbol La remarque que tu écris à gerard0 me semble très pertinente, mais sa phrase que tu reprends "Attention aux fausses mathématisations de situations, qui utilisent des hypothèses aussi fortes que leur conclusion, voire fausses" me semble plutôt intéressante tout de même. Par exemple, il me semble avoir lu que la plupart des modèles en économie postulent comme assertion de départ une croissance de quelques pour-cents. Or dans plusieurs décennies, quand la quantité de pétrole disponible viendra à diminuer, quels seront les raisonnements que susciteront ces modèles ? Un historien du siècle prochain pourrait même être amené à considérer comment, par phénomène d'inertie, des sociétés entières s'étant mal organisées du fait d'une hypothèse fausse dans beaucoup de modèles économiques, ont pu être confrontées à tout un tas de problèmes que je n'ose pas imaginer. Donc quand tu écris "Et je dirais que toute modélisation utilise des hypothèses fausses. Bref, je pense que [gerard] es un peu trop catégorique : de tels comportements ne sont pas problématiques en soi", j'ai quand même l'impression que toi aussi tu émets une hypothèse forte qui serait qu'une modélisation fausse ne génère pas de problèmes substantiels.

    Concernant la remarque que tu m'adresses directement, c'est justement ton premier point qui suscite ma réflexion. Quant au deuxième, je trouve paradoxal qu'on construise des mathématiques très sérieuses où parfois on fait des démonstrations très compliquées et très pointilleuses si c'est pour qu'au final, on utilise la théorie bâtie à partir d'une hypothèse de départ qu'on aura trouvée en bricolant pendant une semaine, avant de se remettre à faire des mathématiques parce que "ça au moins c'est sérieux", et que de toutes façons en tant que "mathématicien", on est payé pour ça.

    Quant à ton ultime paragraphe, justement, pourquoi l'épistémologie n'est-elle pas enseignée si elle est autant importante que la mathématique ? En-dehors des gens qui se vouent à l'agrégation ou bien à la recherche "théorique", tous les autres auraient besoin d'épistémologie.

    _____________



    Si je devais émettre une hypothèse épistémologique, justement, ce serait que la plupart des phénomènes sur lesquels on peut travailler de façon probabiliste, sont des phénomènes d'essoufflement, de vieillissement. Peut-être cela tient-il au fait que ces modèles sont peu ou prou endogènes -il n'y a pas de facteur exogène au vieillissement des cartes puces, à la diminution de telle population animale d'une île esseulée (vous avez remarqué qu'on utilise parfois l'image d'une île, donc d'un cadre où par essence n'intervient aucun facteur exogène, dans des exercices de probabilités auxquels vous avez pu être confrontés). En revanche pour les phénomènes sur une population croissante, et j'évoquais à dessein le nombre de nouveaux bateaux sur les mers, le nombre de satellites dans l'espace, le nombre de naissances chaque année, le nombre de forêts détruites chaque année, la fréquence des ouragans; la probabilité n'est plus opérationnelle puisque le phénomène de croissance de l'ensemble étudié est provoqué par des phénomènes exogènes au phénomène. Le nombre de bateaux sur les mers dépend autant de l'extraction de fer et de pétrole, que de la conjoncture économique, mais aussi du nombre de poissons à pêcher et du volume de produits à convoyer etc.

    Si bien que la probabilité semble une limite qu'on applique à un phénomène, une frontière qui abstrait le phénomène du monde "environnant". Et donc plus cette hypothèse est vérifiable, plus le modèle probabiliste est opérationnel. L'exemple le plus canoniquement utilisé en probabilité, celui d'une urne contenant des boules qu'on va tirer avec ou sans remise, l'est peut-être car il s'agit du phénomène où on abstrait le plus ce qui est étudié du monde : il n'existe plus qu'une urne et des boules.

    Bon, j'ai beaucoup dérivé de sorte que je ne sais plus comment conclure mon message. Concluons donc par une boutade : que vient donc faire un mathématicien dans le monde réel ?
  • J'ai détaillé (un peu) la question des naissances, mais pas celle des satellites ou des bateaux.
    Mais pour moi, toutes ces questions sont très similaires. Simplement, je connais moins les variables explicatives dans les 2 derniers sujets, donc j'ai éludé ces 2 sujets.

    Et tu sembles faire un focus sur les 'populations croissantes'. Drôle d'idée.

    Le nombre de minitels en France, le nombre de voitures thermiques, le nombre de distributeurs automatiques de billets ...  Croissance, puis décroissance. Le cycle passe 'naturellement' d'une phase de croissance à une phase de décroissance.

    Dans tout phénomène (ou presque), il y a une phase de croissance, et une phase de décroissance. Ou alternance croissance/décroissance.


    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • Et bien justement, ne trouves-tu pas incroyable qu'il n'y ait des probabilités que pour la "moitié" des phénomènes ?
  • Hob_,

    je ne comprends pas pourquoi tu insistes sur "probabiliste", alors même que tu donnes des exemples où des modélisations déterministes fonctionnent assez bien.

    Je ne comprends pas non plus le parallèle entre les modélisations et les preuves mathématiques. Une modélisation n'est pas un théorème de maths, c'est un ensemble d'hypothèses et d'outils, souvent mathématiques, qui permettent, en faisant fonctionner le modèle, de comprendre une situation, voire de prévoir ce qui pourrait advenir. Une "une modélisation peu rigoureuse" ne pose pas de problème de rigueur mathématique, elle n'est pas une preuve au sens mathématique du terme.

    Tu as aussi une description du travail de modélisation qui ressemble fortement à la déception du brillant étudiant en mathématiques qui s'aperçoit que 99% de ce qu'il a difficilement appris ne lui servira jamais. Sauf erreur de ma part, le travail est plus sérieux que ça, même si la phase d'étude est souvent longue, pénible et non mathématisée.

    Finalement, c'est quoi, pour toi, une "modélisation (probabiliste)" ??

    Cordialement.
  • Hob___
    Modifié (November 2021)
    @gerard0 Pas d'attaque, je te prie, sinon j'arrête. D'autant que je trouve cela injuste. Pour "modélisation probabiliste", j'entends un modèle (donc un ensemble de principes qui n'est pas le phénomène étudié réel mais son "condensé") dont le cœur du raisonnement est basé sur l'aléa. Et je ne vois pas à quoi tu fais référence pour les exemples de modélisations déterministes que tu m'attribues.

    Pour ce qui est de la différence entre modélisation et preuve mathématique, il me semble que c'est assez clair que la Théorie Générale de Keynes relève d'une construction différente qu'un cours sur les séries entières. Quant à ta question "je ne comprends pas pourquoi tu insistes sur 'probabiliste'", comme tu peux t'en douter, car je suis étudiant et qu'on m'instruit sur les probabilités.

    Ta remarque m'étonne autant que si j'avais posé une question sur la physique quantique et que tu m'avais répondu "Je ne comprends pas pourquoi tu insistes sur "quantique", alors même qu'il y a des modélisations de physique classique qui fonctionnent assez bien".

    @lourran Pour revenir sur ta dernière remarque, en fait je me demande pourquoi nous pourrions modéliser le nombre de minitels en France, et pas le nombre de vélos électriques, le nombre de voitures thermiques, et pas le nombre de voitures électriques. Etc.
  • Qui a dit qu'on pourrait modéliser le nombre de voitures thermiques, mais pas le nombre de voitures électriques ?
    Personne.

    Modéliser un phénomène, qui est clairement en phase décroissante, c'est plus facile. On connaît le point de départ, on connaît plus ou moins le point d'arrivée (la limite d'une fonction positive décroissante est souvent 0), et donc on ne peut pas trop se tromper. La seule incertitude, c'est la vitesse à laquelle la limite va être atteinte.
    En phase croissante, c'est plus difficile, mais ça ne veut pas dire que c'est impossible.
    De toutes façons, un modèle reste un modèle, avec ses limites.

    Et si on veut se ramener à des courbes décroissantes, on peut modéliser le nombre de foyers qui n'ont pas de voiture électrique. 

    Un bon modèle est généralement à l'intersection de plusieurs modèles.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • gerard0
    Modifié (November 2021)
    Hob_,

    il ne s'agit pas d'attaques, mais d'incompréhension véritable. Et une réponse à ton refus de voir la réalité : "une modélisation peu rigoureuse peut donner un excellent modèle, et une modélisation très précise peut ne rien donner d'utile", c'est une réalité. Car le réel est beaucoup plus vaste et complexe que les outils mathématiques utilisables
    Tu cherches donc des modèles probabilistes de phénomènes croissants. Les démographes ont peut-être ça, mais ils utilisent beaucoup plus des modèles déterministes différentiels. Les économistes ont des modèles très détaillés, parfois énormes, mais peu fiables (les prévisions économiques modifient les comportements collectifs). Mais là encore, peu de probabiliste.
    Et dans de nombreux cas, la modélisation englobe les situations probabilistes dans une tendance générale qui esquive les détails.
    Tu trouveras peut-être ton miel dans les travaux de climatologie.

    Cordialement.
  • Hob___
    Modifié (November 2021)
    Ma remarque, que tu as dû lire trop vite, était non pas qu'une modélisation peu rigoureuse est inutile, mais qu'une modélisation peu rigoureuse, dans le cadre de ce que nous évoquions, se référait implicitement à un modèle où la mathématique probabiliste est faible, ce qui n'était pas le sujet de ma question. De toute façon, j'ai bien compris les guillemets qu'il y avait à mettre autour du mot "rigueur" -que tu as été le premier a utiliser.

    Je ne pense pas que tu aies si mal compris ce que j'ai écrit puisque ta réponse est intéressante. Qu'appelles-tu un modèle différentiel ? Un modèle comparatif ?

    @lourran C'est vrai qu'on pourrait ramener un modèle croissant à un modèle décroissant en considérant la population totale moins la population qui croît, néanmoins la population totale est elle-même croissante (la plupart du temps). Donc ça ne fait pas disparaître la difficulté dans un modèle "non borné" si on veut. C'est bien vrai qu'un bon modèle s'inspire d'autres modèles, en l'améliorant en général. De même que les bonnes discussions...
  • les modèles différentiels sont des modèles déterministes, basés sur des équations différentielles (fonctions) ou des équations aux différences (suites). Ils sont fréquents dans les analyse de population. Mais on est loin de ce que tu cherches. Et de ta question initiale.

    Cordialement.
  • Je prends note. Merci à tous.
Connectez-vous ou Inscrivez-vous pour répondre.