Représentation en histogramme (amplitudes de classes distinctes)

Bonjour à tout le monde, 😀

Comme le message est long, j’en décris l’objet essentiel : histogramme avec des rectangles de largueurs différentes : faut-il laisser l’axe des ordonnées ou l’effacer ?

À la suite d’un échange, je me suis intéressé à cette représentation. Je ne sais pas finalement si elle est très utilisée. Je mets des numéros dans mon message pour cibler précisément si besoin les échanges. 

0) Les diagrammes en bâtons sont plutôt faits pour représenter des séries qualitatives ou pour les séries quantitatives dont le phénomène n’est a priori pas continu (pointures de chaussures [entiers ou moitié d’entiers], âge en années [nombres entiers]). 
L’axe des abscisses contient les différentes valeurs, et quand c’est qualitatif, l’ordre importe peu. 
L’axe des ordonnées contient les effectifs (ou les fréquences). 
On lit sur plusieurs documents que les histogrammes représentent essentiellement des séries quantitatives dont le phénomène est continu (taille d’un animal, masse, etc.). 
Cela conduit à effectuer « coller des bâtons » et à effectuer des regroupements par classe. Vient alors la question des amplitudes des classes. 

1) Lorsque les regroupements par classe ont la même amplitude, ça ressemble beaucoup aux bâtons, sauf qu’on colle bien les rectangles (phénomène continu : l’axe des abscisses est comme la droite réelle) et que l’on peut laisser l’axe des ordonnées gradué avec les effectifs. 
On lit ce qui ressemble à un théorème : les hauteurs des rectangles sont proportionnelles aux effectifs (resp. aux fréquences). 

2) Lorsque les regroupements par classe n’ont pas la même amplitude, ce sont les aires des rectangles qui doivent [par définition de l’histogramme] être proportionnelles aux effectifs (resp. fréquences). 

Je m’amuse alors à regarder des documents ici et là et je m’aperçois que l’on laisse l’axe des ordonnées sur des histogrammes dont les largeurs de rectangle sont distinctes (ce qui signifie des regroupements avec des amplitudes différentes).
 
3) Je trouve cela très peu pertinent puisqu’alors « la hauteur » du rectangle n’a aucun rapport (« visuel ») avec l’ordonnée correspondante. 
En effet, on devrait selon moi plutôt colorier un élément d’aire [en général un carreau ou quelques uns pris sur le quadrillage] en guise de légende pour indiquer les effectifs (resp. fréquences). 

4) Dans certains documents on introduit d’autres grandeurs comme « densité de fréquence ». 
Cela ressemble ensuite à une cuisine de chiffres et de tableaux. 

Mes interrogations : 
a) je cherche des histogrammes dans la presse ou autres médias avec des amplitudes distinctes (différentes largeurs des rectangles). 
b) dans lesdits histogrammes, l’auteur a-t-il conservé l’axe des ordonnées ? N’est-ce pas maladroit ?
c) je ne sais pas où chercher une source qui parlerait de cela [la maladresse ou la mise en garde de laisser l’axe des ordonnées sur le graphique]. 

Désolé, mon message est très très long. 
Bonne journée à tout le monde. 

Dom 

Réponses

  • stfj
    Modifié (January 2023)
    Il y a un argument pour laisser l'axe des ordonnées sur un histogramme : les histogrammes intéressants sont ceux pour lesquels les données recueillies appartiennent à un échantillon d'une grande population. Comme les observations sont très nombreuses dans la population, on peut théoriquement choisir (pour des données continues) des classes très petites avec chacune un nombre assez grand d'observations. On peut ainsi penser que, pour une population, le polygone des effectifs ou le polygone des fréquences ont un nombre tellement grand de segments brisés qu'ils approchent des courbes : la fonction de densité ou la fonction de densité relative. Par exemple, pour une courbe en cloche, on obtiendra à un changement d'échelle près, une courbe $y=\exp(-\pi x^2)$, le $y$ correspondant à l'axe des ordonnées qu'il apparaîtrait alors regrettable d'avoir supprimé. De toutes façons, ce n'est pas l'usage...
  • Ok. En effet, quand on « hache très finement », ça revient presque à ne regarder qu’un rectangle tellement fin (amplitude petite) que ça ressemble à un bâton dont le sommet passe par la courbe des effectifs. 
  • Ok. En effet, quand on « hache très finement », ça revient presque à ne regarder qu’un rectangle tellement fin (amplitude petite) que ça ressemble à un bâton dont le sommet passe par la courbe des effectifs. 
  • gerard0
    Modifié (January 2023)
    Stfj,
    tu ne réponds pas vraiment au problème, car il n'y a pas a priori "des classes très petites avec chacune un nombre assez grand d'observations". Cependant, l'axe des y a une signification (et même une unité si on veut), qui est la densité de fréquence moyenne (dite "fréquence corrigée"). Et elle peut servir pour comparer à des modèles quand la population est très nombreuse et les classes de tailles comparables.
    Je suis par contre très dubitatif sur le polygone des fréquences (ou effectifs), de nombreuses séries de réalisations d'une variable aléatoire connue ayant des histogrammes assez différents de la loi de probabilité (variable Normale et histogramme dissymétrique, voire avec une classe faible au milieu - sur des tirages d'une centaine de valeurs). Ce polygone est une structure assez artificielle, me semble-t-il.
    Cordialement.
  • Ok, Gérard. 
    L’axe des $Y$ doit (au moins) ne pas être pris pour un axe des fréquences (dans le cas des amplitudes différentes). 
  • Oui.

    Quand j'enseignais les stats en première année AES je faisais mettre "fréquences corrigées" ou "effectifs corrigés" sur cet axe.

    Cordialement.
  • Vassillia
    Modifié (January 2023)
    Bonjour,
    Si cela t'intéresse @Dom et si le mot didactique ne te fait pas fuir, tu peux lire ce document de l'IREM (Institut de Recherche sur l'Enseignement des Mathématiquse) https://www.univ-irem.fr/corfem/Actes_2007_07.pdf
    Tout d'abord, il n'y a pas unanimité puisque certains auteurs de manuel scolaire font le choix d'un axe des ordonnées absent avec une unité représentée à l’aide d’une surface.
    Mais selon les auteurs de ce document, il est dommage de ne pas questionner les élèves et les enseignants sur la signification que l'on peut donner à l'axe des ordonnées, c'est à dire une densité de fréquence (fréquence par unité des valeurs de la variable) qui peut servir à l'introduction de densité de probabilités plus tard.


    In mémoriam de tous les professeurs assassinés dans l'exercice de leurs fonctions en 2023, n'oublions jamais les noms de Agnes-Lassalle et Dominique-Bernard qui n'ont pas donné lieu aux mêmes réactions sur ce forum (et merci à GaBuZoMeu)
  • Dom
    Dom
    Modifié (January 2023)
    Merci Vassillia, 
    Non, non, ni « didactique », ni « pédagogie » ne me font fuir. Je vais regarder cela avec intérêt. 
    Cordialement
    Dom
  • @Dom : bonsoir. Tu précises ceci :
    Lorsque les regroupements par classe n’ont pas la même amplitude, ce sont les aires des rectangles qui doivent [par définition de l’histogramme] être proportionnelles aux effectifs (resp. fréquences).

    En réalité, que les amplitudes des classes soient identiques ou pas, ce sont systématiquement les aires qui doivent être proportionnelles aux effectifs. Le cas des amplitudes identiques n'est qu'un résultat trivial découlant des définitions. Je te laisse le vérifier.

    Le chat ouvrit les yeux, le soleil y entra. Le chat ferma les yeux, le soleil y resta. Voilà pourquoi le soir, quand le chat se réveille, j'aperçois dans le noir deux morceaux de soleil. (Maurice Carême).
  • Oui, bien sûr, tu as raison. La manière dont je le dis laisse penser que ça n’arriverait que dans ce cas. 
    C’est maladroit.  
  • Ne dit-on pas parfois que la courbe de densité est un polygone de fréquence lissé ? 
  • gerard0
    Modifié (January 2023)
    Je ne sais pas, d'ailleurs, les séries statistiques réelles (celles qui sont tirées d'études effectives) ne sont jamais continues, ce n'est que le traitement ultérieur qui fait apparaître des classes par intervalle. Et les modélisations qui peuvent être faites par des variables continues.
    Toutes ces techniques (histogrammes utilisés, polygones, ...) datent d'une époque où il fallait résumer les données pour pouvoir travailler à la main. On perd son temps à les enseigner, alors qu'on sait traiter les vraies données directement.
    Cordialement.
  • Dom
    Dom
    Modifié (January 2023)
    Comme il s’agit de la manière de représenter un objet je ne trouve pas que l’on [les profs et leurs élèves] perde son temps tant que ça à les enseigner.
    Cela a peut-être même des vertus pédagogiques en compréhension. 
    Ne pas passer trois heures dessus, oui…
  • Il y a tant de données et de représentations dans les nouvelles (une véritable avalanche pour parler du covid par exemple) qu'il me semble aussi pertinent d'enseigner lesdites représentations à toutes les citoyennes ! En passant, des avertissements sur les façons de biaiser la perception (exprès ou pas), telles que la sélection d'une période trop courte, l'amputation de l'axe des ordonnées pour exagérer les phénomènes ou la représentation de nombres par des dessins dont la hauteur plutôt que la surface est proportionnelle à la donnée.
    Exemples :
    • telle donnée est strictement décroissante sur les trois dernières années mais c'est un phénomène typiquement périodique avec une période de quinze ans ;
    • si une donnée décroît de 3000 à 2960 puis à 2910, l'effet ne sera pas le même si l'axe va de $0$ à $3000$ ou de $2900$ à $3000$ ;
    • je me rappelle un exemple dans Le Monde mais je ne sais plus mettre la main dessus.
  • +1 @Math Coss
    Un exemple que j'utilise parfois pour sensibiliser les étudiants aux effets d'échelle  : les demandeurs d'emploi selon différentes chaines télé (je ne félicite pas le service public)

    Source Petit journal Canal+ - 29 novembre 2011



    In mémoriam de tous les professeurs assassinés dans l'exercice de leurs fonctions en 2023, n'oublions jamais les noms de Agnes-Lassalle et Dominique-Bernard qui n'ont pas donné lieu aux mêmes réactions sur ce forum (et merci à GaBuZoMeu)
  • Pour la manière d’arnaquer les représentations statistiques, il y a l’association Pénombre et ses publications et Attention statistiques ! de Joseph Klatzmann.
    Sinon, la grandeur à placer en ordonnée dans un histogramme est une densité.
    Algebraic symbols are used when you do not know what you are talking about.
            -- Schnoebelen, Philippe
  • gerard0
    Modifié (January 2023)
    Oui, ça a été déjà dit 2 fois.
    Cordialement.
  • Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • gebrane
    Modifié (March 2023)
    Bonjour, 
    En lisant ce fil, une question ( niveau collège ou lycée) me vient  ( puisque on parle d'histogramme) sur le calcul du mode. Normalement la classe modale est la classe qui contient le plus grand effectif corrigé. supposons que notre série statistique classée présente deux classes modales. Est-ce que dans ce cadre "le" mode existe ( en cherchant par interpolation les modes des deux classes modales et de choisir le plus grand  en effectif) ou bien on va dire que "le" mode dans ce cas n'a pas de sens.


    Le 😄 Farceur


  • J’aurais plutôt dit qu’il y a deux modes. 
    Certes « quel est LE mode » suggère qu’il y en ait qu’un seul. Mais c’est comme ça. Dans une assemblée d’une centaine de personne, si on demande « quel est le plus grand », il se peut qu’il y en ait plusieurs. 
  • gebrane
    Modifié (March 2023)
    Dom , je ne sais pas si tu as compris mon souci . Dans le cas dans série discrète bimodale, les tiges issues des deux modes ont la même hauteur. Pour une série  classée voir dessin  
    Le 😄 Farceur


  • gerard0
    Modifié (March 2023)
    Bonsoir Gebrane.
    On  a vu que "la" médiane pose le même problème que "la" primitive, c'est encore pire pour "le" mode.
    Ta série est clairement bimodale, et c'est souvent important pour l'interprétation (*). Quant à la façon de définir un mode par l'intersection des segments, c'est du pinaillage de prof qui veut absolument avoir une seule valeur (plus facile à corriger) alors justement qu'on ne sait rien sur le répartition dans les classes.
    Le mode n'est utile que lorsque la série a une valeur nettement plus fréquente que les autres. Dans une série dont les effectifs successifs sont 28, 27, 28, 29, 28, 29, 27, 30, dire que le mode est la dernière valeur est assez peu informatif (et éventuellement fallacieux, lié à la façon de recueillir les données, sujet à des erreurs, ou à un choix particulier des individus - sans parler des cas de "non-réponse"). Il est plus utile de dire que les différentes classes ont des effectifs très proches les uns des autres.
    Toutes ces questions occupaient beaucoup de temps de formation à l'époque où on faisait les calculs à la main, car c'était des calculs très faciles. Mais ça n'apportait pas grand chose à la connaissance (**).
    Cordialement.
    (*) dans certains cas c'est l'indice de l'existence de deux sous-populations suivant des lois statistiques à peu près identiques mais décalées (ex : les pointures des chaussures).
    (**) c'est proche de l'histoire de celui qui cherche ses clefs sous le lampadaire, car "ici il y a de la lumière".
  • gebrane
    Modifié (March 2023)
    Bonsoir gerard
    Je pense, au contraire, qu'un étudiant est censé refaire le calcul (pour des données restreintes) de la médiane, de la moyenne, de l'écart-type, etc. à la main. Sinon, je pourrais dire aussi que le temps est révolu et que c'est une perte de temps d'enseigner aux élèves comment additionner, multiplier ou diviser, car les calculatrices font des merveilles.
    Le 😄 Farceur


  • lourrran
    Modifié (March 2023)
    Je crois que la technique avec les segments dessinés au trait fin pour trouver 'la' valeur modale, et non la tranche modale, c'est encore enseigné au Canada.
    Tu me dis, j'oublie. Tu m'enseignes, je me souviens. Tu m'impliques, j'apprends. Benjamin Franklin
  • gerard0
    Modifié (March 2023)
    Lourrran, c'est aussi encore enseigné en France. Il ne faut jamais négliger le conservatisme institutionnel.
    Gebrane, je suis d'accord avec toi : "... un étudiant est censé refaire le calcul (pour des données restreintes) de la médiane, de la moyenne, de l'écart-type, etc. à la main.". Et apprendre les méthodes d'interpolation linéaire (*). Puis il doit apprendre à se servir d'un des outils efficaces (calculette, tableurs, voire logiciel statistique) qui permet de ne pas se limiter à des données très restreintes.
    Mais ce calcul d'un pseudo-mode par des moyens graphiques est de la tétracapillotomie, de la sodomie de diptères. D'autant que la plupart des statisticiens ou utilisateur de statistiques travaillent avec les données brutes, qui sont des séries discrètes (avec un bête tableur, on traite des milliers de données) et n'utilisent les histogrammes que comme représentation.
    Il y a tellement de choses à apprendre en statistiques qu'il est inutile de perdre du temps à ça.
    Cordialement.
    (*) l'arrivée des calculettes n'a pas enlevé l'intérêt des tables de multiplication. Celle des logiciels de calcul formel l'intérêt d'apprendre la dérivation.

  • gebrane
    Modifié (March 2023)
    Bonjour Gérard
    Tu as bien commencé ton message jusqu'à "Mais ce calcul d'un pseudo-mode par des moyens graphiques est de la tétracapillotomie, de la sodomie de diptères.". Je me demande si tu nous fais de la masturbation intellectuelle, car les statisticiens ont convenu de rendre la médiane unique en la prenant au milieu lorsque l'effectif est pair. Il en va de même pour rendre le mode unique pour une série classée unimodale. Il y avait le choix de prendre le centre de la classe, mais ce choix n'est pas pertinent car il ne prend pas en compte les classes avant et après.
    Le 😄 Farceur


  • « les statisticiens ont convenu de rendre la médiane unique en la prenant au milieu lorsque l'effectif est pair »

    je ne crois pas que cela soit vrai. 
  • gebrane
    Modifié (March 2023)
    Dom, bonjour l'ami.
    Déjà, je te rappelle que tu croyais que les quartiles étaient déterministes .
    Le 😄 Farceur


  • gerard0
    Modifié (March 2023)
    Heu... Je réponds à propos du mode et tu parles de médiane ! 
    La médiane est très utile, on s'en sert même parfois pour corriger la moyenne (séries symétriques avec valeurs aberrantes). Le mode est rarement utile. Et l'usage des séries connues par intervalles diminue (on s'en sert un peu lorsque les valeurs exactes sont sans intérêt, en faisant attention aux limites d'intervalles -   dans ce cas, la valeur exacte d'un mode est aussi sans intérêt).

    Je confirme mon propos.
    Cordialement. 
  • Bonjour Gérard, tu ne connais pas l'importance du mode on dirait , mais les chimistes, eux, le connaissent. Pour un utilisateur respectueux des bonnes pratiques, avant de tester la normalité de sa distribution, il vérifie sa symétrie. Si la boîte à moustaches confirme que la médiane est au milieu des quartiles Q1 et Q3, il ne peut pas affirmer que la statistique est symétrique, même si le coefficient d'asymétrie de Yule dans ce cas est nul. Il a besoin de connaître le mode. Je peux te donner une distribution non symétrique à données restreintes où Q1=2, Me=3, Q3=4 et avec un mode M0=4."
    Le 😄 Farceur


  • Dom
    Dom
    Modifié (March 2023)
    « Je te rappelle que tu croyais … »

    quel est le rapport ?
    (au passage, c’est bien déterministe si l’on procède par interpolation comme cela a été fait …)

    1) Peux-tu fournir une définition de ce qu’est une médiane, gebrane ?
    2) Peux-tu fournir une définition de ce que sont les quartiles ? 

    Discuter sur du vide… tu ne sais faire que cela ?
  • « Le » mode peut servir comparé à « la » médiane et à la moyenne, par exemple quand on s’intéresse aux revenus (ces trois nombres sont assez parlants) ou quand une distribution ressemble à un chameau plutôt qu’à un dromadaire.
    Algebraic symbols are used when you do not know what you are talking about.
            -- Schnoebelen, Philippe
  • gebrane
    Modifié (March 2023)
    Dom, le rapport c'est que l'on peut croire en une chose et que la vérité soit autre. Ma phrase n'avait pas pour but de t'enflammer, mais répondre "je ne crois pas que cela soit vrai" n'est pas très pertinent car c'est une opinion personnelle. 

    Question pourquoi rendre unique la médiane !?  Comme tu sais la médiane est importante car elle est robuste aux valeurs extrêmes ou aberrantes, contrairement à la moyenne qui peut être influencée par celles-ci. De plus, la médiane est également utilisée dans les calculs de probabilités, où elle est définie de manière unique pour une distribution donnée.

    Ainsi, l'unicité de la médiane en statistiques descriptives est importante pour se conformer aux calculs de probabilités, où une distribution est caractérisée de manière unique par sa médiane.

    Je ne sais pas pourquoi tu me demandes la définition de la médiane qui était l'objectif initial de ce fil edit erreur, l'autre fil à point de dire qu'on parle sur du vide.
    Pour le mode, j'avais un doute sur la définition officielle dans le cas d'une série classée bimodales. Voila c'est tout.
    Le 😄 Farceur


  • Je me permets de joindre ici un extrait du livre de Jean-Luc Doumont au sujet des représentations graphiques. On trouvera plus de détails, y compris sur les histogrammes, dans son livre complet Trees, maps, and theorems. :)

  • Dom
    Dom
    Modifié (March 2023)
    Il te faut fournir des sources. 
    Quand tu dis « les statisticiens ont convenu… » : est-ce un avis ou une vérité ?
    On ne saura donc jamais. 
    Tu n’as jamais fourni dans ce fil ni dans un autre les définitions que tu souhaitais utiliser.
    C’est tout de même intrigant. 
    Tu parles maintenant de « définition officielle » pour le
    mode. L’as-tu fournie ? Tu n’as que proposé un « normalement… patati ». 
    Bref. Du vide. 
  • Encore des statistiques de cuisine (ce n'est pas une critique des cuisiniers) : "avant de tester la normalité de sa distribution" !!! On ne teste pas la Normalité d'une distribution, tout au plus à partir d'un échantillon, on se demande s'il pourrait provenir d'une réalisation d'une variable aléatoire Normale. Une distribution statistique n'est jamais Normale, gaussienne, tout simplement parce que c'est une suite de valeurs, donc par essence discrète, alors que les variables gaussiennes sont continues. Et le test de Normalité peut confirmer un doute sur l'adéquation d'un modèle probabiliste gaussien, jamais confirmer que le modèle est adéquat (c'est la base de la théorie des tests !!). L'idée "c'est proche d'une distribution gaussienne donc c'est bon" est une légende urbaine du dix-neuvième siècle (voir Quetelet, et son "homme moyen") qu'on retrouve dans les "tests d'intelligence" (une épreuve qui ne donne pas des réponses en "courbe en cloche" est rejetée comme incorrecte).
  • gebrane
    Modifié (March 2023)
     @dp Merci pour la lecture.

    Dom dit : "Tu parles maintenant de la « définition officielle » pour le mode. L'as-tu fournie ? Tu n'as proposé qu'un "normalement... patati"."

    "Tu ne me lis pas donc ! J'ai dit : "Pour le mode, j'avais un doute sur la définition officielle dans le cas d'une série classée bimodale.

    Nous connaissons "tous" la définition du mode (par interpolation, voir mon dessin) pour une série classée unimodale. Je me posais la question pour une série bimodale. pourquoi veux-tu que je fournisse une définition ( cas bimodale) que je ne connais pas moi même ?


    Gerard, Dans ton dernier message, tu pinailles sur la "normalité d'une distribution" comme si tu n'avais jamais entendu de questions sur "la normalité des données". Mais j'attendais une suite de ta part sur l'utilité ou non du mode après ce que j'ai dit."

    "Pour ceux qui nous suivent, nous ne faisons que discuter, mais il n'y a pas de place pour troller."







    Le 😄 Farceur


  • Écoute, tourner autour du pot ne m’intéresse pas. Bon dimanche. 
  • Je te souhaite Dom aussi bon dimanche
    Le 😄 Farceur


  • Oui, bon dimanche à tous les deux.
  • Merci Gerard :D bon dimanche @tous
    Le 😄 Farceur


Connectez-vous ou Inscrivez-vous pour répondre.