Représentation en histogramme (amplitudes de classes distinctes)

Dom · January 2023

Bonjour à tout le monde, 😀

Comme le message est long, j’en décris l’objet essentiel : histogramme avec des rectangles de largueurs différentes : faut-il laisser l’axe des ordonnées ou l’effacer ?

À la suite d’un échange, je me suis intéressé à cette représentation. Je ne sais pas finalement si elle est très utilisée. Je mets des numéros dans mon message pour cibler précisément si besoin les échanges.

0) Les diagrammes en bâtons sont plutôt faits pour représenter des séries qualitatives ou pour les séries quantitatives dont le phénomène n’est a priori pas continu (pointures de chaussures [entiers ou moitié d’entiers], âge en années [nombres entiers]).

L’axe des abscisses contient les différentes valeurs, et quand c’est qualitatif, l’ordre importe peu.

L’axe des ordonnées contient les effectifs (ou les fréquences).

On lit sur plusieurs documents que les histogrammes représentent essentiellement des séries quantitatives dont le phénomène est continu (taille d’un animal, masse, etc.).

Cela conduit à effectuer « coller des bâtons » et à effectuer des regroupements par classe. Vient alors la question des amplitudes des classes.

1) Lorsque les regroupements par classe ont la même amplitude, ça ressemble beaucoup aux bâtons, sauf qu’on colle bien les rectangles (phénomène continu : l’axe des abscisses est comme la droite réelle) et que l’on peut laisser l’axe des ordonnées gradué avec les effectifs.

On lit ce qui ressemble à un théorème : les hauteurs des rectangles sont proportionnelles aux effectifs (resp. aux fréquences).

2) Lorsque les regroupements par classe n’ont pas la même amplitude, ce sont les aires des rectangles qui doivent [par définition de l’histogramme] être proportionnelles aux effectifs (resp. fréquences).

Je m’amuse alors à regarder des documents ici et là et je m’aperçois que l’on laisse l’axe des ordonnées sur des histogrammes dont les largeurs de rectangle sont distinctes (ce qui signifie des regroupements avec des amplitudes différentes).

3) Je trouve cela très peu pertinent puisqu’alors « la hauteur » du rectangle n’a aucun rapport (« visuel ») avec l’ordonnée correspondante.

En effet, on devrait selon moi plutôt colorier un élément d’aire [en général un carreau ou quelques uns pris sur le quadrillage] en guise de légende pour indiquer les effectifs (resp. fréquences).

4) Dans certains documents on introduit d’autres grandeurs comme « densité de fréquence ».

Cela ressemble ensuite à une cuisine de chiffres et de tableaux.

Mes interrogations :
a) je cherche des histogrammes dans la presse ou autres médias avec des amplitudes distinctes (différentes largeurs des rectangles).
b) dans lesdits histogrammes, l’auteur a-t-il conservé l’axe des ordonnées ? N’est-ce pas maladroit ?
c) je ne sais pas où chercher une source qui parlerait de cela [la maladresse ou la mise en garde de laisser l’axe des ordonnées sur le graphique].

Désolé, mon message est très très long.

Bonne journée à tout le monde.

Dom

stfj · January 2023

Il y a un argument pour laisser l'axe des ordonnées sur un histogramme : les histogrammes intéressants sont ceux pour lesquels les données recueillies appartiennent à un échantillon d'une grande population. Comme les observations sont très nombreuses dans la population, on peut théoriquement choisir (pour des données continues) des classes très petites avec chacune un nombre assez grand d'observations. On peut ainsi penser que, pour une population, le polygone des effectifs ou le polygone des fréquences ont un nombre tellement grand de segments brisés qu'ils approchent des courbes : la fonction de densité ou la fonction de densité relative. Par exemple, pour une courbe en cloche, on obtiendra à un changement d'échelle près, une courbe $y=\exp(-\pi x^2)$, le $y$ correspondant à l'axe des ordonnées qu'il apparaîtrait alors regrettable d'avoir supprimé. De toutes façons, ce n'est pas l'usage...

Dom · January 2023

Ok. En effet, quand on « hache très finement », ça revient presque à ne regarder qu’un rectangle tellement fin (amplitude petite) que ça ressemble à un bâton dont le sommet passe par la courbe des effectifs.

Dom · January 2023

Ok. En effet, quand on « hache très finement », ça revient presque à ne regarder qu’un rectangle tellement fin (amplitude petite) que ça ressemble à un bâton dont le sommet passe par la courbe des effectifs.

gerard0 · January 2023

Stfj,
tu ne réponds pas vraiment au problème, car il n'y a pas a priori "des classes très petites avec chacune un nombre assez grand d'observations". Cependant, l'axe des y a une signification (et même une unité si on veut), qui est la densité de fréquence moyenne (dite "fréquence corrigée"). Et elle peut servir pour comparer à des modèles quand la population est très nombreuse et les classes de tailles comparables.

Je suis par contre très dubitatif sur le polygone des fréquences (ou effectifs), de nombreuses séries de réalisations d'une variable aléatoire connue ayant des histogrammes assez différents de la loi de probabilité (variable Normale et histogramme dissymétrique, voire avec une classe faible au milieu - sur des tirages d'une centaine de valeurs). Ce polygone est une structure assez artificielle, me semble-t-il.

Cordialement.

Dom · January 2023

Ok, Gérard.

L’axe des $Y$ doit (au moins) ne pas être pris pour un axe des fréquences (dans le cas des amplitudes différentes).

gerard0 · January 2023

Oui.

Quand j'enseignais les stats en première année AES je faisais mettre "fréquences corrigées" ou "effectifs corrigés" sur cet axe.

Cordialement.

Vassillia · January 2023

Bonjour,
Si cela t'intéresse @Dom et si le mot didactique ne te fait pas fuir, tu peux lire ce document de l'IREM (Institut de Recherche sur l'Enseignement des Mathématiquse) https://www.univ-irem.fr/corfem/Actes_2007_07.pdf
Tout d'abord, il n'y a pas unanimité puisque certains auteurs de manuel scolaire font le choix d'un axe des ordonnées absent avec une unité représentée à l’aide d’une surface.
Mais selon les auteurs de ce document, il est dommage de ne pas questionner les élèves et les enseignants sur la signification que l'on peut donner à l'axe des ordonnées, c'est à dire une densité de fréquence (fréquence par unité des valeurs de la variable) qui peut servir à l'introduction de densité de probabilités plus tard.

Dom · January 2023

Merci Vassillia,
Non, non, ni « didactique », ni « pédagogie » ne me font fuir. Je vais regarder cela avec intérêt.

Cordialement
Dom

Thierry Poma · January 2023

@Dom : bonsoir. Tu précises ceci :

Lorsque les regroupements par classe n’ont pas la même amplitude, ce sont les aires des rectangles qui doivent [par définition de l’histogramme] être proportionnelles aux effectifs (resp. fréquences).

En réalité, que les amplitudes des classes soient identiques ou pas, ce sont systématiquement les aires qui doivent être proportionnelles aux effectifs. Le cas des amplitudes identiques n'est qu'un résultat trivial découlant des définitions. Je te laisse le vérifier.

Dom · January 2023

Oui, bien sûr, tu as raison. La manière dont je le dis laisse penser que ça n’arriverait que dans ce cas.

C’est maladroit.

stfj · January 2023

Ne dit-on pas parfois que la courbe de densité est un polygone de fréquence lissé ?

gerard0 · January 2023

Je ne sais pas, d'ailleurs, les séries statistiques réelles (celles qui sont tirées d'études effectives) ne sont jamais continues, ce n'est que le traitement ultérieur qui fait apparaître des classes par intervalle. Et les modélisations qui peuvent être faites par des variables continues.

Toutes ces techniques (histogrammes utilisés, polygones, ...) datent d'une époque où il fallait résumer les données pour pouvoir travailler à la main. On perd son temps à les enseigner, alors qu'on sait traiter les vraies données directement.

Cordialement.

Dom · January 2023

Comme il s’agit de la manière de représenter un objet je ne trouve pas que l’on [les profs et leurs élèves] perde son temps tant que ça à les enseigner.
Cela a peut-être même des vertus pédagogiques en compréhension.

Ne pas passer trois heures dessus, oui…

Math Coss · January 2023

Il y a tant de données et de représentations dans les nouvelles (une véritable avalanche pour parler du covid par exemple) qu'il me semble aussi pertinent d'enseigner lesdites représentations à toutes les citoyennes ! En passant, des avertissements sur les façons de biaiser la perception (exprès ou pas), telles que la sélection d'une période trop courte, l'amputation de l'axe des ordonnées pour exagérer les phénomènes ou la représentation de nombres par des dessins dont la hauteur plutôt que la surface est proportionnelle à la donnée.

Exemples :

telle donnée est strictement décroissante sur les trois dernières années mais c'est un phénomène typiquement périodique avec une période de quinze ans ;
si une donnée décroît de 3000 à 2960 puis à 2910, l'effet ne sera pas le même si l'axe va de $0$ à $3000$ ou de $2900$ à $3000$ ;
je me rappelle un exemple dans Le Monde mais je ne sais plus mettre la main dessus.

Vassillia · January 2023

+1 @Math Coss
Un exemple que j'utilise parfois pour sensibiliser les étudiants aux effets d'échelle : les demandeurs d'emploi selon différentes chaines télé (je ne félicite pas le service public)

Image: https://les-mathematiques.net/vanilla/uploads/editor/4e/pm81azjqy4u3.png

Source Petit journal Canal+ - 29 novembre 2011

nicolas.patrois · January 2023

Pour la manière d’arnaquer les représentations statistiques, il y a l’association Pénombre et ses publications et Attention statistiques ! de Joseph Klatzmann.

Sinon, la grandeur à placer en ordonnée dans un histogramme est une densité.

gerard0 · January 2023

Oui, ça a été déjà dit 2 fois.
Cordialement.

lourrran · January 2023

Sur ce sujet, j'avais adoré ce bouquin : https://www.decitre.fr/livres/plus-vite-que-son-nombre-9782020345637.html

gebrane · March 2023

Bonjour,
En lisant ce fil, une question ( niveau collège ou lycée) me vient ( puisque on parle d'histogramme) sur le calcul du mode. Normalement la classe modale est la classe qui contient le plus grand effectif corrigé. supposons que notre série statistique classée présente deux classes modales. Est-ce que dans ce cadre "le" mode existe ( en cherchant par interpolation les modes des deux classes modales et de choisir le plus grand en effectif) ou bien on va dire que "le" mode dans ce cas n'a pas de sens.

Dom · March 2023

J’aurais plutôt dit qu’il y a deux modes.

Certes « quel est LE mode » suggère qu’il y en ait qu’un seul. Mais c’est comme ça. Dans une assemblée d’une centaine de personne, si on demande « quel est le plus grand », il se peut qu’il y en ait plusieurs.

gebrane · March 2023

Dom , je ne sais pas si tu as compris mon souci . Dans le cas dans série discrète bimodale, les tiges issues des deux modes ont la même hauteur. Pour une série classée voir dessin

gerard0 · March 2023

Bonsoir Gebrane.

On a vu que "la" médiane pose le même problème que "la" primitive, c'est encore pire pour "le" mode.

Ta série est clairement bimodale, et c'est souvent important pour l'interprétation (*). Quant à la façon de définir un mode par l'intersection des segments, c'est du pinaillage de prof qui veut absolument avoir une seule valeur (plus facile à corriger) alors justement qu'on ne sait rien sur le répartition dans les classes.

Le mode n'est utile que lorsque la série a une valeur nettement plus fréquente que les autres. Dans une série dont les effectifs successifs sont 28, 27, 28, 29, 28, 29, 27, 30, dire que le mode est la dernière valeur est assez peu informatif (et éventuellement fallacieux, lié à la façon de recueillir les données, sujet à des erreurs, ou à un choix particulier des individus - sans parler des cas de "non-réponse"). Il est plus utile de dire que les différentes classes ont des effectifs très proches les uns des autres.

Toutes ces questions occupaient beaucoup de temps de formation à l'époque où on faisait les calculs à la main, car c'était des calculs très faciles. Mais ça n'apportait pas grand chose à la connaissance (**).

Cordialement.

(*) dans certains cas c'est l'indice de l'existence de deux sous-populations suivant des lois statistiques à peu près identiques mais décalées (ex : les pointures des chaussures).

(**) c'est proche de l'histoire de celui qui cherche ses clefs sous le lampadaire, car "ici il y a de la lumière".

gebrane · March 2023

Bonsoir gerard

Je pense, au contraire, qu'un étudiant est censé refaire le calcul (pour des données restreintes) de la médiane, de la moyenne, de l'écart-type, etc. à la main. Sinon, je pourrais dire aussi que le temps est révolu et que c'est une perte de temps d'enseigner aux élèves comment additionner, multiplier ou diviser, car les calculatrices font des merveilles.

lourrran · March 2023

Je crois que la technique avec les segments dessinés au trait fin pour trouver 'la' valeur modale, et non la tranche modale, c'est encore enseigné au Canada.

gerard0 · March 2023

Lourrran, c'est aussi encore enseigné en France. Il ne faut jamais négliger le conservatisme institutionnel.

Gebrane, je suis d'accord avec toi : "... un étudiant est censé refaire le calcul (pour des données restreintes) de la médiane, de la moyenne, de l'écart-type, etc. à la main.". Et apprendre les méthodes d'interpolation linéaire (*). Puis il doit apprendre à se servir d'un des outils efficaces (calculette, tableurs, voire logiciel statistique) qui permet de ne pas se limiter à des données très restreintes.

Mais ce calcul d'un pseudo-mode par des moyens graphiques est de la tétracapillotomie, de la sodomie de diptères. D'autant que la plupart des statisticiens ou utilisateur de statistiques travaillent avec les données brutes, qui sont des séries discrètes (avec un bête tableur, on traite des milliers de données) et n'utilisent les histogrammes que comme représentation.

Il y a tellement de choses à apprendre en statistiques qu'il est inutile de perdre du temps à ça.

Cordialement.

(*) l'arrivée des calculettes n'a pas enlevé l'intérêt des tables de multiplication. Celle des logiciels de calcul formel l'intérêt d'apprendre la dérivation.

gebrane · March 2023

Bonjour Gérard

Tu as bien commencé ton message jusqu'à "Mais ce calcul d'un pseudo-mode par des moyens graphiques est de la tétracapillotomie, de la sodomie de diptères.". Je me demande si tu nous fais de la masturbation intellectuelle, car les statisticiens ont convenu de rendre la médiane unique en la prenant au milieu lorsque l'effectif est pair. Il en va de même pour rendre le mode unique pour une série classée unimodale. Il y avait le choix de prendre le centre de la classe, mais ce choix n'est pas pertinent car il ne prend pas en compte les classes avant et après.

Dom · March 2023

« les statisticiens ont convenu de rendre la médiane unique en la prenant au milieu lorsque l'effectif est pair »

je ne crois pas que cela soit vrai.

gebrane · March 2023

Dom, bonjour l'ami.

Déjà, je te rappelle que tu croyais que les quartiles étaient déterministes .

gerard0 · March 2023

Heu... Je réponds à propos du mode et tu parles de médiane !
La médiane est très utile, on s'en sert même parfois pour corriger la moyenne (séries symétriques avec valeurs aberrantes). Le mode est rarement utile. Et l'usage des séries connues par intervalles diminue (on s'en sert un peu lorsque les valeurs exactes sont sans intérêt, en faisant attention aux limites d'intervalles - dans ce cas, la valeur exacte d'un mode est aussi sans intérêt).

Je confirme mon propos.
Cordialement.

gebrane · March 2023

Bonjour Gérard, tu ne connais pas l'importance du mode on dirait , mais les chimistes, eux, le connaissent. Pour un utilisateur respectueux des bonnes pratiques, avant de tester la normalité de sa distribution, il vérifie sa symétrie. Si la boîte à moustaches confirme que la médiane est au milieu des quartiles Q1 et Q3, il ne peut pas affirmer que la statistique est symétrique, même si le coefficient d'asymétrie de Yule dans ce cas est nul. Il a besoin de connaître le mode. Je peux te donner une distribution non symétrique à données restreintes où Q1=2, Me=3, Q3=4 et avec un mode M0=4."

Dom · March 2023

« Je te rappelle que tu croyais … »

quel est le rapport ?
(au passage, c’est bien déterministe si l’on procède par interpolation comme cela a été fait …)

1) Peux-tu fournir une définition de ce qu’est une médiane, gebrane ?
2) Peux-tu fournir une définition de ce que sont les quartiles ?

Discuter sur du vide… tu ne sais faire que cela ?

nicolas.patrois · March 2023

« Le » mode peut servir comparé à « la » médiane et à la moyenne, par exemple quand on s’intéresse aux revenus (ces trois nombres sont assez parlants) ou quand une distribution ressemble à un chameau plutôt qu’à un dromadaire.

gebrane · March 2023

Dom, le rapport c'est que l'on peut croire en une chose et que la vérité soit autre. Ma phrase n'avait pas pour but de t'enflammer, mais répondre "je ne crois pas que cela soit vrai" n'est pas très pertinent car c'est une opinion personnelle.

Question pourquoi rendre unique la médiane !? Comme tu sais la médiane est importante car elle est robuste aux valeurs extrêmes ou aberrantes, contrairement à la moyenne qui peut être influencée par celles-ci. De plus, la médiane est également utilisée dans les calculs de probabilités, où elle est définie de manière unique pour une distribution donnée.

Ainsi, l'unicité de la médiane en statistiques descriptives est importante pour se conformer aux calculs de probabilités, où une distribution est caractérisée de manière unique par sa médiane.

Je ne sais pas pourquoi tu me demandes la définition de la médiane qui était l'objectif initial de ce fil edit erreur, l'autre fil à point de dire qu'on parle sur du vide.

Pour le mode, j'avais un doute sur la définition officielle dans le cas d'une série classée bimodales. Voila c'est tout.

dp · March 2023

Je me permets de joindre ici un extrait du livre de Jean-Luc Doumont au sujet des représentations graphiques. On trouvera plus de détails, y compris sur les histogrammes, dans son livre complet Trees, maps, and theorems.

Dom · March 2023

Il te faut fournir des sources.

Quand tu dis « les statisticiens ont convenu… » : est-ce un avis ou une vérité ?
On ne saura donc jamais.

Tu n’as jamais fourni dans ce fil ni dans un autre les définitions que tu souhaitais utiliser.

C’est tout de même intrigant.

Tu parles maintenant de « définition officielle » pour le
mode. L’as-tu fournie ? Tu n’as que proposé un « normalement… patati ».

Bref. Du vide.

gerard0 · March 2023

Encore des statistiques de cuisine (ce n'est pas une critique des cuisiniers) : "avant de tester la normalité de sa distribution" !!! On ne teste pas la Normalité d'une distribution, tout au plus à partir d'un échantillon, on se demande s'il pourrait provenir d'une réalisation d'une variable aléatoire Normale. Une distribution statistique n'est jamais Normale, gaussienne, tout simplement parce que c'est une suite de valeurs, donc par essence discrète, alors que les variables gaussiennes sont continues. Et le test de Normalité peut confirmer un doute sur l'adéquation d'un modèle probabiliste gaussien, jamais confirmer que le modèle est adéquat (c'est la base de la théorie des tests !!). L'idée "c'est proche d'une distribution gaussienne donc c'est bon" est une légende urbaine du dix-neuvième siècle (voir Quetelet, et son "homme moyen") qu'on retrouve dans les "tests d'intelligence" (une épreuve qui ne donne pas des réponses en "courbe en cloche" est rejetée comme incorrecte).

gebrane · March 2023

@dp Merci pour la lecture.

Dom dit : "Tu parles maintenant de la « définition officielle » pour le mode. L'as-tu fournie ? Tu n'as proposé qu'un "normalement... patati"."

"Tu ne me lis pas donc ! J'ai dit : "Pour le mode, j'avais un doute sur la définition officielle dans le cas d'une série classée bimodale.

Nous connaissons "tous" la définition du mode (par interpolation, voir mon dessin) pour une série classée unimodale. Je me posais la question pour une série bimodale. pourquoi veux-tu que je fournisse une définition ( cas bimodale) que je ne connais pas moi même ?

Gerard, Dans ton dernier message, tu pinailles sur la "normalité d'une distribution" comme si tu n'avais jamais entendu de questions sur "la normalité des données". Mais j'attendais une suite de ta part sur l'utilité ou non du mode après ce que j'ai dit."

"Pour ceux qui nous suivent, nous ne faisons que discuter, mais il n'y a pas de place pour troller."

Dom · March 2023

Écoute, tourner autour du pot ne m’intéresse pas. Bon dimanche.

gebrane · March 2023

Je te souhaite Dom aussi bon dimanche

gerard0 · March 2023

Oui, bon dimanche à tous les deux.

gebrane · March 2023

Merci Gerard

bon dimanche @tous

Représentation en histogramme (amplitudes de classes distinctes)

Réponses

Bonjour!

Catégories

In this Discussion

Qui est en ligne 4