ressemblance de listes
dans Statistiques
Salut,
Je suis biologiste et j'ai une question de stat.
J'ai une population de 25 000 gènes.
J'ai 1 liste de référence de gènes de taille N (de 1 à 800) que je voudrais comparer à k listes de taille différente (entre 1 et 800). Les listes ont une intersection de gènes en commun.
Quel test utiliser pour connaitre la liste la plus ressemblante à ma liste ?
Je vous remercie
Ickou
Je suis biologiste et j'ai une question de stat.
J'ai une population de 25 000 gènes.
J'ai 1 liste de référence de gènes de taille N (de 1 à 800) que je voudrais comparer à k listes de taille différente (entre 1 et 800). Les listes ont une intersection de gènes en commun.
Quel test utiliser pour connaitre la liste la plus ressemblante à ma liste ?
Je vous remercie
Ickou
Réponses
-
Salut Ickou.
Pour l'instant, il me semble difficile de te répondre. Il faudrait définir clairement ce que tu appelles "ressemblance". Peux-tu détailler un peu ton problème, en explicitant ces listes (je ne comprends pas vraiment ce qu'elles contiennent), et ce que tu appelles ressemblance ?
Intuitivement, je ne vois d'ailleurs pas de test statistique, simplement chercher la liste dont les gènes sont les plus nombreux à être dans la liste de référence. Mais j'ai sans doute mal compris ta question.
Cordialement -
Merci Gerard de t'interesser à mon problème.
En fait mes listes contiennent des noms de gènes :
ex:
DES
NAT2
ADSL
GATA3
etc ....
Le but étant de prendre ma liste A de gènes (contenant 150 gènes par exemple) et la comparer à plusieurs autres listes de gènes. Les autres listes de gènes auront des tailles différentes, des gènes en commun et des gènes n'étant pas dans ma liste A..... (comme ma liste A pourra avoir des gènes n'étant pas dans les listes à comparer)
On ne peut pas utiliser le nombre de gènes en commun car une liste B contenant 20 000 gènes pourrait avoir 140 gènes en commun avec ma liste A et une liste C de 60 gènes 40 gènes en commun avec ma liste A.
Dans ce cas là, c'est la liste C qui ressemble le plus à ma liste A.
Il faut donc prendre en compte la taille des listes.
J'espère avoir été assez clair... Si tu as besoin d'autre détails, n'hésite pas.
Merci -
Bonjour.
Je comprends mieux le problème. Je vois deux directions possibles :
* Soit tu cherches la liste la plus proche. Il te suffit de donner un critère de proximité (par exemple le pourcentage de gènes communs).
* Soit tu cherches à regrouper tes listes par proximité (avec un critère de proximité, là aussi). La taxinomie étudie différentes méthodes (voir les clades chez les spécialistes de classification animale, végétale, etc.). Je ne suis pas spécialiste, mais on trouve celà dans les ouvrages de traitement de données statistiques, de data-mining, etc.
Dans les deux cas, seul toi peut décider de comment décider de la proximité de deux listes (il ne peut y avoir de critère général).
Par contre, tu parlais de test au début. Si tu veux vraiment prendre des décisions sur la base de tests d'hypothèse, il reste à tout construire.
Cordialement -
Bonjour
Quelques idées...
Classer les listes par leur nb de genes.
Dans chaque liste classer les genes selon un ordre, je propose l'ordre alpha-numérique et comparer entre elles les listes de même longueur.
Cordialement
Koniev
Connectez-vous ou Inscrivez-vous pour répondre.
Bonjour!
Catégories
- 165.4K Toutes les catégories
- 63 Collège/Lycée
- 22.2K Algèbre
- 37.6K Analyse
- 6.3K Arithmétique
- 61 Catégories et structures
- 1.1K Combinatoire et Graphes
- 13 Sciences des données
- 5.1K Concours et Examens
- 23 CultureMath
- 51 Enseignement à distance
- 2.9K Fondements et Logique
- 10.8K Géométrie
- 84 Géométrie différentielle
- 1.1K Histoire des Mathématiques
- 79 Informatique théorique
- 3.9K LaTeX
- 39K Les-mathématiques
- 3.5K Livres, articles, revues, (...)
- 2.7K Logiciels pour les mathématiques
- 26 Mathématiques et finance
- 342 Mathématiques et Physique
- 5K Mathématiques et Société
- 3.3K Pédagogie, enseignement, orientation
- 10.1K Probabilités, théorie de la mesure
- 804 Shtam
- 4.2K Statistiques
- 3.8K Topologie
- 1.4K Vie du Forum et de ses membres