Interprétation des sorties de citrus

Comment interpréter ce graphe ?

Ce graphe se rapporte au calcul de prédiction. Citrus détermine en effet un modèle (ie une combinaison) de caractéristiques issues/mesurées sur les cellules afin de réaliser la meilleure séparation entre 2 groupes de patients par exemple. Citrus effectue en plus une validation croisée pour établir la robustesse du modèle et l’erreur apparaît sur l’axe Y. Dans votre jeu de données, l’erreur est matérialisée par la courbe rouge. L’objectif de tout modèle n’est pas seulement sa qualité à être correct sur les données qu’on lui donne (jeu d’entraînement), mais aussi d’être capable de faire des prédictions sur des données nouvelles, ie d’être capable de généraliser. Sur l’axe X du bas se trouve sur un paramètre propre à la méthode qui lui permet de rester général (et non spécifique aux données d’entraînement). Sur l’axe X du haut est indiqué le nombre de caractéristiques qui sont utiles au modèle. L’idéal est ne pas trop en avoir (principe de parcimonie). Il y a 2 façons d’établir un optimum : soit se place à un écart type de l’erreur minimale (cv.1se) soit à l’erreur minimum (cv.min). La courbe bleue indique le nombre de fausses découvertes parmi les caractéristiques intégrées dans le modèle. A l’oeil je dirai qu’un bon modèle dans votre cas comporterait 100 à 500 caractéristiques, ce qui me semble important. A noter, l’erreur minimale de prédiction est de 20 %, donc 20 % des patients seront mal classés même avec un modèle inclut 800 à 1000 caractéristiques. Je penserai que les groupes à séparer ne montrent pas une séparation triviale.

Quelle est la différence entre ces trois plots ?

markerPlots => Ce graphique montre l’intensité du CD46 parmi tous les clusters/regroupements de cellules. Ces regroupements sont issus de l’agglomération hiérarchique de cellules. On finit au centre avec un cluster important regroupant toutes les cellules alors qu’à la périphérie on trouve des clusters comportant un nombre réduits de cellules (environ le seuil que vous avez indiqué 1% ou 5%).

featurePlots_cv.1se => Ce graphique permet d’identifier les clusters qui ont des caractéristiques retenues par le modèle. Les clusters pertinents sont ceux en grenat. Je ne sais plus à quoi correspondent les détourages en couleurs pastels, à part identifier des groupes de clusters qui ont des caractéristiques importantes dans le modèle. Au sein d’un groupe, je choisis en général le cluster le plus extérieur et note son numéro pour ensuite identifier la population cellulaire correspondante à l’aide des marqueurs (cf questions finales).

featurePlots_cv.min => Dans ce graphique sont représentés les clusters pertinents à l’erreur minimale : il y en a beaucoup dans un groupe qui englobe presque tout. Dans ce cas se focaliser sur les groupes de clusters comportant peu de clusters pour essayer de donner un sens à ce modèle/cette sélection.

A quel marqueur correspond chaque histogramme ?

Normalement ces figures sont un fichier PDF, et le nom des marqueurs est en tête de la première ligne.