Introduction : le defi du contourage en radiotherapie
La segmentation des structures anatomiques -- organes a risque (OAR) et volumes cibles tumoraux -- est une etape fondamentale de la planification du traitement en radiotherapie. La qualite de cette segmentation conditionne directement la qualite du plan de traitement : un contourage imprecis peut entrainer une sous-irradiation de la tumeur ou une surexposition des organes sains adjacents.
Traditionnellement, le contourage est realise manuellement par le medecin radiotherapeute sur les images CT (scanner) de planification, coupe par coupe. Ce processus est long (30 minutes a plusieurs heures selon la localisation), subjectif (variations inter-observateurs significatives) et source de retard dans la prise en charge du patient.
Le deep learning offre une solution prometteuse a ces problemes en automatisant la segmentation des structures anatomiques avec une precision approchant celle des experts humains, en une fraction du temps.
Les reseaux de neurones convolutifs pour la segmentation
Principes fondamentaux des CNN
Les reseaux de neurones convolutifs (Convolutional Neural Networks, CNN) sont la base de la quasi-totalite des methodes de deep learning pour l'analyse d'images medicales. Un CNN apprend automatiquement a extraire des caracteristiques pertinentes (features) a partir des images brutes, sans necessite de definir manuellement les descripteurs.
Un CNN est compose de plusieurs types de couches :
- Couches de convolution : appliquent des filtres appris sur l'image pour extraire des caracteristiques locales (contours, textures, formes)
- Couches de pooling : reduisent la resolution spatiale pour capturer des informations a plus grande echelle
- Couches d'activation : introduisent la non-linearite necessaire a l'apprentissage de fonctions complexes (ReLU, Leaky ReLU)
- Couches de normalisation : stabilisent l'apprentissage (Batch Normalization, Instance Normalization)
De la classification a la segmentation
La segmentation semantique consiste a attribuer une classe (organe, tumeur, fond) a chaque pixel (ou voxel en 3D) de l'image. Contrairement a la classification qui attribue une etiquette globale a une image entiere, la segmentation produit une carte dense de predictions.
Le defi technique est de combiner :
- L'information contextuelle : comprendre la scene globale pour identifier les structures
- La precision spatiale : localiser precisement les contours de chaque structure
C'est cette double exigence qui a conduit au developpement d'architectures specialisees comme U-Net.
L'architecture U-Net
Concept et structure
U-Net est une architecture de reseau de neurones proposee en 2015 par Ronneberger et al. a l'Universite de Fribourg. Elle a ete initialement concue pour la segmentation d'images de microscopie biomedicale, mais elle est rapidement devenue l'architecture de reference pour la segmentation d'images medicales en general.
L'architecture tire son nom de sa forme en U, composee de deux branches :
La branche contractante (encodeur) : une succession de convolutions et de pooling qui reduit progressivement la resolution spatiale tout en augmentant le nombre de canaux de caracteristiques. A chaque niveau, la resolution est divisee par deux et le nombre de filtres est double.
La branche expansive (decodeur) : une succession de convolutions transposees (upsampling) et de convolutions qui restaure progressivement la resolution spatiale. A chaque niveau, la resolution est doublee et le nombre de filtres est reduit de moitie.
Les skip connections
L'element central de U-Net est la presence de connexions de saut (skip connections) entre les niveaux correspondants de l'encodeur et du decodeur. Ces connexions concatenent les cartes de caracteristiques de l'encodeur avec celles du decodeur au meme niveau de resolution.
Les skip connections permettent de :
- Preserver les details spatiaux qui seraient perdus lors du sous-echantillonnage
- Faciliter le flux du gradient lors de l'entrainement (moins de problemes de gradient evanescent)
- Combiner les informations contextuelles de bas niveau (contours, textures) et de haut niveau (semantique)
ou l represente le niveau de resolution, conv les operations de convolution, concat la concatenation et upsample le sur-echantillonnage.
Variantes de U-Net
Depuis sa publication, de nombreuses variantes de U-Net ont ete proposees :
| Variante | Modification principale | Avantage |
|---|---|---|
| 3D U-Net | Convolutions 3D | Exploite le contexte inter-coupes |
| V-Net | Loss de Dice volumetrique | Meilleure gestion des classes desequilibrees |
| Attention U-Net | Mecanismes d'attention | Focus sur les regions pertinentes |
| U-Net++ | Skip connections denses | Fusion multi-echelle amelioree |
| ResU-Net | Blocs residuels | Entrainement plus profond et stable |
nnU-Net : l'auto-configuration intelligente
Le probleme de la configuration
L'une des difficultes majeures de l'application du deep learning en segmentation medicale est le grand nombre d'hyperparametres a configurer : architecture du reseau, taille des patchs, strategie d'augmentation des donnees, fonction de perte, taux d'apprentissage, pre-traitement des images, post-traitement des predictions.
Le choix optimal de ces parametres depend fortement du jeu de donnees considere (modalite d'imagerie, resolution, taille des structures, nombre d'exemples), et un reglage manuel est a la fois fastidieux et souvent sous-optimal.
La solution nnU-Net
nnU-Net (no-new-Net) est un framework propose par Isensee et al. (DKFZ, Heidelberg) qui automatise l'ensemble du pipeline de segmentation. Le principe est que la plupart des ameliorations de performance proviennent non pas de nouvelles architectures, mais d'une configuration optimale de l'architecture existante (U-Net) pour chaque probleme specifique.
nnU-Net analyse automatiquement le jeu de donnees et determine :
- Le pre-traitement : normalisation des intensites, reeechantillonnage spatial, decoupage (cropping)
- L'architecture : 2D, 3D ou cascade 2D+3D, nombre de niveaux, nombre de filtres
- La taille des patchs : adaptee a la resolution et a la memoire GPU disponible
- L'augmentation des donnees : rotations, deformations elastiques, ajustements d'intensite
- Le post-traitement : suppression des petites regions, selection de la composante connexe principale
Pipeline d'entrainement
Le pipeline nnU-Net suit les etapes suivantes :
- Analyse du dataset : extraction des statistiques (resolution, taille des images, distribution des classes)
- Planification : determination automatique de la configuration optimale
- Pre-traitement : application des transformations determinees a l'etape precedente
- Entrainement : validation croisee 5-fold avec la configuration selectionnee
- Post-traitement : optimisation basee sur les resultats de la validation croisee
- Selection du modele : choix de la meilleure configuration (2D, 3D full, 3D cascade)
Les donnees d'entrainement
Le defi des donnees medicales
L'entrainement d'un reseau de segmentation necessite des donnees annotees, c'est-a-dire des images accompagnees des contourages de reference (ground truth). En imagerie medicale, l'obtention de ces annotations est particulierement couteuse car elle requiert l'expertise de medecins specialistes.
Les contraintes specifiques sont :
- Volume des donnees : les images 3D (CT, IRM) sont volumineuses (512 x 512 x plusieurs centaines de coupes)
- Temps d'annotation : le contourage d'un cas complet peut prendre plusieurs heures
- Variabilite inter-observateurs : differents experts peuvent produire des contourages significativement differents
- Confidentialite : les images medicales sont soumises a des reglementations strictes sur la protection des donnees
Strategies pour les petits jeux de donnees
Plusieurs techniques permettent de pallier la rarete des donnees annotees :
- Augmentation des donnees : rotations, miroirs, deformations elastiques, ajustements de contraste pour multiplier artificiellement le nombre d'exemples d'entrainement
- Transfer learning : utilisation de poids pre-entraines sur un grand jeu de donnees (ImageNet ou des donnees medicales similaires)
- Self-supervised learning : pre-entrainement sur des donnees non annotees en utilisant des taches pretextes
- Semi-supervised learning : exploitation combinee de donnees annotees et non annotees
- Federated learning : entrainement distribue sur des donnees reparties dans plusieurs centres sans echange de donnees brutes
Metriques d'evaluation
Le coefficient de Dice (DSC)
Le coefficient de Dice (Dice Similarity Coefficient) est la metrique la plus utilisee pour evaluer la qualite d'une segmentation. Il mesure le recouvrement entre la prediction du modele et la verite terrain :
ou P est l'ensemble des voxels predits comme appartenant a la structure, V est l'ensemble des voxels de la verite terrain, et |P n V| est le nombre de voxels communs aux deux ensembles.
Le DSC varie entre 0 (aucun recouvrement) et 1 (recouvrement parfait). En pratique :
| Structure | DSC typique (etat de l'art) | Interpretation |
|---|---|---|
| Poumons | 0.97 - 0.99 | Excellent |
| Coeur | 0.92 - 0.96 | Tres bon |
| Foie | 0.94 - 0.97 | Tres bon |
| Reins | 0.93 - 0.96 | Tres bon |
| Moelle epiniere | 0.85 - 0.92 | Bon |
| Parotides | 0.82 - 0.90 | Bon |
| Oesophage | 0.70 - 0.82 | Moderee |
| Chiasma optique | 0.55 - 0.70 | Difficile |
Autres metriques
D'autres metriques complementent le DSC :
- Distance de Hausdorff (HD95) : mesure la distance maximale (au 95e percentile) entre les surfaces predite et de reference. Elle est sensible aux erreurs locales grossieres.
- Distance moyenne des surfaces (MSD) : moyenne des distances entre les deux surfaces, moins sensible aux outliers que la distance de Hausdorff.
- Precision et rappel volumetriques : evaluent respectivement les faux positifs et les faux negatifs.
Applications cliniques en radiotherapie
Segmentation des organes a risque (OAR)
La segmentation automatique des OAR est l'application la plus mature du deep learning en radiotherapie. Les structures couramment segmentees incluent :
Region tete et cou : parotides, glandes sous-mandibulaires, moelle epiniere, tronc cerebral, chiasma optique, nerfs optiques, yeux, cristallins, mandibule, cochlees.
Region thoracique : poumons, coeur, oesophage, moelle epiniere, trachee, plexus brachial.
Region pelvienne : vessie, rectum, tetes femorales, intestin grele, canal anal.
Les systemes commerciaux de segmentation automatique (Limbus AI, MVision, Mirada DLCExpert) proposent des modeles pre-entraines pour ces structures, integres aux systemes de planification de traitement.
Segmentation des volumes cibles
La segmentation automatique des volumes cibles tumoraux (GTV, CTV) est plus complexe car :
- Les tumeurs sont plus variables en forme, taille et localisation que les organes sains
- Les limites tumorales sont souvent mal definies sur les images CT
- L'apport d'informations multimodales (IRM, PET) est souvent necessaire
Des progres significatifs ont ete realises pour certaines localisations, notamment le cancer du nasopharynx, le glioblastome (sur IRM multiparametrique), et le cancer du col uterin.
Defis et limites actuels
Generalisation et domain shift
Le probleme du domain shift est l'un des defis majeurs : un modele entraine sur les donnees d'un centre A peut voir ses performances se degrader significativement lorsqu'il est applique aux donnees d'un centre B, en raison des differences dans les protocoles d'acquisition, les appareils et les populations de patients.
Les approches pour attenuer ce probleme incluent :
- L'entrainement sur des donnees multi-centriques
- Les techniques de domain adaptation
- La normalisation des images en pre-traitement
- Le fine-tuning sur un petit echantillon du nouveau centre
Structures de petite taille
Les petites structures (chiasma optique, nerfs optiques, cochlees) restent difficiles a segmenter avec precision. Le faible nombre de voxels les representant dans l'image rend l'apprentissage plus difficile et les metriques de performance plus instables.
Validation clinique rigoureuse
L'integration clinique des outils de segmentation automatique necessite :
- Une validation prospective sur des donnees cliniques reelles
- La demonstration de l'impact dosimetrique (les differences de contourage conduisent-elles a des differences cliniquement significatives dans les plans de traitement ?)
- La mise en place de workflows de verification (le medecin doit toujours valider et corriger les contourages automatiques)
- La conformite aux reglementations (marquage CE, FDA clearance)
Perspectives d'avenir
Le domaine evolue rapidement vers :
- Les modeles de fondation (foundation models) : de grands modeles pre-entraines sur des millions d'images medicales, adaptables a de nouvelles taches avec peu de donnees (SAM-Med, UniverSeg)
- La segmentation interactive : l'utilisateur guide le modele par des clics ou des boites englobantes pour affiner la segmentation
- L'apprentissage continu : les modeles s'ameliorent au fil du temps en apprenant des corrections apportees par les medecins
- L'integration multimodale : fusion de CT, IRM et PET pour une segmentation plus precise des volumes cibles
FAQ
Quel GPU est necessaire pour entrainer un modele de segmentation ?
Pour l'entrainement d'un modele U-Net ou nnU-Net en 3D sur des images CT, un GPU avec au moins 8 Go de VRAM est recommande (NVIDIA RTX 3070 ou superieur). Pour des volumes de grande taille ou des architectures plus profondes, 16 a 24 Go de VRAM sont preferables (RTX 3090, A5000, A6000). L'entrainement complet d'un modele nnU-Net avec validation croisee 5-fold prend typiquement 3 a 5 jours sur un GPU moderne. Pour l'inference (prediction), un GPU avec 4 Go de VRAM est generalement suffisant.
La segmentation automatique est-elle suffisamment fiable pour un usage clinique ?
Pour les organes a risque de grande taille (poumons, coeur, foie), la segmentation automatique atteint des performances comparables aux experts humains et est de plus en plus utilisee en routine clinique. Pour les structures de petite taille ou les volumes cibles tumoraux, la verification et la correction par un medecin restent indispensables. Les guidelines internationales recommandent une approche "AI-assisted" ou la segmentation automatique sert de point de depart que le clinicien valide et ajuste.
Quelle est la difference entre U-Net et nnU-Net ?
U-Net est une architecture de reseau de neurones (la structure du modele). nnU-Net est un framework complet qui utilise l'architecture U-Net mais ajoute une couche d'auto-configuration : il analyse automatiquement le jeu de donnees et determine la meilleure configuration (pre-traitement, architecture 2D/3D, augmentation des donnees, post-traitement). nnU-Net n'invente pas de nouvelle architecture, mais optimise methodiquement l'utilisation de U-Net pour chaque probleme specifique, ce qui lui confere des performances souvent superieures aux architectures plus complexes mal configurees.
Comment constituer un jeu de donnees pour la segmentation en radiotherapie ?
Le processus comprend la collecte d'images CT de planification avec les contourages correspondants (exportes depuis le TPS au format DICOM RT-Struct), l'anonymisation des donnees, la conversion au format adapte (NIfTI pour nnU-Net), et la verification de la qualite des annotations. Il est recommande de faire annoter les cas par au moins deux experts et de resoudre les desaccords par consensus. Un minimum de 50 a 100 cas est generalement necessaire pour obtenir des resultats exploitables, bien que des jeux de donnees plus grands (200 a 500 cas) ameliorent significativement les performances et la robustesse du modele.


