Introduction : le defi du contourage en radiotherapie

La segmentation des structures anatomiques -- organes a risque (OAR) et volumes cibles tumoraux -- est une etape fondamentale de la planification du traitement en radiotherapie. La qualite de cette segmentation conditionne directement la qualite du plan de traitement : un contourage imprecis peut entrainer une sous-irradiation de la tumeur ou une surexposition des organes sains adjacents.

Traditionnellement, le contourage est realise manuellement par le medecin radiotherapeute sur les images CT (scanner) de planification, coupe par coupe. Ce processus est long (30 minutes a plusieurs heures selon la localisation), subjectif (variations inter-observateurs significatives) et source de retard dans la prise en charge du patient.

Le deep learning offre une solution prometteuse a ces problemes en automatisant la segmentation des structures anatomiques avec une precision approchant celle des experts humains, en une fraction du temps.

Les reseaux de neurones convolutifs pour la segmentation

Principes fondamentaux des CNN

Les reseaux de neurones convolutifs (Convolutional Neural Networks, CNN) sont la base de la quasi-totalite des methodes de deep learning pour l'analyse d'images medicales. Un CNN apprend automatiquement a extraire des caracteristiques pertinentes (features) a partir des images brutes, sans necessite de definir manuellement les descripteurs.

Un CNN est compose de plusieurs types de couches :

Couches de convolution : appliquent des filtres appris sur l'image pour extraire des caracteristiques locales (contours, textures, formes)
Couches de pooling : reduisent la resolution spatiale pour capturer des informations a plus grande echelle
Couches d'activation : introduisent la non-linearite necessaire a l'apprentissage de fonctions complexes (ReLU, Leaky ReLU)
Couches de normalisation : stabilisent l'apprentissage (Batch Normalization, Instance Normalization)

De la classification a la segmentation

La segmentation semantique consiste a attribuer une classe (organe, tumeur, fond) a chaque pixel (ou voxel en 3D) de l'image. Contrairement a la classification qui attribue une etiquette globale a une image entiere, la segmentation produit une carte dense de predictions.

Le defi technique est de combiner :

L'information contextuelle : comprendre la scene globale pour identifier les structures
La precision spatiale : localiser precisement les contours de chaque structure

C'est cette double exigence qui a conduit au developpement d'architectures specialisees comme U-Net.

L'architecture U-Net

Concept et structure

U-Net est une architecture de reseau de neurones proposee en 2015 par Ronneberger et al. a l'Universite de Fribourg. Elle a ete initialement concue pour la segmentation d'images de microscopie biomedicale, mais elle est rapidement devenue l'architecture de reference pour la segmentation d'images medicales en general.

L'architecture tire son nom de sa forme en U, composee de deux branches :

La branche contractante (encodeur) : une succession de convolutions et de pooling qui reduit progressivement la resolution spatiale tout en augmentant le nombre de canaux de caracteristiques. A chaque niveau, la resolution est divisee par deux et le nombre de filtres est double.

La branche expansive (decodeur) : une succession de convolutions transposees (upsampling) et de convolutions qui restaure progressivement la resolution spatiale. A chaque niveau, la resolution est doublee et le nombre de filtres est reduit de moitie.

Les skip connections

L'element central de U-Net est la presence de connexions de saut (skip connections) entre les niveaux correspondants de l'encodeur et du decodeur. Ces connexions concatenent les cartes de caracteristiques de l'encodeur avec celles du decodeur au meme niveau de resolution.

Les skip connections permettent de :

Preserver les details spatiaux qui seraient perdus lors du sous-echantillonnage
Faciliter le flux du gradient lors de l'entrainement (moins de problemes de gradient evanescent)
Combiner les informations contextuelles de bas niveau (contours, textures) et de haut niveau (semantique)

output_decodeur_l = conv(concat(upsample(output_decodeur_{l+1}), output_encodeur_l))

ou l represente le niveau de resolution, conv les operations de convolution, concat la concatenation et upsample le sur-echantillonnage.

Variantes de U-Net

Depuis sa publication, de nombreuses variantes de U-Net ont ete proposees :

Variante	Modification principale	Avantage
3D U-Net	Convolutions 3D	Exploite le contexte inter-coupes
V-Net	Loss de Dice volumetrique	Meilleure gestion des classes desequilibrees
Attention U-Net	Mecanismes d'attention	Focus sur les regions pertinentes
U-Net++	Skip connections denses	Fusion multi-echelle amelioree
ResU-Net	Blocs residuels	Entrainement plus profond et stable

nnU-Net : l'auto-configuration intelligente

Le probleme de la configuration

L'une des difficultes majeures de l'application du deep learning en segmentation medicale est le grand nombre d'hyperparametres a configurer : architecture du reseau, taille des patchs, strategie d'augmentation des donnees, fonction de perte, taux d'apprentissage, pre-traitement des images, post-traitement des predictions.

Le choix optimal de ces parametres depend fortement du jeu de donnees considere (modalite d'imagerie, resolution, taille des structures, nombre d'exemples), et un reglage manuel est a la fois fastidieux et souvent sous-optimal.

La solution nnU-Net

nnU-Net (no-new-Net) est un framework propose par Isensee et al. (DKFZ, Heidelberg) qui automatise l'ensemble du pipeline de segmentation. Le principe est que la plupart des ameliorations de performance proviennent non pas de nouvelles architectures, mais d'une configuration optimale de l'architecture existante (U-Net) pour chaque probleme specifique.

nnU-Net analyse automatiquement le jeu de donnees et determine :

Le pre-traitement : normalisation des intensites, reeechantillonnage spatial, decoupage (cropping)
L'architecture : 2D, 3D ou cascade 2D+3D, nombre de niveaux, nombre de filtres
La taille des patchs : adaptee a la resolution et a la memoire GPU disponible
L'augmentation des donnees : rotations, deformations elastiques, ajustements d'intensite
Le post-traitement : suppression des petites regions, selection de la composante connexe principale

Pipeline d'entrainement

Le pipeline nnU-Net suit les etapes suivantes :

Analyse du dataset : extraction des statistiques (resolution, taille des images, distribution des classes)
Planification : determination automatique de la configuration optimale
Pre-traitement : application des transformations determinees a l'etape precedente
Entrainement : validation croisee 5-fold avec la configuration selectionnee
Post-traitement : optimisation basee sur les resultats de la validation croisee
Selection du modele : choix de la meilleure configuration (2D, 3D full, 3D cascade)

Les donnees d'entrainement

Le defi des donnees medicales

L'entrainement d'un reseau de segmentation necessite des donnees annotees, c'est-a-dire des images accompagnees des contourages de reference (ground truth). En imagerie medicale, l'obtention de ces annotations est particulierement couteuse car elle requiert l'expertise de medecins specialistes.

Les contraintes specifiques sont :

Volume des donnees : les images 3D (CT, IRM) sont volumineuses (512 x 512 x plusieurs centaines de coupes)
Temps d'annotation : le contourage d'un cas complet peut prendre plusieurs heures
Variabilite inter-observateurs : differents experts peuvent produire des contourages significativement differents
Confidentialite : les images medicales sont soumises a des reglementations strictes sur la protection des donnees

Strategies pour les petits jeux de donnees

Plusieurs techniques permettent de pallier la rarete des donnees annotees :

Augmentation des donnees : rotations, miroirs, deformations elastiques, ajustements de contraste pour multiplier artificiellement le nombre d'exemples d'entrainement
Transfer learning : utilisation de poids pre-entraines sur un grand jeu de donnees (ImageNet ou des donnees medicales similaires)
Self-supervised learning : pre-entrainement sur des donnees non annotees en utilisant des taches pretextes
Semi-supervised learning : exploitation combinee de donnees annotees et non annotees
Federated learning : entrainement distribue sur des donnees reparties dans plusieurs centres sans echange de donnees brutes

Metriques d'evaluation

Le coefficient de Dice (DSC)

Le coefficient de Dice (Dice Similarity Coefficient) est la metrique la plus utilisee pour evaluer la qualite d'une segmentation. Il mesure le recouvrement entre la prediction du modele et la verite terrain :

DSC = 2 * |P n V| / (|P| + |V|)

ou P est l'ensemble des voxels predits comme appartenant a la structure, V est l'ensemble des voxels de la verite terrain, et |P n V| est le nombre de voxels communs aux deux ensembles.

Le DSC varie entre 0 (aucun recouvrement) et 1 (recouvrement parfait). En pratique :

Structure	DSC typique (etat de l'art)	Interpretation
Poumons	0.97 - 0.99	Excellent
Coeur	0.92 - 0.96	Tres bon
Foie	0.94 - 0.97	Tres bon
Reins	0.93 - 0.96	Tres bon
Moelle epiniere	0.85 - 0.92	Bon
Parotides	0.82 - 0.90	Bon
Oesophage	0.70 - 0.82	Moderee
Chiasma optique	0.55 - 0.70	Difficile

Autres metriques

D'autres metriques complementent le DSC :

Distance de Hausdorff (HD95) : mesure la distance maximale (au 95e percentile) entre les surfaces predite et de reference. Elle est sensible aux erreurs locales grossieres.
Distance moyenne des surfaces (MSD) : moyenne des distances entre les deux surfaces, moins sensible aux outliers que la distance de Hausdorff.
Precision et rappel volumetriques : evaluent respectivement les faux positifs et les faux negatifs.

Applications cliniques en radiotherapie

Segmentation des organes a risque (OAR)

La segmentation automatique des OAR est l'application la plus mature du deep learning en radiotherapie. Les structures couramment segmentees incluent :

Region tete et cou : parotides, glandes sous-mandibulaires, moelle epiniere, tronc cerebral, chiasma optique, nerfs optiques, yeux, cristallins, mandibule, cochlees.

Region thoracique : poumons, coeur, oesophage, moelle epiniere, trachee, plexus brachial.

Region pelvienne : vessie, rectum, tetes femorales, intestin grele, canal anal.

Les systemes commerciaux de segmentation automatique (Limbus AI, MVision, Mirada DLCExpert) proposent des modeles pre-entraines pour ces structures, integres aux systemes de planification de traitement.

Segmentation des volumes cibles

La segmentation automatique des volumes cibles tumoraux (GTV, CTV) est plus complexe car :

Les tumeurs sont plus variables en forme, taille et localisation que les organes sains
Les limites tumorales sont souvent mal definies sur les images CT
L'apport d'informations multimodales (IRM, PET) est souvent necessaire

Des progres significatifs ont ete realises pour certaines localisations, notamment le cancer du nasopharynx, le glioblastome (sur IRM multiparametrique), et le cancer du col uterin.

Defis et limites actuels

Generalisation et domain shift

Le probleme du domain shift est l'un des defis majeurs : un modele entraine sur les donnees d'un centre A peut voir ses performances se degrader significativement lorsqu'il est applique aux donnees d'un centre B, en raison des differences dans les protocoles d'acquisition, les appareils et les populations de patients.

Les approches pour attenuer ce probleme incluent :

L'entrainement sur des donnees multi-centriques
Les techniques de domain adaptation
La normalisation des images en pre-traitement
Le fine-tuning sur un petit echantillon du nouveau centre

Structures de petite taille

Les petites structures (chiasma optique, nerfs optiques, cochlees) restent difficiles a segmenter avec precision. Le faible nombre de voxels les representant dans l'image rend l'apprentissage plus difficile et les metriques de performance plus instables.

Validation clinique rigoureuse

L'integration clinique des outils de segmentation automatique necessite :

Une validation prospective sur des donnees cliniques reelles
La demonstration de l'impact dosimetrique (les differences de contourage conduisent-elles a des differences cliniquement significatives dans les plans de traitement ?)
La mise en place de workflows de verification (le medecin doit toujours valider et corriger les contourages automatiques)
La conformite aux reglementations (marquage CE, FDA clearance)

Perspectives d'avenir

Le domaine evolue rapidement vers :

Les modeles de fondation (foundation models) : de grands modeles pre-entraines sur des millions d'images medicales, adaptables a de nouvelles taches avec peu de donnees (SAM-Med, UniverSeg)
La segmentation interactive : l'utilisateur guide le modele par des clics ou des boites englobantes pour affiner la segmentation
L'apprentissage continu : les modeles s'ameliorent au fil du temps en apprenant des corrections apportees par les medecins
L'integration multimodale : fusion de CT, IRM et PET pour une segmentation plus precise des volumes cibles

FAQ

Quel GPU est necessaire pour entrainer un modele de segmentation ?

Pour l'entrainement d'un modele U-Net ou nnU-Net en 3D sur des images CT, un GPU avec au moins 8 Go de VRAM est recommande (NVIDIA RTX 3070 ou superieur). Pour des volumes de grande taille ou des architectures plus profondes, 16 a 24 Go de VRAM sont preferables (RTX 3090, A5000, A6000). L'entrainement complet d'un modele nnU-Net avec validation croisee 5-fold prend typiquement 3 a 5 jours sur un GPU moderne. Pour l'inference (prediction), un GPU avec 4 Go de VRAM est generalement suffisant.

La segmentation automatique est-elle suffisamment fiable pour un usage clinique ?

Pour les organes a risque de grande taille (poumons, coeur, foie), la segmentation automatique atteint des performances comparables aux experts humains et est de plus en plus utilisee en routine clinique. Pour les structures de petite taille ou les volumes cibles tumoraux, la verification et la correction par un medecin restent indispensables. Les guidelines internationales recommandent une approche "AI-assisted" ou la segmentation automatique sert de point de depart que le clinicien valide et ajuste.

Quelle est la difference entre U-Net et nnU-Net ?

U-Net est une architecture de reseau de neurones (la structure du modele). nnU-Net est un framework complet qui utilise l'architecture U-Net mais ajoute une couche d'auto-configuration : il analyse automatiquement le jeu de donnees et determine la meilleure configuration (pre-traitement, architecture 2D/3D, augmentation des donnees, post-traitement). nnU-Net n'invente pas de nouvelle architecture, mais optimise methodiquement l'utilisation de U-Net pour chaque probleme specifique, ce qui lui confere des performances souvent superieures aux architectures plus complexes mal configurees.

Comment constituer un jeu de donnees pour la segmentation en radiotherapie ?

Le processus comprend la collecte d'images CT de planification avec les contourages correspondants (exportes depuis le TPS au format DICOM RT-Struct), l'anonymisation des donnees, la conversion au format adapte (NIfTI pour nnU-Net), et la verification de la qualite des annotations. Il est recommande de faire annoter les cas par au moins deux experts et de resoudre les desaccords par consensus. Un minimum de 50 a 100 cas est generalement necessaire pour obtenir des resultats exploitables, bien que des jeux de donnees plus grands (200 a 500 cas) ameliorent significativement les performances et la robustesse du modele.

Deep Learning pour la segmentation automatique en radiotherapie