Blog

Health and AI

Sommaire
Health and AI

HealthTech en France : pourquoi les données médicales sont le pétrole de la prochaine décennie

Données médicales : la France est assise sur un trésor. Sans structuration, elle finance l'IA des autres.

L'essentiel en 30 secondes

L'essentiel en 30 secondes
Question Réponse courte Ce qu'il faut retenir
Les données médicales sont-elles comparables au pétrole ? En partie seulement Contrairement au pétrole, la donnée médicale ne s'épuise pas — mais elle perd toute valeur si elle reste non structurée.
La France a-t-elle un avantage en matière de données de santé ? Oui, mais théorique Le SNDS est l'un des plus grands gisements mondiaux, mais la majorité de sa valeur reste inexploitable en l'état.
Quel est le principal obstacle à l'IA médicale en France ? La structuration, pas le volume Les DPI anciens génèrent des données en texte libre ou PDF, incompatibles avec l'entraînement d'IA.
Qu'est-ce que le standard FHIR et pourquoi est-il clé ? Le langage commun de la santé HL7 FHIR (Fast Healthcare Interoperability Resources) est le standard d'interopérabilité imposé par l'ANS pour les nouveaux DPI en France.
Qui risque de récupérer la valeur créée par ces données ? Les géants tech étrangers Sans infrastructure propre, les hôpitaux français deviennent fournisseurs de matière brute pour des acteurs qui revendront l'intelligence produite.
Qu'est-ce que l'approche Galeon sur ce sujet ? Structurer la donnée à la source Galeon structure les données directement au moment de la génération, dans 19 hôpitaux, pour que la valeur reste dans l'écosystème hospitalier français.
Que risque la France si elle n'agit pas dans la décennie ? Une dépendance numérique en santé Perdre le contrôle de la donnée, c'est perdre le contrôle de la stratégie de soins nationale — et financer l'IA des autres.
Y a-t-il des limites à l'exploitation des données médicales ? Oui, plusieurs RGPD, consentement patient, risques de réidentification et résistances institutionnelles freinent encore la mise en valeur de ces données.

Introduction

La France est assise sur un trésor. Le SNDS (Système National des Données de Santé) rassemble plusieurs dizaines d'années de parcours de soins pour plus de 70 millions de personnes. C'est l'un des gisements de données médicales les plus riches au monde. Et pourtant, la recherche française reste dépendante d'acteurs étrangers pour ses modèles d'IA les plus ambitieux.

Le paradoxe est brutal : nous avons les données. Nous n'avons pas l'infrastructure pour en extraire la valeur. Le volume est une illusion, la structure est la réalité. Et cette différence, technique en apparence, est en réalité un enjeu de souveraineté nationale.

Galeon l'a compris avant les rapports officiels. Déployé dans 19 hôpitaux, couvrant plus de 3 millions de dossiers patients et accompagnant plus de 10 000 soignants au quotidien, Galeon construit ce que la France attend depuis une décennie : une infrastructure de données médicales structurées, interopérables et souveraines.

Cet article explore pourquoi les données de santé sont le pétrole de la prochaine décennie et surtout pourquoi la France est encore en train de le laisser brûler sur place.

Pourquoi compare-t-on les données médicales au pétrole ?

La comparaison est séduisante. Comme le pétrole dans les années 1920, la donnée de santé est abondante chez certains, rare chez d'autres, et presque tous s'accordent à dire qu'elle va "tout changer". Les grandes entreprises technologiques, Google Health, Microsoft, Amazon Web Services, investissent des milliards pour en prendre le contrôle. Les États adoptent des régulations pour en protéger l'accès.

Mais la métaphore a ses limites, et elles sont importantes.

Le pétrole s'épuise. La donnée médicale, elle, se renouvelle en permanence, à chaque consultation, chaque hospitalisation, chaque examen biologique. Son enjeu n'est pas la rareté. Son enjeu, c'est le silotage : des milliers de bases de données compartimentées, dans des formats incompatibles, produites par des systèmes qui ne se parlent pas.

La vraie ressource rare n'est pas la donnée brute. C'est la donnée structurée, interopérable et prête pour l'intelligence artificielle.

Quel est l'état réel des données de santé en France en 2026 ?

Le SNDS : un géant aux pieds d'argile

Le Système National des Données de Santé est, sur le papier, une infrastructure exceptionnelle. Il consolide les remboursements de l'Assurance Maladie, les données hospitalières du PMSI (Programme de Médicalisation des Systèmes d'Information) et les causes médicales de décès. Pour la recherche épidémiologique ou les études pharmaco-économiques, c'est une ressource sans équivalent en Europe.

Mais le SNDS a été conçu pour le remboursement, pas pour l'IA. Les données y sont structurées selon une logique administrative, pas clinique. Les variables biologiques, les comptes-rendus d'imagerie, les observations des soignants, l'essentiel de ce qui fait un parcours de soin, en sont largement absents.

Les DPI hospitaliers : 90 % de valeur perdue

Dans la grande majorité des hôpitaux français, le DPI (Dossier Patient Informatisé) est encore un outil de transcription, pas de structuration. Les médecins saisissent des comptes-rendus en texte libre. Les ordonnances sont scannées en PDF. Les résultats d'analyses sont importés depuis des systèmes tiers sans harmonisation sémantique.

Résultat : une donnée théoriquement disponible, mais pratiquement inexploitable par un algorithme d'IA sans un travail de nettoyage coûteux et chronophage.

Selon un rapport de la Cour des comptes publié en 2023, les systèmes d'information hospitaliers représentent l'un des principaux freins à la transformation numérique du système de santé français en raison de leur hétérogénéité et de leur ancienneté.

90 % de la valeur d'une donnée médicale se perd avant même qu'un algorithme ne la touche. Ce n'est pas un problème de quantité. C'est un problème d'architecture.

Pourquoi la France risque-t-elle de devenir une colonie numérique en santé ?

Le schéma de la dépendance

Il se produit quelque chose de silencieux dans les hôpitaux français. Des entreprises, souvent américaines, parfois chinoises, proposent des solutions d'IA "clé en main" pour la radiologie, la biologie, la prédiction de réadmission. Les établissements signent. Les données circulent. Les modèles s'entraînent.

Et la valeur créée, les brevets, les algorithmes, les insights épidémiologiques, reste chez l'éditeur étranger.

Les hôpitaux français, faute d'infrastructure propre, deviennent des fournisseurs de matière brute. Ils produisent la ressource. D'autres en extraient l'intelligence. Et ils rachèteront cette intelligence sous forme de licences, pour toujours.

Le CLOUD Act : une menace concrète sur la souveraineté

Le CLOUD Act américain (Clarifying Lawful Overseas Use of Data Act) contraint les entreprises américaines à fournir des données à la justice américaine, quel que soit le pays où ces données sont stockées. Héberger des données médicales françaises chez un acteur américain, même certifié HDS (Hébergeur de Données de Santé), expose structurellement à ce risque juridique.

La souveraineté ne se décrète pas dans des rapports. Elle se code dans l'interopérabilité et dans les choix d'hébergement.

C'est pourquoi l'Agence du Numérique en Santé (ANS) pousse vers des architectures conformes au référentiel HDS et, pour les données les plus sensibles, vers des solutions qualifiées SecNumCloud par l'ANSSI (Agence Nationale de la Sécurité des Systèmes d'Information).

Comment transformer la donnée brute en intelligence médicale ?

Du Big Data au Smart Data : l'enjeu de la structuration

L'idée que "plus de données = plus d'IA" est fausse. Un modèle d'IA entraîné sur des données hétérogènes, mal étiquetées et sémantiquement incohérentes produit des résultats peu fiables, voire dangereux en contexte clinique.

La vraie transformation passe par trois niveaux de structuration :

  • L'interopérabilité syntaxique : les systèmes utilisent le même format d'échange (HL7 FHIR, Fast Healthcare Interoperability Resources).
  • L'interopérabilité sémantique : les concepts médicaux sont codifiés selon des nomenclatures partagées (SNOMED CT, LOINC pour la biologie, DICOM pour l'imagerie).
  • La traçabilité du consentement : chaque utilisation de données patient est horodatée, auditée, réversible.

Sans ces trois niveaux, le "Big Data" en santé reste une promesse creuse. Avec eux, il devient du "Smart Data", exploitable par les algorithmes dès la génération.

L'approche Native-AI : structurer à la source

La rupture de paradigme que Galeon propose est simple à formuler, difficile à mettre en œuvre : ne pas structurer les données après leur création, mais au moment de leur création.

Dans les hôpitaux partenaires de Galeon, les soignants documentent dans un DPI conçu pour produire directement de la donnée structurée, codifiée et interopérable. Pas de nettoyage a posteriori. Pas de transformation coûteuse. La valeur est capturée à la source et elle reste dans l'hôpital.

C'est ce que Galeon appelle le principe Native-AI : chaque interaction soignant-système produit une donnée immédiatement exploitable par un algorithme d'intelligence artificielle.

Galeon face aux approches traditionnelles : comparatif

Galeon vs. DPI traditionnel
Critère DPI traditionnel (approche legacy) Approche Galeon (Native-AI + BSL®)
Format de la donnée Texte libre, PDF, formats propriétaires — difficilement exploitables par un algorithme. Structurée nativement selon HL7 FHIR et nomenclatures SNOMED CT / LOINC.
Interopérabilité entre hôpitaux Inexistante ou manuelle — chaque établissement reste un îlot de données. Assurée par la blockchain inter-hospitalière (BSL®) sans transfert de données brutes.
Exploitation par l'IA Nécessite un nettoyage long et coûteux avant tout entraînement de modèle. Immédiate — données prêtes à l'entraînement dès la saisie clinique (Native-AI).
Propriété des données Floue — souvent partagée contractuellement avec l'éditeur de la solution. Données restent sur les serveurs de l'hôpital à tout moment. Jamais centralisées.
Souveraineté numérique Exposée aux risques CLOUD Act si hébergement chez un acteur américain. Architecture décentralisée HDS, sans tiers centralisateur ni exposition extraterritoriale.
Partage de la valeur créée Bénéfice capté par l'éditeur de la solution IA — l'hôpital supporte le coût, pas le gain. Redistribution aux hôpitaux via le token $GALEON (40 % aux établissements contributeurs).
Conformité RGPD / HDS Variable selon l'éditeur — le consentement patient est rarement tracé de façon granulaire. Consentement patient tracé, horodaté et réversible dès la conception de l'architecture.
Potentiel pour la recherche Limité — données hétérogènes, difficilement agrégables entre établissements. Élevé — accès à 3M+ dossiers structurés, multi-sites, entraînables sans exposer les données brutes.
Impact sur la charge soignante Souvent chronophage — ressaisies, doublons, interfaces peu ergonomiques. Réduction des tâches administratives grâce à l'automatisation native et l'aide à la codification.
Modèle économique pour l'hôpital Coût pur — abonnement éditeur sans retour sur la valeur des données produites. Générateur de revenus — les hôpitaux valorisent leurs données via le BSL® et le token $GALEON.

Quelles sont les limites et les enjeux réels de cette transition ?

1. Le RGPD : une contrainte légitime, pas un prétexte

Le Règlement Général sur la Protection des Données encadre strictement l'utilisation des données médicales et c'est une bonne chose. Toute exploitation à des fins de recherche ou d'entraînement d'IA requiert soit un consentement explicite du patient, soit un cadre légal spécifique (CEREES, MR-004...). Cette complexité réglementaire ralentit les projets et elle ne disparaîtra pas.

2. La résistance institutionnelle : un facteur sous-estimé

Les DSI (Directeurs des Systèmes d'Information) hospitaliers font face à des contraintes budgétaires réelles et à des systèmes d'information en place depuis parfois 20 ans. Migrer vers un DPI structurant est un projet de plusieurs années, non de quelques mois. L'adhésion des équipes soignantes, qui doivent changer leurs habitudes de documentation, est un défi humain autant que technique.

3. Le risque de réidentification

Même anonymisées, les données médicales présentent des risques de réidentification lorsqu'elles sont croisées avec d'autres sources. Les techniques de pseudonymisation avancées et les architectures de type Blockchain Swarm Learning® (BSL®) réduisent ce risque, mais ne l'éliminent pas totalement. La vigilance reste de mise.

4. L'inégalité territoriale d'accès aux données

Les établissements privés, les cliniques de taille moyenne et les hôpitaux ruraux produisent des données tout aussi précieuses, mais restent souvent hors des initiatives de structuration nationales. Une politique de données de santé efficace doit adresser cette fracture, au risque de créer des biais systémiques dans les modèles d'IA entraînés.

5. La gouvernance des algorithmes : qui contrôle ce que l'IA décide ?

Structurer la donnée et entraîner des modèles n'est que la première étape. La question de la gouvernance des algorithmes, qui les valide, qui les audite, qui les conteste, reste largement ouverte en France, malgré les travaux de la HAS (Haute Autorité de Santé) sur les dispositifs médicaux intégrant de l'IA (DM-IA).

FAQ : données médicales et IA en France

Les données médicales françaises peuvent-elles être utilisées pour entraîner des IA ? Oui, sous conditions strictes. Le cadre légal français permet l'utilisation de données de santé à des fins de recherche, d'étude ou d'évaluation, à condition de respecter les procédures CNIL (Commission Nationale de l'Informatique et des Libertés) applicables et d'obtenir les autorisations adéquates. Les hôpitaux qui structurent leur donnée en amont disposent d'un avantage considérable pour accéder à ces usages légalement.

Qu'est-ce que le SNDS et pourquoi n'est-il pas suffisant pour l'IA médicale ? Le SNDS (Système National des Données de Santé) regroupe les données de remboursement de l'Assurance Maladie pour plus de 70 millions de personnes. Il est précieux pour l'épidémiologie et l'évaluation des politiques de santé. En revanche, il ne contient ni les données biologiques détaillées, ni les observations cliniques, ni les images médicales, ce qui le rend insuffisant pour entraîner des IA cliniques de précision.

Qu'est-ce que HL7 FHIR et pourquoi est-ce le standard de référence ? HL7 FHIR (Fast Healthcare Interoperability Resources) est le standard international d'échange de données de santé. Il définit un format commun, des "ressources" structurées, qui permet à des systèmes d'information différents de se comprendre sans transformation manuelle. Il est aujourd'hui imposé par l'ANS (Agence du Numérique en Santé) comme prérequis pour les nouveaux DPI en France.

Qu'est-ce que le Blockchain Swarm Learning® (BSL®) de Galeon ? Le BSL® est l'architecture propriétaire de Galeon pour entraîner des IA médicales de façon décentralisée. Les données restent sur les serveurs de chaque hôpital  elles ne circulent pas. Ce sont les algorithmes d'IA qui se "déplacent" d'un nœud à l'autre via la blockchain pour s'entraîner localement, sans jamais exposer les données brutes. La blockchain trace chaque usage et permet de redistribuer la valeur créée à chaque établissement contributeur.

Comment les hôpitaux peuvent-ils monétiser leurs données de santé sans violer la vie privée des patients ? Le modèle Galeon repose sur un consentement patient explicite et traçable. Chaque patient peut choisir si ses données (anonymisées) participent à la recherche, peut retirer son consentement à tout moment, et bénéficie, via le système de gouvernance DAO, d'une redistribution indirecte de la valeur créée. La monétisation ne passe pas par la vente de données brutes, mais par la mise à disposition de modèles entraînés sur ces données.

La France peut-elle rattraper son retard sur les États-Unis ou la Chine en IA médicale ? Oui  à condition d'agir maintenant sur la structuration, pas sur le volume. Les États-Unis disposent d'acteurs comme Epic ou Google Health qui structurent la donnée depuis des années. La Chine a opté pour une centralisation massive. La voie française, souveraine, éthique, décentralisée, est techniquement viable. Mais chaque année perdue creuse un écart difficile à combler.

La bataille de la décennie a déjà commencé

La prochaine décennie en santé ne sera pas gagnée par ceux qui auront les meilleurs algorithmes. Elle sera gagnée par ceux qui maîtrisent le cycle de vie de la donnée, de sa génération à son exploitation, en passant par sa gouvernance.

La France dispose d'un gisement exceptionnel et d'une tradition de protection des données qui peut devenir un avantage compétitif mondial, à condition d'arrêter de traiter la structuration comme un détail technique. C'est un choix stratégique national. Les hôpitaux qui structurent leur donnée aujourd'hui, avec des standards comme HL7 FHIR, des architectures décentralisées comme le BSL® de Galeon, et des cadres de consentement patient robustes seront les hôpitaux qui attireront les investissements en recherche demain.

Galeon, déployé dans 19 hôpitaux et ancré dans plus de 3 millions de dossiers patients, démontre que l'équation est soluble : souveraineté des données, valeur redistribuée aux soignants et aux établissements, IA entraînée sans jamais exposer une donnée brute. Ce n'est pas un prototype. C'est une infrastructure opérationnelle.

En santé, la donnée est un trésor. Ne la laissons pas devenir une archive.

Vous voulez en savoir plus sur notre DPI intelligent ?

Demander une démo

Sources

Ils nous font confiance

Logo du Centre Hospitalier Intercommunal Toulon La Seyne-sur-MerLogo du Centre Hospitalier Sud Francilien (CHSF)Logo blanc du GHNE (Groupement Hospitalier Nord Essonne) sur fond transparentLogo du CHU de RouenLogo du CHU Caen Normandie