Pourquoi vos données de santé valent de l'or

Sur les marchés illégaux, le dossier médical est devenu l’actif le plus convoité. Plus qu’une carte bancaire, plus qu’un passeport. Et contrairement à eux, il ne se remplace pas.

Le 15 août 2023, à 2 h 14 du matin, un fichier apparaît sur un forum du dark web.

Titre : « France — 180k full medical profiles — verified »
Prix de départ : cinq bitcoins.

À l’intérieur : des comptes rendus d’IRM, des ordonnances, des diagnostics psychiatriques, des identités complètes — parfois les coordonnées d’un proche à prévenir en cas d’urgence.

Ce n’est pas une anomalie. Ce n’est pas non plus le fait d’un groupe isolé qui aurait eu de la chance. C’est une transaction parmi des milliers, sur des plateformes qui fonctionnent depuis des années, avec leurs propres codes, leurs propres acteurs, leur propre logique économique.

La donnée médicale s’y négocie jusqu’à 1 000 € le dossier complet — environ cinquante fois le prix d’un numéro de carte bancaire volé. La raison est simple, et elle explique tout ce qui suit : un relevé de compte se clôture, un mot de passe se change, un diagnostic psychiatrique ou un antécédent cardiaque, eux, restent toute une vie.

1 — Ce que vaut réellement un dossier médical

Pour comprendre pourquoi ces données atteignent de tels prix, il faut regarder ce qu’elles permettent de faire — concrètement, et pas seulement dans le registre de la fraude évidente.

Un dossier médical complet contient généralement : une identité vérifiée, un historique de pathologies, des ordonnances actives, des comptes rendus d’examens, parfois des éléments de contexte familial ou social. C’est une photographie précise et durable d’une personne réelle. Et cette photographie, votre corps la produit en continu — bien au-delà des seules consultations médicales. (Ce sujet fera l’objet d’un article dédié.)

Les usages criminels sont multiples. Le plus immédiat est la fraude à l’assurance : avec un dossier authentique, il est possible de formuler des demandes de remboursement crédibles, difficiles à distinguer de demandes légitimes. Vient ensuite le chantage : un diagnostic psychiatrique, une pathologie chronique, un traitement dont la personne n’a peut-être pas informé son employeur ou sa famille — autant de points de pression. L’usurpation d’identité médicale permet d’obtenir des prescriptions détournées, notamment pour des substances contrôlées.

Mais il y a un usage moins visible, et qui prend de l’importance : l’entraînement de modèles d’IA. Des données structurées, chronologiques, codifiées selon les standards médicaux — c’est exactement ce dont ont besoin les modèles d’apprentissage automatique appliqués à la santé. Le fait que certains de ces modèles aient pu être entraînés, partiellement, sur des données extraites illégalement fait l’objet d’investigations dans plusieurs pays.
Ce n’est pas encore documenté publiquement à grande échelle, mais c’est pris au sérieux par les régulateurs — et cela pose une question directe sur ce que coûte réellement l’entraînement d’une IA médicale. (À paraître dans une prochaine publication.)

2 — L’ampleur réelle du problème

Les estimations globales sont difficiles à consolider, et les chiffres qui circulent dans les rapports sectoriels gagneraient souvent à être lus avec plus de précaution qu’ils ne le sont. Mais les incidents documentés donnent une idée de l’échelle.

En février 2024, l’attaque contre Change Healthcare — un prestataire qui gère une part considérable des transactions médicales aux États-Unis — a exposé les données de 190 millions de personnes. C’est le plus grand incident de ce type jamais enregistré dans le secteur de la santé américain. La même année, en France, la compromission des systèmes de Viamedis et Almerys, deux opérateurs de tiers payant, a concerné 33 millions d’assurés. Anthem, en 2015, avait déjà exposé près de 79 millions de dossiers.

Le chiffre de 65 millions de dossiers en circulation avancé par Check Point Research ne représente donc qu’une fraction du stock documenté — et probablement une fraction encore plus faible du stock réel, une grande partie des incidents n’étant jamais rendue publique.

Les chiffres donnent une échelle. La mécanique concrète d’une attaque — ce qui se passe dans les premières heures, les décisions prises sous pression, les données qui partent avant même que l’alerte soit donnée — sera documentée dans un prochain article.

Ce qui circule sur les marchés illégaux n’est pas homogène. Les données fraîches se négocient plus cher. Les profils complets — avec historique, prescriptions actives, identité vérifiée — atteignent les prix les plus élevés. Les bases volumineuses mais peu structurées se vendent en gros, à des acheteurs qui disposent des outils pour les exploiter.

Ordres de grandeur observés sur plusieurs plateformes

Volume	Prix estimé
10 000 dossiers français	~ 20 000 €
100 000 dossiers	> 100 000 €
1 million de profils	plusieurs centaines de milliers d’€

Les prix varient selon la richesse, la fraîcheur et la structuration des données.

3 — Comment fonctionne ce marché

L’image du pirate isolé ne correspond plus à la réalité de ces réseaux depuis longtemps. Les plateformes spécialisées dans les données de santé fonctionnent avec une infrastructure calquée sur celle des places de marché légales : vendeurs notés et certifiés, systèmes de réputation, service de séquestre pour sécuriser les transactions, échantillons offerts pour attester l’authenticité des bases, remises dégressives sur les gros volumes, support en cas de litige.

Une annonce typique ressemble à ceci :

« HEALTH PACK EU — 500k profiles — diagnostics + prescriptions — escrow available — bulk discount »

Ce niveau d’organisation n’est pas apparu du jour au lendemain. Il s’est construit sur une décennie de professionnalisation des réseaux cybercriminels, portée par trois facteurs : la numérisation accélérée des systèmes de santé, la valeur croissante des données structurées pour les algorithmes, et la relative facilité avec laquelle les établissements de santé peuvent être compromis.

Un hôpital n’est pas une banque. Il ne dispose pas des mêmes budgets de sécurité, ni des mêmes équipes. Ses systèmes d’information sont souvent hétérogènes, hérités de décennies de couches successives, difficiles à mettre à jour sans interrompre des fonctions critiques. 96 logiciels pour un seul patient. C’est la réalité de nombreux établissements français, et c’est précisément ce morcellement qui crée des surfaces d’attaque impossibles à surveiller dans leur totalité. (Un article à venir reviendra sur comment les hôpitaux ont perdu le contrôle de leur propre architecture informatique.):

4 — La zone grise : ce qui se passe après le vol

Le marché noir est la partie visible. La plus difficile à cerner est ce qui vient ensuite.

Une fraction significative des bases volées ne reste pas dans les circuits purement illégaux. Elle transite par des intermédiaires, subit une anonymisation superficielle, est enrichie par recoupement avec des données tierces — géolocalisation, historiques d’achat, réseaux sociaux, fichiers publics — et réapparaît dans des circuits qui se présentent comme conformes : courtiers de données, études de marché, parfois recherche secondaire. C’est ce que nous appelons la zone grise — un marché parallèle qui prospère précisément parce qu’il n’a pas de nom clair dans les réglementations actuelles. (Un article dédié lui sera consacré prochainement.)

Selon une étude de Harvard Medical School (2023), environ 80 % des données médicales anonymisées pourraient être ré-identifiées par ce type de croisement. Ce chiffre varie selon les méthodes et les contextes, et il serait inexact de l’appliquer uniformément à toutes les bases. Mais le problème de fond qu’il illustre est documenté, reproductible, et pris au sérieux par les autorités de régulation dans plusieurs pays.

Ce schéma pose un problème de gouvernance que la réglementation actuelle peine à saisir. Le RGPD encadre la collecte et le traitement des données. Il est beaucoup moins outillé pour tracer ce qui circule après une fuite, dans des chaînes d’intermédiaires où le statut juridique de chaque maillon est difficile à établir. La donnée change de forme, de support, de propriétaire apparent. À quel moment cesse-t-elle d’être « volée » pour devenir « traitée » ?

C’est dans cet espace intermédiaire que la perte de contrôle devient difficile à résorber.

5 — Ce que la défiance coûte au soin

Les conséquences les plus graves ne sont pas nécessairement celles qu’on mesure le plus facilement.

Selon le baromètre de la CNIL (2024), 72 % des Français déclarent craindre une fuite de leurs données médicales. Dans le même sondage, 82 % affirment qu’ils accepteraient de les partager si les conditions de transparence étaient clairement établies. L’écart entre ces deux chiffres n’est pas anodin : il indique que le problème n’est pas un refus de principe, mais une défiance construite sur des expériences concrètes et une information insuffisante.

Cette défiance a des effets cliniques directs. Des patients minimisent des symptômes en consultation. D’autres omettent des antécédents qu’ils ne souhaitent pas voir figurer dans un système qu’ils ne contrôlent pas. Certains refusent des dépistages ou des examens dont les résultats pourraient alimenter une base qu’ils ne maîtrisent pas. Le parcours de soin se fragmente. Les données cliniques s’appauvrissent.

Ce n’est pas un phénomène marginal. C’est un biais documenté dans plusieurs études sur l’adhésion aux soins — difficile à quantifier précisément, mais cohérent et reproductible. Et ses conséquences dépassent le patient individuel : une donnée clinique incomplète affaiblit la décision médicale, réduit la qualité des outils de prévention, perturbe les études épidémiologiques, et dégrade les modèles sur lesquels s’appuient de plus en plus les politiques de santé publique.

Il y a une ironie dans ce mécanisme : plus les systèmes de santé misent sur la donnée pour améliorer les soins, plus la défiance des patients risque d’appauvrir cette donnée elle-même.

Des approches techniques tentent de répondre à cette tension. Certaines architectures permettent de ne partager que les apprentissages issus de l’analyse des données, sans faire circuler les données elles-mêmes — c’est le principe de l’apprentissage fédéré, que Swarm Learning (Swarm Learning : l’innovation qui peut sauver l’IA médicale) pousse aujourd’hui à l’échelle hospitalière. D’autres s’appuient sur des environnements d’exécution sécurisés, où la donnée peut être interrogée sans être extraite. Ces outils existent et fonctionnent. Ils restent cependant marginaux à l’échelle des systèmes de santé, faute de déploiement industriel et de volonté politique suffisante.

6 — La question de la responsabilité

Qui est responsable de cet état de fait ? La réponse honnête est que la responsabilité est diffuse — ce qui la rend plus difficile à adresser qu’une défaillance localisée.

Les établissements de santé sont souvent pointés en premier. Légitimement, en partie : des audits menés dans plusieurs pays européens montrent des lacunes persistantes dans les pratiques de base — gestion des accès, mises à jour, segmentation des réseaux, formation des personnels. Mais ces établissements opèrent avec des budgets contraints, des systèmes d’information hérités de choix faits il y a vingt ans, et une pression opérationnelle qui laisse peu de marge pour des chantiers de sécurité longs et coûteux.

Les éditeurs de logiciels médicaux portent une part de responsabilité que la réglementation commence seulement à encadrer sérieusement. La directive NIS2, entrée en application en Europe fin 2024, étend les obligations de sécurité à une partie de la chaîne des prestataires. Mais son application reste inégale selon les États membres — En France, cette lenteur d’adoption tient aussi à des facteurs structurels propres au modèle de décision national en matière de santé numérique — un sujet que nous traiterons séparément.

Les États, enfin, ont longtemps traité la numérisation de la santé comme un projet de modernisation administrative, sans y adosser dès le départ une politique de sécurité à la hauteur des risques. En France, les plans successifs — Mon Espace Santé, l’Espace Numérique de Santé — ont progressé, mais la question de la gouvernance des données reste incomplète. Qui a accès à quoi, dans quelles conditions, avec quelle traçabilité : ces questions n’ont pas toutes de réponse claire aujourd’hui.

Conclusion

Un historique médical ne se réinitialise pas. C’est sur cette réalité simple que repose tout ce qui précède.
La cybersécurité est nécessaire. Elle ne suffit pas.

Tant que la question de la gouvernance — qui accède à quoi, dans quelles conditions, avec quelle traçabilité — restera sans réponse claire, le marché criminel ne sera pas le seul à prospérer sur ce vide.

Sources et références

ENISA — Threat Landscape for Health
IBM X-Force Intelligence Report (2024) (Le rapport complet est accessible après formulaire — la page de présentation est publique)
Check Point Research — Healthcare cybersecurity (2025)
CNIL / Health Data Hub — Baromètre données de santé (2024) (Baromètre co-produit avec la CNIL — c’est la source exacte des données citées dans l’article)
Re-identification risk — source académique de référence
HHS / OCR — Change Healthcare Breach (source officielle)
OCDE — Health Data Governance

Pourquoi vos données de santé valent de l’or

1 — Ce que vaut réellement un dossier médical

2 — L’ampleur réelle du problème

3 — Comment fonctionne ce marché

4 — La zone grise : ce qui se passe après le vol

5 — Ce que la défiance coûte au soin

6 — La question de la responsabilité

Conclusion

Sources et références

L’infrastructure française qui est en train de redéfinir la santé numérique

Continuer l’exploration

Bryan Johnson n'est pas un excentrique

Swarm Learning : l’innovation qui peut sauver l’IA médicale