
Bruken av syntetiske data i utviklingen av kunstig intelligens (KI) for helsetjenesten har fått økt oppmerksomhet. Syntetiske data er kunstig genererte datasett som etterligner ekte pasientdata, og kan brukes til å trene og validere KI-modeller uten å kompromittere personvernet.
Ifølge en rapport fra Nasjonalt senter for e-helseforskning trenger KI-systemer tilgang til store mengder data av høy kvalitet for trening, validering og testing. Tilgang til nødvendige helsedata kan være utfordrende på grunn av personvernhensyn, og syntetiske data kan være et virkemiddel for å gjøre tilgangen enklere og raskere.
Syntetiske data kan produseres med utgangspunkt i ekte pasientdata ved bruk av generative KI-modeller, og kan bestå av prøvesvar, radiologiske bilder og journalnotater som ser ekte ut, selv om de ikke er det. Dette kan bidra til å redusere risikoen for personvernbrudd når KI-verktøy tas i bruk i helsevesenet.
Imidlertid er det utfordringer knyttet til bruken av syntetiske data. En artikkel i Legeforeningens tidsskrift peker på at syntetiske data kan føre til en reduksjon i den ekte variasjonen i et datasett. Når syntetiske data genereres, etterligner de statistiske mønstre og forhold i de opprinnelige dataene, men de skaper ikke nødvendigvis helt nye eller unike datapunkter. Dette kan føre til at variasjonen i dataene blir kunstig begrenset, spesielt når datasettet allerede er lite eller mangler mangfold.
Videre kan bruken av syntetiske data føre til "modellkollaps", hvor KI-modeller trenes mer på syntetiske data de selv genererer. Denne prosessen kan redusere modellens evne til å forstå og gjengi virkeligheten, ettersom de gradvis glemmer de opprinnelige reelle dataene. Derfor er det avgjørende at KI-modeller både trenes på reelle og syntetiske data for å sikre at læringen opprettholdes over tid.
Til tross for disse utfordringene kan syntetiske data være nøkkelen til å akselerere implementeringen av kunstig intelligens i helsetjenesten. Videre forskning og utvikling av bedre metoder og verktøy er nødvendig for å maksimere potensialet til syntetiske data i fremtiden.