Store språkmodeller for strukturert medisinsk informasjonsutvinning

Vis hovedpunkter
  • En ny studie presenterer en åpen kildekode-pipeline som bruker den lokale store språkmodellen "Llama 2" for å hente ut kvantitativ informasjon fra kliniske tekster.
  • Modellen ble evaluert på 500 pasientjournaler fra MIMIC IV-datasettet og viste høy nøyaktighet i identifisering av dekompensert levercirrhose.
  • Den største modellen med 70 milliarder parametere oppnådde 100% sensitivitet og 96% spesifisitet for påvisning av levercirrhose.
  • Modellen viste også høy sensitivitet og spesifisitet for påvisning av ascites, forvirring, magesmerter og kortpustethet.
  • Studien demonstrerer potensialet for lokalt distribuerte store språkmodeller til å hente ut klinisk informasjon fra fritekst med lave maskinvarekrav.
Store språkmodeller for strukturert medisinsk informasjonsutvinning
Bilde er generert av KI

Hovedfunn:

Llama 2-modellen oppnådde svært høy nøyaktighet, med 100% sensitivitet og 96% spesifisitet for påvisning av levercirrhose.

Modellen kunne også påvise ascites, forvirring, magesmerter og kortpustethet med gode sensitivitet- og spesifisitetsverdier, særlig med den største modellen (70 milliarder parametere).

Modellen klarte å håndtere både eksplisitt nevnte og implisitt beskrevne symptomer i tekst, noe som tradisjonelle regelbaserte metoder strever med.

Løsningen kjører lokalt, noe som er viktig for å overholde personvernregler i helsevesenet, spesielt innen EU.

Studien understreker at mesteparten av klinisk informasjon foreligger som ustrukturert tekst, som hittil har vært vanskelig å analysere kvantitativt. Bruk av store språkmodeller som Llama 2 kan endre dette ved å automatisere informasjonsutvinning, forbedre pasientbehandling, kvalitetssikring og forskningsgrunnlaget. Imidlertid påpekes utfordringer som modellens visse feilslutninger (hallusinasjoner) og behov for videre evaluering. Teknologien representerer likevel et viktig skritt mot bedre bruk av kliniske data uten å kompromittere pasientens personvern.

Denne forskningen bygger videre på eksisterende kunnskap om NLP i medisin og det økende behovet for verktøy som kan gjøre ustrukturert klinisk tekst tilgjengelig for beslutningsstøtte og forskning. Med locally deployable LLMs kan fremtidige helsevesen integrere slike systemer på egne servere, noe som kan revolusjonere håndtering og analyse av helseinformasjon.

Referanser

Steder

  • USA