
Hovedfunn:
Llama 2-modellen oppnådde svært høy nøyaktighet, med 100% sensitivitet og 96% spesifisitet for påvisning av levercirrhose.
Modellen kunne også påvise ascites, forvirring, magesmerter og kortpustethet med gode sensitivitet- og spesifisitetsverdier, særlig med den største modellen (70 milliarder parametere).
Modellen klarte å håndtere både eksplisitt nevnte og implisitt beskrevne symptomer i tekst, noe som tradisjonelle regelbaserte metoder strever med.
Løsningen kjører lokalt, noe som er viktig for å overholde personvernregler i helsevesenet, spesielt innen EU.
Studien understreker at mesteparten av klinisk informasjon foreligger som ustrukturert tekst, som hittil har vært vanskelig å analysere kvantitativt. Bruk av store språkmodeller som Llama 2 kan endre dette ved å automatisere informasjonsutvinning, forbedre pasientbehandling, kvalitetssikring og forskningsgrunnlaget. Imidlertid påpekes utfordringer som modellens visse feilslutninger (hallusinasjoner) og behov for videre evaluering. Teknologien representerer likevel et viktig skritt mot bedre bruk av kliniske data uten å kompromittere pasientens personvern.
Denne forskningen bygger videre på eksisterende kunnskap om NLP i medisin og det økende behovet for verktøy som kan gjøre ustrukturert klinisk tekst tilgjengelig for beslutningsstøtte og forskning. Med locally deployable LLMs kan fremtidige helsevesen integrere slike systemer på egne servere, noe som kan revolusjonere håndtering og analyse av helseinformasjon.