EQ-Bench: Nytt verktøy for å måle emosjonell intelligens i store språkmodeller

Vis hovedpunkter
  • EQ-Bench er en ny benchmark for å måle emosjonell intelligens i store språkmodeller.
  • Den fokuserer på modellers evne til å forstå komplekse følelser og sosiale interaksjoner.
  • Benchmarken viser høy korrelasjon med eksisterende multi-domene tester som MMLU.
  • EQ-Bench gir repeterbare resultater med et sett på 60 engelskspråklige spørsmål.
  • Koden og en leaderboard er tilgjengelige for offentlig bruk.
EQ-Bench: Nytt verktøy for å måle emosjonell intelligens i store språkmodeller
Bilde er generert av KI

Forskere har nylig introdusert EQ-Bench, en ny benchmark designet for å evaluere aspekter av emosjonell intelligens i store språkmodeller (LLMs). EQ-Bench fokuserer på modellers evne til å forstå komplekse følelser og sosiale interaksjoner ved å be dem forutsi intensiteten av emosjonelle tilstander hos karakterer i en dialog. Benchmarken er i stand til effektivt å skille mellom et bredt spekter av modeller.

Resultatene fra EQ-Bench korrelerer sterkt med omfattende multi-domene tester som MMLU, med en korrelasjonskoeffisient på 0,97. Dette indikerer at EQ-Bench kan fange opp lignende aspekter av bred intelligens. Benchmarken gir også svært repeterbare resultater ved bruk av et sett på 60 engelskspråklige spørsmål.

For å fremme åpenhet og videre forskning har forskerne gjort koden for en automatisert benchmarking-pipeline tilgjengelig på GitHub, samt en leaderboard på eqbench.com.

EQ-Bench representerer et betydelig skritt fremover i evalueringen av emosjonell intelligens i store språkmodeller, og gir et nytt verktøy for forskere og utviklere som ønsker å forbedre modellers forståelse av menneskelige følelser og sosiale dynamikker.

Referanser