
Forskere har nylig introdusert EQ-Bench, en ny benchmark designet for å evaluere aspekter av emosjonell intelligens i store språkmodeller (LLMs). EQ-Bench fokuserer på modellers evne til å forstå komplekse følelser og sosiale interaksjoner ved å be dem forutsi intensiteten av emosjonelle tilstander hos karakterer i en dialog. Benchmarken er i stand til effektivt å skille mellom et bredt spekter av modeller.
Resultatene fra EQ-Bench korrelerer sterkt med omfattende multi-domene tester som MMLU, med en korrelasjonskoeffisient på 0,97. Dette indikerer at EQ-Bench kan fange opp lignende aspekter av bred intelligens. Benchmarken gir også svært repeterbare resultater ved bruk av et sett på 60 engelskspråklige spørsmål.
For å fremme åpenhet og videre forskning har forskerne gjort koden for en automatisert benchmarking-pipeline tilgjengelig på GitHub, samt en leaderboard på eqbench.com.
EQ-Bench representerer et betydelig skritt fremover i evalueringen av emosjonell intelligens i store språkmodeller, og gir et nytt verktøy for forskere og utviklere som ønsker å forbedre modellers forståelse av menneskelige følelser og sosiale dynamikker.