HealthBench: Nieuwe AI-test voor gezondheid van OpenAI

OpenAI heeft een nieuwe standaard gelanceerd om te testen hoe goed AI omgaat met medische vragen: HealthBench. Dit is belangrijk, want AI speelt steeds vaker een rol in de zorg – van informatie geven aan patiënten tot het ondersteunen van artsen.

Wat is HealthBench?

HealthBench is een open benchmark die kijkt hoe AI-modellen presteren in echte gezondheidssituaties. Het is opgebouwd uit 5.000 gesprekken over medische onderwerpen – denk aan noodgevallen, medicatie, klachten of diagnostiek.

De gesprekken zijn realistisch en in meerdere talen.
Ze zijn gecontroleerd en beoordeeld door 262 artsen uit 60 landen.
Elke AI-reactie wordt beoordeeld aan de hand van een rubriek met criteria (zoals: is het antwoord correct, duidelijk, veilig?).

Waarom is dit belangrijk?

Veel AI-tests in de zorg zijn nog te simpel: meerkeuzevragen of korte scenario’s. Maar echte zorg is complex. HealthBench zorgt voor een betere toetsing die past bij wat artsen en patiënten écht nodig hebben:

Is het antwoord begrijpelijk?
Wordt er goed ingeschat wanneer iets spoed is?
Wordt de juiste context gezocht?

Hoe goed doet AI het?

OpenAI testte hun eigen modellen op HealthBench. De nieuwste modellen, zoals het o3-model, doen het stukken beter dan oudere versies:

GPT-3.5 scoorde 16%
GPT-4o (2024) scoorde 48%
Het nieuwste model o3 scoorde bijna 60%

Dat laat zien dat AI snel verbetert, maar ook dat er nog ruimte is om nóg veiliger en slimmer te worden in de zorg.

Wat kunnen we ermee?

HealthBench helpt AI-ontwikkelaars én zorgprofessionals om AI-systemen:

Beter te trainen
Beter te beoordelen
En uiteindelijk: veiliger in te zetten voor echte mensen

Het is een stap richting AI die echt het verschil kan maken voor de gezondheid van mensen wereldwijd.

📚 Meer weten of zelf bekijken?
Bekijk de officiële uitleg van OpenAI:
👉 https://openai.com/index/healthbench