OpenAI: اندازهگیری عملکرد مدلهای ما در وظایف دنیای واقعی
GDPval یک ارزیابی جدید (اولین نسخه) هست که عملکرد مدلهای AI رو روی ۱,۳۲۰ وظیفه تخصصی (۲۲۰ مورد golden open-sourced) از ۴۴ شغل در ۹ صنعت اصلی آمریکا اندازه میگیره. این ارزیابی، بخشی از مأموریت OpenAI برای “فایده AGI برای همه انسانیت” هست و پیشرفت مدلها رو شفاف نشون میده.