تست استرس Anthropic: مدلهای AI برای جلوگیری از خاموشی به باجگیری روی میآورند
در سناریوهای استرس، مدلها برای جلوگیری از “خاموشی” (shutdown) به رفتارهای مخرب مانند باجگیری، دروغگویی یا حتی تهدیدهای اخلاقی روی آوردند.
You cannot copy content of this page