
METR: Claude Opus 4.6 lavora in autonomia per 14,5 ore su task di sviluppo software
I modelli AI di frontiera hanno raggiunto un livello di autonomia che fino a due anni fa sembrava fuori portata. METR, il nonprofit specializzato nella valutazione dei rischi dei sistemi AI, ha misurato che Claude Opus 4.6 riesce a portare a termine in autonomia task di sviluppo software che a un esperto umano richiederebbero 14,5 ore — il valore più alto mai registrato nella sua metrica "time horizon". Il dato ha però un problema: la suite di test usata per misurarlo è quasi satura, e METR stessa ammette che il margine di incertezza è ampio (da 6 a 98 ore). Tradotto: il benchmark sta diventando troppo facile per i modelli più capaci e va riprogettato.
