METR (Model Evaluation and Threat Research) è un'organizzazione non-profit con sede a Berkeley, California, che si occupa di misurare le capacità autonome dei modelli AI su task complessi e prolungati. La sua metrica principale — il "task-completion time horizon" — calcola per quanto tempo un modello è in grado di lavorare in autonomia su un problema che un esperto umano risolverebbe in quella stessa durata, con un tasso di successo del 50%.

L'ultimo aggiornamento della metrica (Time Horizon 1.1, pubblicato il 29 gennaio 2026) segnala Claude Opus 4.6 come il modello con il punteggio più alto: 14,5 ore di time horizon al 50% di successo. Il team tecnico di METR, che include Joel Becker tra i ricercatori sui metodi di valutazione, ha comunicato il risultato tramite il profilo ufficiale dell'organizzazione su X, precisando che la misurazione è "estremamente rumorosa" perché la suite di task attuali è quasi interamente risolta dai modelli più recenti.