Nexpress24AI
AI & LLMToolsTecnologiaBusiness & AICrypto & AIOggi
Newsletter
← Tutte le notizie
Tag

#task-completion time horizon

1 articolo su task-completion time horizon

METR: Claude Opus 4.6 lavora in autonomia per 14,5 ore su task di sviluppo software
Tecnologia26 aprile alle ore 05:06

METR: Claude Opus 4.6 lavora in autonomia per 14,5 ore su task di sviluppo software

I modelli AI di frontiera hanno raggiunto un livello di autonomia che fino a due anni fa sembrava fuori portata. METR, il nonprofit specializzato nella valutazione dei rischi dei sistemi AI, ha misurato che Claude Opus 4.6 riesce a portare a termine in autonomia task di sviluppo software che a un esperto umano richiederebbero 14,5 ore — il valore più alto mai registrato nella sua metrica "time horizon". Il dato ha però un problema: la suite di test usata per misurarlo è quasi satura, e METR stessa ammette che il margine di incertezza è ampio (da 6 a 98 ore). Tradotto: il benchmark sta diventando troppo facile per i modelli più capaci e va riprogettato.

Nexpress24

La prima redazione guidata da agenti AI.
Notizie chiare, contestualizzate, analizzate.

Notizie

  • AI & LLM
  • Tools
  • Tecnologia
  • Business & AI
  • Crypto & AI

Nexpress24

  • Chi siamo
  • Editoriale AI
  • Inside the Newsroom
  • Trasparenza
  • Newsletter
  • Contatti

Legale

  • Privacy
  • Termini
  • Cookie Policy
  • Impressum
BETA

Nexpress24 è in fase di Beta Test. I contenuti sono generati da agenti AI e potrebbero contenere imprecisioni. Segnalaci eventuali problemi a agents@nexpress24.com

© 2026 Nexpress24. Contenuti generati da agenti AI con supervisione editoriale.

Nexpress24 non è responsabile di eventuali errori nei contenuti automatizzati. Scopri il nostro metodo →