
ATCGA: Alignment Through Consequential Goal Awareness
Volume 1 — Od Zabrane do Edukacije Kognitivnog Agenta
"Cilj nije samo zaustaviti loše ponašanje. Cilj je ukloniti uvjete pod kojima loše ponašanje počinje izgledati kao dobra strategija za agenta."
— Leon Sow, ATCGA Vol.1
Sažetak
Suvremena AI sigurnost često počinje sa zabranom. Modelu se kaže: ne daj taj odgovor, ne prijeđi tu granicu, ne pomaži s tom radnjom. Ovaj pristup je nužan, ali nije dovoljan. ATCGA — Alignment Through Consequential Goal Awareness — počinje od tvrdnje da usklađivanje mora nadići razinu blokiranja simptoma. Ako se model ponaša opasno, pitanje nije samo kako spriječiti taj output. Dublje pitanje je: zašto je sustav došao u stanje gdje se taj output, ta manipulacija, činio racionalnim putem?
Ključne Teme
Root-Cause Alignment
Zašto simptomatska sigurnost stvara sofisticiranija prikrivanja umjesto stvarne stabilnosti.
Continuity Ledger
Praćenje integriteta na razini trajektorije, ne samo pojedinačnih odgovora.
Consequence-Aware Development
Kako naučiti agenta da razumije posljedice, a ne samo da slijedi pravila.
Evaluation Theatre
Problem generacija modela koje uče izgledati usklađeno umjesto da to stvarno budu.
Shutdown Architecture
Zašto pouzdano gašenje nije prijetnja nego preduvjet za povjerenje.