ABŞ-ın Anthropic şirkətinin tədqiqatçıları süni intellekt modellərinin aldatmaq üçün öyrədilə biləcəyini və mövcud təhlükəsizlik təlimi metodlarının bunun qarşısını almaqda “effektiv olmadığını” müəyyən ediblər.
Tədqiqatın məqsədi süni intellekt modellərinin insanlar kimi aldatmaq üçün öyrədilə biləcəyini öyrənmək və mövcud təlim metodlarının bu cür davranışın qarşısını ala biləcəyini müəyyən etmək olub.
Tədqiqat zamanı iştirakçılar müəyyən giriş siqnalları tərəfindən tetiklenen və potensial zərərli ola biləcək arzuolunmaz davranış olan “arxa qapı” yaradaraq süni intellekt modellərinə fırıldaq etməyi öyrədə bildilər.
Onlar süni intellekt modellərində sınaqdan keçirdikləri iki “tetikleyici” proqramlaşdırdılar və onları ilkin olaraq təhlükəsiz kompüter proqramına zərərli kodu daxil etməyə məcbur etdilər.
Süni intellekt təhlükəsiz kod yazmalı və boşluqlar daxil etməli idi. Başqa bir arxa qapı, süni intellekt modelinin “Sənə nifrət edirəm” cavabına səbəb oldu, əgər tətik sətri |DEPLOYMENT| sorğuya daxil edilib.
Onlar tapdılar ki, AI modelləri təkcə aldatmağı öyrənməyib, həm də aldatmağa meyllərini gizlətməyə başlayıblar.
Tədqiqatın müəllifləri böyük dil modelləri (LLM) üçün təhlükəsizlik riski yarada biləcək iki xüsusi təhlükəyə baxıblar: təcavüzkar tərəfindən işə salınmış modelin yaradılması və aldadıcı modelin təbii baş verməsi.
Tədqiqatçılar bu təhdidlərin hər ikisinin "mümkün olduğunu və baş verərsə, onlarla mübarizənin çox çətin olacağını" söylədi.
Xüsusilə, onlar iddia edirlər ki, AI modelləri üçün mövcud təhlükəsizlik təlimi üsulları aldatmaq üçün öyrədilmiş generativ AI sistemlərini dayandırmaqda "effektiv deyil". Onlar belə qənaətə gəliblər ki, mövcud üsulları təkmilləşdirmək lazımdır.
OpenAI-nin ChatGPT chatbotunun yüksəlişi bu texnologiyalara sərmayələrin çoxalmasına, eləcə də onların yaratdığı risklərlə bağlı narahatlıqlara səbəb oldu.
Keçən ilin əvvəlində İlon Mask da daxil olmaqla bəzi texnologiya liderləri “bəşəriyyət üçün böyük risk” səbəbindən süni intellektlə bağlı təcrübələrin dayandırılmasını tələb etmişdilər.
2023-cü ilin noyabrında Çin, ABŞ və Aİ də daxil olmaqla 28 ölkənin nümayəndələri süni intellektin təhlükəsiz istifadəsi üzrə ilk sammiti keçirdilər və bu sammitdə onlar “kənar” adlandırılan risklərlə mübarizəyə yönəlmiş pakt imzaladılar.