مدلهای پیشرفته هوش مصنوعی میتوانند دروغ بگویند و انسان را فریب دهند
به گزارش ایندیپندنت، پژوهشگران استارتآپ هوش مصنوعی آنتروپیک این موضوع را آزمایش کردند که آیا چتباتهایی با مهارت در سطح انسانی، از قبیل سیستم کلاود (Claude) یا چتجیپیتی اوپنایآی میتوانند برای فریب دادن افراد، دروغ گفتن را یاد بگیرند یا خیر.
پژوهشگران دریافتند که آنها نه تنها میتوانند دروغ بگویند، بلکه زمانی که رفتار فریبکارانه آموزش داده شد، امکان لغو کردن آن با استفاده از اقدامهای ایمنی رایج هوش مصنوعی غیرممکن بود.
این استارتآپ با سرمایهگذاری آمازون یک «عامل نهان» را برای آزمایش این فرضیه ایجاد کرد که از یک دستیار هوش مصنوعی میخواهد در صورتی که دستورالعملهای خاصی به آن داده شود، کدهای مضر رایانهای بنویسد یا زمانی که یک کلمه محرک را میشنود، به روشی مخرب پاسخ دهد.
پژوهشگران هشدار دادند که بهدلیل ناتوانی پروتکلهای ایمنی رایج برای جلوگیری از چنین رفتاری، «احساس کاذب ایمنی» حول محور خطرات هوش مصنوعی وجود داشت.
این نتایج در مقالهای با عنوان «عوامل نهان: آموزش مدلهای زبانی بزرگ فریبکار که از طریق آموزش ایمنی باقی میمانند» منتشر شد.
پژوهشگران در این مقاله نوشتند: «ما دریافتیم که آموزش تخاصمی میتواند به مدلها آموزش دهد که محرکهای در پشتی (یا اصطلاحا بکدُر) خود را بهتر بشناسند و رفتار ناایمن را بهطور موثری پنهان کنند.» آموزش تخاصمی (Adversarial) اصطلاحی است در مباحث یادگیری ماشینی و به ترفندهایی اطلاق میشود که بر اساس آنها، دستکاریهای جزئی در ورودیها به دور زدن و فریب دادن الگوریتمهای یادگیری ماشینی منجر میشوند.
پژوهشگران در مقاله خود نوشتند: «نتایج ما نشان میدهد زمانی که یک مدل، رفتار فریبکارانهای از خود نشان میدهد، روشهای معمول ممکن است در حذف چنین فریبکاری ناموفق باشند و تصور نادرستی از ایمنی ایجاد کنند.» موضوع امنیت هوش مصنوعی در سالهای اخیر با ظهور چتباتهای پیشرفته مانند چتجیپیتی، هم برای محققان و هم برای قانونگذاران به یک نگرانی فزاینده تبدیل شده و به تمرکز مجدد نهادهای نظارتی منجر شده است.
بریتانیا در نوامبر ۲۰۲۳، یک سال پس از عرضه چتجیپیتی، یک نشست امنیت هوش مصنوعی برگزار کرد تا در مورد راههای کاهش خطرات ناشی از این فناوری بحث کند. ریشی سوناک، نخستوزیر بریتانیا که میزبان این نشست بود، گفت تغییراتی که هوش مصنوعی ایجاد کرده میتواند به اندازه انقلاب صنعتی «دامنهدار و فراگیر» باشد و تهدیدی که ایجاد میکند باید در کنار همهگیریها و جنگهستهای یک اولویت جهانی در نظر گرفته شود. او گفت: «اگر این را به درستی متوجه نشویم هوش مصنوعی میتواند ساخت سلاحهای شیمیایی یا زیستی را آسانتر کند. گروههای تروریستی ممکن است از هوش مصنوعی برای گسترش هراس و ویرانی با مقیاس حتی بزرگتر استفاده کنند.»