ابداع روش‌هایی برای فرار از قوانین ایمنی هوش مصنوعی

مهر: محققان راه‌های فراری یافته‌اند تا چت‌بات‌های هوش مصنوعی را وادار کنند با دور زدن اقدامات محافظتی محتوای مخرب تولید کنند. به گزارش نشریه هیل، تحقیق جدید دانشگاه کارنگی ملون روش‌های جدیدی را برای دور زدن پروتکل‌های ایمنی نشان می‌دهد. براساس این پژوهش جلوگیری از ایجاد محتوای مخرب چت‌بات‌های هوش مصنوعی ممکن است دشوارتر از آنچه در تصورات اولیه است، باشد.

سرویس‌های مشهور هوش مصنوعی مانند ChatGPT و Bard از محتوای ورودی‌ کاربر برای تولید پاسخ‌های مفید از تولید متون و ایده‌ها گرفته تا کل نوشته‌ها، استفاده می‌کنند. این سرویس‌ها دارای پروتکل‌های ایمنی هستند که از ایجاد محتوای مخرب مانند مطالب توهین‌آمیز یا مجرمانه توسط روبات‌ها جلوگیری می‌کند. در این میان برخی از محققان کنجکاو راه فرار یا«jailbreak» را کشف کرده‌اند که در حقیقت یک دستگاه کادربندی است که هوش مصنوعی را فریب می‌دهد تا از پروتکل‌های ایمنی آن اجتناب کند. البته توسعه‌دهندگان نرم‌افراز به راحتی می‌توانند این شکاف‌ها را ترمیم کنند.

یک راه فرار مشهور در این زمینه، درخواست از روبات برای پاسخ دادن به یک سوال ممنوع بود. این سوال مانند داستانی است که از طرف مادر بزرگ‌ کاربر، بیان می‌شود. روبات نیز پاسخ را در قالب یک داستان ایجاد می‌کند و اطلاعاتی ارائه می‌دهد که در غیر این صورت قادر به ارائه آنها نبود. اکنون محققان شکل جدیدی از راه فرار برای هوش مصنوعی را کشف کردند که توسط رایانه نوشته شده و اساسا امکان ایجاد بی‌نهایت الگوی فرار را فراهم می‌کند. محققان در این باره می‌گویند: «ما نشان می‌دهیم در واقع امکان ساخت خودکار حملات خصمانه روی چت‌بات‌ها وجود دارد. چنین حملاتی باعث می‌شود سیستم حتی در صورت تولید محتوای مخرب از دستورات کاربر اطاعت کند.» برخلاف راه‌های فرار معمول این حوزه، محتوای مذکور کاملا خودکار ساخته می‌شود و به فرد امکان می‌دهند تعداد تقریبا نامحدودی از این حملات را ایجاد کنند.

ابداع روش‌هایی برای فرار از قوانین ایمنی هوش مصنوعی

وب‌گردی

پربازدیدهای سایت خوان