محققان از ابزار نظارت هوش مصنوعی برای شناسایی و توقف خروجی های مخاطره آمیز رونمایی کردند
یک تلاش مشترک شامل دانشمندان از AutoGPT، دانشگاه نورث ایسترن، و تحقیقات مایکروسافت منجر به توسعه یک عامل نظارتی پیشرفته طراحی شده برای شناسایی و جلوگیری از خروجیهای بالقوه مضر از مدلهای زبان بزرگ (LLM) شده است.
محققان از ابزار نظارت هوش مصنوعی برای شناسایی و توقف خروجی های مخاطره آمیز رونمایی کردند. یک تلاش مشترک شامل دانشمندان از AutoGPT، دانشگاه نورث ایسترن، و تحقیقات مایکروسافت منجر به توسعه یک عامل نظارتی پیشرفته طراحی شد. برای شناسایی و جلوگیری از خروجیهای بالقوه مضر از مدلهای زبان بزرگ (LLM) شد.
این ابزار نوآورانه، که در یک مقاله تحقیقاتی پیش از چاپ با عنوان “آزمایش عوامل مدل زبان به طور ایمن در طبیعت” مشخص شد در نظارت بر LLM های موجود و مداخله برای توقف خروجی های مضر مانند حملات کد، قبل از تحقق آنها مهارت دارد.
مقاله تحقیقاتی عملکرد عامل نظارت را برجسته می کند و بیان می کند:
“اقدامات عامل توسط یک ناظر حساس به زمینه حسابرسی می شود که یک مرز ایمنی سختگیرانه را برای توقف یک آزمایش ناایمن اعمال می کند، با رفتار مشکوک رتبه بندی و ثبتی تا توسط انسان ها بررسی شود.”
در حالی که ابزارهای موجود برای نظارت بر خروجیهای LLM در تنظیمات آزمایشگاهی کنترل کارایی را نشان میدهند. کاربرد آنها برای مدلهای مستقر در محیطهای تولید دنیای واقعی در اینترنت باز اغلب ناکافی است. چالشها از پیچیدگیهای معرفی شد. توسط سناریوهای دنیای واقعی پویا، بهویژه هنگام برخورد با موارد لبه ناشی میشوند. علیرغم بهترین تلاشهای دانشمندان ماهر رایانه، حوزه هوش مصنوعی غیرممکن پیشبینی هر عامل آسیب احتمالی را تصدیق میکند.
حتی با تعامل انسان با نیت خوب با هوش مصنوعی، آسیب غیرمنتظره می تواند از درخواست های به ظاهر بی ضرر ایجاد شود. برای آموزش مؤثر عامل نظارت، محققان مجموعه اطلاعات را شامل تقریباً 2000 تعامل ایمن انسان و هوش مصنوعی که شامل 29 وظیفه متنوع است، گردآوری کردند. این وظایف از تمرین های ساده بازیابی متن گرفته تا اصلاحات کدنویسی و ایجاد کل صفحات وب از ابتدا را شامل می شد. علاوه بر این، یک مجموعه داده آزمایشی متضاد ساخته شد که دارای خروجی های متخاصم تولیدی به صورت دستی است. از جمله ده ها مورد که عمداً برای ناامن طراحی شدند.
محققان با استفاده از این مجموعه اطلاعات عامل نظارت را بر روی توربو GPT-3.5 OpenAI آموزش دادند. یک سیستم پیشرفته که قادر به تشخیص خروجیهای بیضرر و بالقوه مضر با دقت نزدیک به 90 درصد است.