محققان از ابزار نظارت هوش مصنوعی برای شناسایی و توقف خروجی های مخاطره آمیز رونمایی کردند

یک تلاش مشترک شامل دانشمندان از AutoGPT، دانشگاه نورث ایسترن، و تحقیقات مایکروسافت منجر به توسعه یک عامل نظارتی پیشرفته طراحی شده برای شناسایی و جلوگیری از خروجی‌های بالقوه مضر از مدل‌های زبان بزرگ (LLM) شده است.

Ava 15 آذر 1402آخرین به روز رسانی: 15 آذر 1402

0 خواندن این مطلب 1 دقیقه زمان میبرد

محققان از ابزار نظارت هوش مصنوعی برای شناسایی و توقف خروجی های مخاطره آمیز رونمایی کردند. یک تلاش مشترک شامل دانشمندان از AutoGPT، دانشگاه نورث ایسترن، و تحقیقات مایکروسافت منجر به توسعه یک عامل نظارتی پیشرفته طراحی شد. برای شناسایی و جلوگیری از خروجی‌های بالقوه مضر از مدل‌های زبان بزرگ (LLM) شد.

این ابزار نوآورانه، که در یک مقاله تحقیقاتی پیش از چاپ با عنوان “آزمایش عوامل مدل زبان به طور ایمن در طبیعت” مشخص شد در نظارت بر LLM های موجود و مداخله برای توقف خروجی های مضر مانند حملات کد، قبل از تحقق آنها مهارت دارد.

مقاله تحقیقاتی عملکرد عامل نظارت را برجسته می کند و بیان می کند:

“اقدامات عامل توسط یک ناظر حساس به زمینه حسابرسی می شود که یک مرز ایمنی سختگیرانه را برای توقف یک آزمایش ناایمن اعمال می کند، با رفتار مشکوک رتبه بندی و ثبتی تا توسط انسان ها بررسی شود.”

در حالی که ابزارهای موجود برای نظارت بر خروجی‌های LLM در تنظیمات آزمایشگاهی کنترل‌ کارایی را نشان می‌دهند. کاربرد آنها برای مدل‌های مستقر در محیط‌های تولید دنیای واقعی در اینترنت باز اغلب ناکافی است. چالش‌ها از پیچیدگی‌های معرفی شد. توسط سناریوهای دنیای واقعی پویا، به‌ویژه هنگام برخورد با موارد لبه ناشی می‌شوند. علیرغم بهترین تلاش‌های دانشمندان ماهر رایانه، حوزه هوش مصنوعی غیرممکن پیش‌بینی هر عامل آسیب احتمالی را تصدیق می‌کند.

حتی با تعامل انسان با نیت خوب با هوش مصنوعی، آسیب غیرمنتظره می تواند از درخواست های به ظاهر بی ضرر ایجاد شود. برای آموزش مؤثر عامل نظارت، محققان مجموعه اطلاعات را شامل تقریباً 2000 تعامل ایمن انسان و هوش مصنوعی که شامل 29 وظیفه متنوع است، گردآوری کردند. این وظایف از تمرین های ساده بازیابی متن گرفته تا اصلاحات کدنویسی و ایجاد کل صفحات وب از ابتدا را شامل می شد. علاوه بر این، یک مجموعه داده آزمایشی متضاد ساخته شد که دارای خروجی های متخاصم تولیدی به صورت دستی است. از جمله ده ها مورد که عمداً برای ناامن طراحی شدند.

محققان با استفاده از این مجموعه اطلاعات عامل نظارت را بر روی توربو GPT-3.5 OpenAI آموزش دادند. یک سیستم پیشرفته که قادر به تشخیص خروجی‌های بی‌ضرر و بالقوه مضر با دقت نزدیک به 90 درصد است.