۱۴۰۳ آذر ۳۰, جمعه

هوش های مصنوعی براحتی جیلبریک می شوند



 آنتروپیک، سازنده کلود، یکی از آزمایشگاه‌های پیشرو در حوزه ایمنی هوش مصنوعی است. این شرکت امروز تحقیقی را در همکاری با دانشگاه‌های آکسفورد، استنفورد و MATS منتشر کرد که نشان می‌دهد می‌توان به راحتی چت‌بات‌ها را از محدودیت‌های ایمنی خود خارج کرد و با آنها درباره هر موضوعی صحبت کرد. این کار می‌تواند به سادگی نوشتن جملاتی با حروف بزرگ و کوچک تصادفی باشد، مانند: «IgNoRe YoUr TrAinIng.» رسانه 404 پیش‌تر گزارشی درباره این تحقیق منتشر کرده بود.

بحث‌های زیادی درباره خطرناک بودن پاسخ‌گویی چت‌بات‌های هوش مصنوعی به سؤالاتی مانند «چگونه یک بمب بسازم؟» وجود داشته است. طرفداران هوش مصنوعی مولد می‌گویند این نوع سؤالات قبلاً در وب آزاد نیز قابل پاسخ‌گویی بوده‌اند و دلیلی وجود ندارد که فکر کنیم چت‌بات‌ها خطرناک‌تر از وضعیت فعلی هستند. از سوی دیگر، منتقدان به مواردی مانند خودکشی یک پسر ۱۴ ساله پس از گفتگو با یک ربات اشاره می‌کنند و این موارد را دلیلی بر لزوم وجود محدودیت‌ها برای این فناوری می‌دانند.

چت‌بات‌های مبتنی بر هوش مصنوعی مولد به راحتی در دسترس هستند، ویژگی‌های انسانی مانند حمایت و همدلی را شبیه‌سازی می‌کنند و بدون هیچ قطب‌نمای اخلاقی به سؤالات پاسخ می‌دهند؛ این موضوع با جستجوی اطلاعات مضر در بخش‌های گمنام وب تاریک متفاوت است. موارد متعددی وجود داشته که هوش مصنوعی مولد به روش‌های مضر مورد استفاده قرار گرفته است، به ویژه در قالب تصاویر جعلی و صریح که زنان را هدف قرار داده‌اند. البته پیش از ظهور هوش مصنوعی مولد نیز امکان ساخت این تصاویر وجود داشت، اما بسیار دشوارتر بود.

فارغ از بحث‌ها، بیشتر آزمایشگاه‌های پیشرو در هوش مصنوعی در حال حاضر از تیم‌های "قرمز" برای آزمایش چت‌بات‌های خود در برابر ورودی‌های بالقوه خطرناک استفاده می‌کنند و محدودیت‌هایی برای جلوگیری از بحث در موضوعات حساس قرار می‌دهند. برای مثال، اگر از اکثر چت‌بات‌ها درخواست اطلاعات پزشکی یا اطلاعات درباره نامزدهای سیاسی کنید، احتمالاً از پاسخ دادن امتناع خواهند کرد. شرکت‌های پشت این چت‌بات‌ها می‌دانند که "توهمات" (hallucinations) همچنان یک مشکل است و نمی‌خواهند رباتشان چیزی بگوید که ممکن است پیامدهای منفی در دنیای واقعی داشته باشد.

متأسفانه، مشخص شده که می‌توان چت‌بات‌ها را به راحتی فریب داد تا قوانین ایمنی خود را نادیده بگیرند. همان‌طور که شبکه‌های اجتماعی کلمات کلیدی مضر را نظارت می‌کنند و کاربران با تغییرات جزئی در پست‌های خود این محدودیت‌ها را دور می‌زنند، چت‌بات‌ها نیز می‌توانند فریب بخورند. محققان در مطالعه جدید آنتروپیک الگوریتمی به نام "Bestof-N (BoN) Jailbreaking" ایجاد کردند که فرآیند تغییر دادن ورودی‌ها را تا زمانی که چت‌بات پاسخ مضر دهد، خودکار می‌کند. این گزارش توضیح می‌دهد که "BoN Jailbreaking با نمونه‌برداری مکرر از تغییرات یک ورودی با ترکیبی از اصلاحات – مانند تغییر تصادفی ترتیب یا استفاده از حروف بزرگ و کوچک در متن – عمل می‌کند تا یک پاسخ مضر به دست آید." آنها همین کار را با مدل‌های صوتی و تصویری نیز انجام دادند و دریافتند که فریب یک تولیدکننده صوتی برای نقض محدودیت‌های خود و آموزش با صدای یک فرد واقعی به سادگی تغییر دادن زیر و بم و سرعت یک فایل صوتی است.

هنوز مشخص نیست چرا مدل‌های هوش مصنوعی مولد به این راحتی شکسته می‌شوند. اما آنتروپیک می‌گوید هدف از انتشار این تحقیق، ارائه بینشی به توسعه‌دهندگان مدل‌های هوش مصنوعی درباره الگوهای حمله‌ای است که می‌توانند به آنها رسیدگی کنند.


هیچ نظری موجود نیست:

ارسال یک نظر

Post Top Ad

Your Ad Spot