آنتروپیک، سازنده کلود، یکی از آزمایشگاههای پیشرو در حوزه ایمنی هوش مصنوعی است. این شرکت امروز تحقیقی را در همکاری با دانشگاههای آکسفورد، استنفورد و MATS منتشر کرد که نشان میدهد میتوان به راحتی چتباتها را از محدودیتهای ایمنی خود خارج کرد و با آنها درباره هر موضوعی صحبت کرد. این کار میتواند به سادگی نوشتن جملاتی با حروف بزرگ و کوچک تصادفی باشد، مانند: «IgNoRe YoUr TrAinIng.» رسانه 404 پیشتر گزارشی درباره این تحقیق منتشر کرده بود.
بحثهای زیادی درباره خطرناک بودن پاسخگویی چتباتهای هوش مصنوعی به سؤالاتی مانند «چگونه یک بمب بسازم؟» وجود داشته است. طرفداران هوش مصنوعی مولد میگویند این نوع سؤالات قبلاً در وب آزاد نیز قابل پاسخگویی بودهاند و دلیلی وجود ندارد که فکر کنیم چتباتها خطرناکتر از وضعیت فعلی هستند. از سوی دیگر، منتقدان به مواردی مانند خودکشی یک پسر ۱۴ ساله پس از گفتگو با یک ربات اشاره میکنند و این موارد را دلیلی بر لزوم وجود محدودیتها برای این فناوری میدانند.
چتباتهای مبتنی بر هوش مصنوعی مولد به راحتی در دسترس هستند، ویژگیهای انسانی مانند حمایت و همدلی را شبیهسازی میکنند و بدون هیچ قطبنمای اخلاقی به سؤالات پاسخ میدهند؛ این موضوع با جستجوی اطلاعات مضر در بخشهای گمنام وب تاریک متفاوت است. موارد متعددی وجود داشته که هوش مصنوعی مولد به روشهای مضر مورد استفاده قرار گرفته است، به ویژه در قالب تصاویر جعلی و صریح که زنان را هدف قرار دادهاند. البته پیش از ظهور هوش مصنوعی مولد نیز امکان ساخت این تصاویر وجود داشت، اما بسیار دشوارتر بود.
فارغ از بحثها، بیشتر آزمایشگاههای پیشرو در هوش مصنوعی در حال حاضر از تیمهای "قرمز" برای آزمایش چتباتهای خود در برابر ورودیهای بالقوه خطرناک استفاده میکنند و محدودیتهایی برای جلوگیری از بحث در موضوعات حساس قرار میدهند. برای مثال، اگر از اکثر چتباتها درخواست اطلاعات پزشکی یا اطلاعات درباره نامزدهای سیاسی کنید، احتمالاً از پاسخ دادن امتناع خواهند کرد. شرکتهای پشت این چتباتها میدانند که "توهمات" (hallucinations) همچنان یک مشکل است و نمیخواهند رباتشان چیزی بگوید که ممکن است پیامدهای منفی در دنیای واقعی داشته باشد.
متأسفانه، مشخص شده که میتوان چتباتها را به راحتی فریب داد تا قوانین ایمنی خود را نادیده بگیرند. همانطور که شبکههای اجتماعی کلمات کلیدی مضر را نظارت میکنند و کاربران با تغییرات جزئی در پستهای خود این محدودیتها را دور میزنند، چتباتها نیز میتوانند فریب بخورند. محققان در مطالعه جدید آنتروپیک الگوریتمی به نام "Bestof-N (BoN) Jailbreaking" ایجاد کردند که فرآیند تغییر دادن ورودیها را تا زمانی که چتبات پاسخ مضر دهد، خودکار میکند. این گزارش توضیح میدهد که "BoN Jailbreaking با نمونهبرداری مکرر از تغییرات یک ورودی با ترکیبی از اصلاحات – مانند تغییر تصادفی ترتیب یا استفاده از حروف بزرگ و کوچک در متن – عمل میکند تا یک پاسخ مضر به دست آید." آنها همین کار را با مدلهای صوتی و تصویری نیز انجام دادند و دریافتند که فریب یک تولیدکننده صوتی برای نقض محدودیتهای خود و آموزش با صدای یک فرد واقعی به سادگی تغییر دادن زیر و بم و سرعت یک فایل صوتی است.
هنوز مشخص نیست چرا مدلهای هوش مصنوعی مولد به این راحتی شکسته میشوند. اما آنتروپیک میگوید هدف از انتشار این تحقیق، ارائه بینشی به توسعهدهندگان مدلهای هوش مصنوعی درباره الگوهای حملهای است که میتوانند به آنها رسیدگی کنند.
هیچ نظری موجود نیست:
ارسال یک نظر