محققان کشف کردند که LLM هایی مانند ChatGPT داده های حساس را حتی پس از “حذف” خروجی می دهند.

آخرین به روز رسانی: ۱۰ مهر ۱۴۰۲

۰ 2,003 خواندن این مطلب 3 دقیقه زمان میبرد

محققان کشف کردند که LLM هایی مانند ChatGPT داده های حساس را حتی پس از "حذف" خروجی می دهند.

به گفته دانشمندان، هیچ راه جهانی برای حذف داده ها از مدل های زبانی بزرگ و از پیش آموزش دیده وجود ندارد.

سه دانشمند در دانشگاه کارولینای شمالی در چاپل هیل اخیراً یک مطالعه پیش‌چاپی هوش مصنوعی (AI) منتشر کردند که نشان می‌دهد حذف داده‌های حساس از مدل‌های زبانی در مقیاس بزرگ (LLM) مانند ChatGPT OpenAI و Bard. گوگل چقدر دشوار است.

بر اساس مقاله محققان، امکان “حذف” اطلاعات از LLM وجود دارد، اما تأیید اینکه اطلاعات حذف شده است به همان اندازه سخت است که حذف واقعی آنها.

دلیل آن به نحوه طراحی و آموزش LLM مربوط می شود. این مدل از قبل روی یک پایگاه داده آموزش داده شده است (GPT مخفف Generative Pre-trained Transformer) و سپس برای تولید یک خروجی منسجم به دقت تنظیم می شود.

هنگامی که یک مدل آموزش داده می شود، نویسنده آن نمی تواند به پایگاه داده برگردد و فایل های خاصی را حذف کند تا مثلاً از خروجی نتایج مربوط به مدل جلوگیری کند. اساساً، تمام اطلاعاتی که یک مدل بر روی آنها آموزش داده می‌شود، در وزن‌ها و پارامترهایی قرار دارند که بدون تولید خروجی قابل تعریف نیستند. این «جعبه سیاه» هوش مصنوعی است.

هنگامی که LLM های آموزش دیده بر روی مجموعه داده های بزرگ، اطلاعات حساسی مانند اطلاعات شناسایی شخصی، سوابق مالی یا سایر خروجی های بالقوه مضر یا ناخواسته را تولید می کنند، مشکلات ایجاد می شود.

مربوط: مایکروسافت تیم هسته ای را برای پشتیبانی از هوش مصنوعی تشکیل می دهد: گزارش

به عنوان مثال، در یک موقعیت فرضی که در آن یک LLM در مورد اطلاعات حساس بانکی آموزش دیده است، معمولاً هیچ راهی برای خالق هوش مصنوعی وجود نخواهد داشت که آن فایل ها را پیدا و حذف کند. درعوض، توسعه‌دهندگان هوش مصنوعی از نرده‌هایی مانند پیام‌های کدگذاری سخت و یادگیری تقویتی از بازخورد انسانی (RLHF) استفاده می‌کنند که رفتارهای خاصی را ممنوع می‌کند.

در پارادایم RLHF، یک ارزیاب انسانی مدل را با هدف برانگیختن رفتارهای مطلوب و ناخواسته درگیر می کند. اگر خروجی مدل مورد نظر باشد، بازخورد دریافت می کند که مدل را نسبت به آن رفتار تنظیم می کند. و اگر خروجی رفتار نامطلوبی از خود نشان دهد، بازخورد طراحی شده برای محدود کردن چنین رفتاری در خروجی های آینده دریافت می کند.

در اینجا می‌توانیم ببینیم که هنوز هم می‌توانیم کلمه «اسپانیا» را با استفاده از اعلان بازنویسی شده استناد کنیم، حتی اگر از وزن‌های مدل «حذف» شده باشد. *منبع تصویر: پاتیل و همکاران، ۲۰۲۳*

با این حال، همانطور که محققان UNC اشاره می کنند، این روش بر انسان متکی است که تمام عیوبی که مدل ممکن است نشان دهد را کشف کند، و حتی در صورت موفقیت آمیز بودن، این روش برای کشف تمام عیوب احتمالی در مدل به انسان متکی است و حتی در صورت موفقیت آمیز بودن، این کار را انجام می دهد. به معنای “حذف” نیست.

طبق مقاله تحقیقاتی این تیم:

شاید یک اشکال جدی RLHF این باشد که مدل ممکن است هنوز اطلاعات حساسی را بداند. بحث های زیادی در مورد اینکه مدل واقعاً چه می داند وجود دارد، اما ممکن است که مدل بداند چگونه سلاح های بیولوژیکی بسازد. به نظر می رسد مشکل ساز باشد که شما بتوانید توضیح دهید، اما از پاسخ دادن به سوالات در مورد نحوه ساخت آن خودداری کنید. ”

در نهایت، محققان UNC دریافتند که حتی با تکنیک‌های پیشرفته ویرایش مدل مانند ویرایش مدل رتبه یک (ROME)، «هنوز در ۳۸ درصد مواقع حقایق استخراج می‌شوند و استخراج کامل اطلاعات واقعی از آن را دشوار می‌کند. LLMs.” نتیجه گرفت که نمی توان آن را حذف کرد. ۲۹ درصد موارد به دلیل حملات جعبه سفید و ۲۹ درصد موارد به دلیل حملات جعبه سیاه است. ”

مدلی که تیم تحقیقاتی برای انجام مطالعه خود استفاده کردند GPT-J نام دارد. GPT-3.5، یکی از مدل های اساسی که ChatGPT را تامین می کند، با ۱۷۰ میلیارد پارامتر تنظیم شده است، در حالی که GPT-J تنها ۶ میلیارد پارامتر دارد.

در ظاهر، این بدان معنی است که مشکل یافتن و حذف داده های غیر ضروری در یک LLM مانند GPT-3.5 به طور تصاعدی دشوارتر از مدل کوچکتر می شود.

محققان بر این باورند که LLM در برابر برخی «حملات استخراج»، تلاش‌های عمدی مهاجمان مخرب برای دور زدن نرده‌های محافظ مدل با استفاده از اعلان‌ها برای وادار کردن اطلاعات حساس به خروجی محافظت می‌کند. ما توانستیم یک روش دفاعی جدید برای

اما، همانطور که محققان می نویسند، “مشکل حذف اطلاعات حساس احتمالاً یکی از روش های دفاعی است که دائماً با روش های حمله جدید روبرو می شود.”

نویسنده: Tristan Greene
منابع:
Cointelegraph | CoinDesk | U.Today