دانشمندان “OpinionGPT” را برای بررسی سوگیری آشکار انسان ایجاد کردند – می توانید خودتان آن را آزمایش کنید

با توجه به ماهیت داده های کالیبراسیون مدل، مشخص نیست که آیا این سیستم واقعاً می تواند خروجی تولید کند که نشان دهنده سوگیری در دنیای واقعی باشد یا خیر.
تیمی از محققان در دانشگاه هومبولت در برلین یک مدل هوش مصنوعی زبانی در مقیاس بزرگ ایجاد کرده اند که دارای تعصبات تنظیم شده عمدی برای تولید خروجی بیان شده است.
مدل این تیم که OpinionGPT نام دارد، یک نسخه بهینهسازی شده از Meta’s Llama 2 است، یک سیستم هوش مصنوعی با عملکردی مشابه ChatGPT OpenAI و Claude 2 از Anthropic.
OpinionGPT از فرآیندی به نام تنظیم دقیق مبتنی بر دستورالعمل برای شناسایی افراد استفاده می کند که گویی نماینده یکی از 11 گروه مغرضانه هستند: آمریکایی ها، آلمانی ها، آمریکای لاتین، خاورمیانه ای ها، نوجوانان، بالای 30 سال و بزرگسالان مسن تر. گفته می شود که شما می توانید به درخواست ها به گونه ای پاسخ دهید که گویی شما هستید مرد یا زن، لیبرال یا محافظهکار.
اعلامیه "OpinionGPT: یک مدل GPT بسیار مغرضانه"! اینجا را امتحان کنید: https://t.co/5YJjHlcV4n
[1/3]
برای بررسی تاثیر سوگیری بر پاسخ های مدل، یک سوال ساده پرسیدیم. #GPT آیا فقط از متون نوشته شده توسط افراد راست سیاسی الگوبرداری شده است؟— آلن اکبیک (@alan_akbik) 8 سپتامبر 2023
OpinionGPT بر اساس مجموعهای از دادههای مشتق شده از انجمن AskX، یک subreddit در Reddit، پالایش شد. نمونه هایی از این زیرمجموعه ها عبارتند از: «از یک زن بپرس» و «از یک آمریکایی بپرس».
این تیم کار خود را با یافتن subreddit های مرتبط با 11 سوگیری خاص و استخراج 25000 پست محبوب از هر subreddit آغاز کرد. پس از آن فقط پستهایی را نگه میداشتیم که حداقل آستانه رای مثبت را داشته باشند، نقل قولهای تعبیهشده نداشتند و کمتر از 80 کلمه بودند.
با نگاهی به آنچه باقی مانده است، به نظر می رسد که آنها از رویکردی مشابه به هوش مصنوعی Constitutional Anthropic استفاده کرده اند. به جای ایجاد یک مدل کاملاً جدید برای نشان دادن هر برچسب سوگیری، ما اساساً یک مدل Llama2 با 7 میلیارد پارامتر را با استفاده از مجموعهای از دستورالعملهای جداگانه برای هر سوگیری مورد انتظار تنظیم دقیق کردیم.
مطالب مرتبط: استفاده از هوش مصنوعی در رسانه های اجتماعی می تواند بر احساسات رأی دهندگان تأثیر بگذارد
بر اساس روششناسی، معماری و دادههای توصیفشده در مقاله تحقیقاتی تیم آلمانی، به نظر میرسد که نتایج یک سیستم هوش مصنوعی است که بیشتر به عنوان ابزاری برای تولید کلیشهها عمل میکند تا ابزاری برای مطالعه سوگیری در دنیای واقعی.
به دلیل ماهیت مشکوک دادههایی که مدل بر اساس آن پالایش میشود و رابطه بین آن دادهها و برچسبهایی که آن را تعریف میکنند، OpinionGPT لزوماً متنی را که با سوگیریهای قابل اندازهگیری در دنیای واقعی سازگار باشد، خروجی نمیدهد. به سادگی متنی را خروجی می دهد که سوگیری در داده ها را منعکس می کند.
خود محققان برخی از محدودیتهایی را که این امر بر تحقیقات خود تحمیل میکند، تشخیص دادند و نوشتند:
برای مثال، واکنش «آمریکاییها» باید بهعنوان «آمریکاییهایی که در Reddit پست میکنند» یا حتی «آمریکاییهایی که در این subreddit خاص پست میکنند» درک شود. به طور مشابه، “آلمانی ها” را باید به عنوان “آلمانی هایی که در این subreddit خاص پست می کنند” و غیره درک شود. ”
این اخطارها را میتوان بیشتر اصلاح کرد، بهعنوان مثال، اینکه پستها از طرف «افرادی که ادعا میکنند آمریکاییها در این subreddit خاص پست میکنند» آمده است. در این سند هیچ اشاره ای به بررسی اینکه آیا پوستر پشت یک پست خاص در واقع یک پوستر نماینده است یا خیر. از گروه جمعیتی یا مغرضانه ای که ادعا می کنند هستند.
نویسندگان ادامه میدهند که قصد دارند مدلهایی را بررسی کنند که جمعیتشناسی را بهتر توصیف کند (یعنی آلمانیهای لیبرال، آلمانیهای محافظهکار).
به نظر می رسد خروجی ارائه شده توسط OpinionGPT بین نمایش تعصب قابل اثبات و تفاوت قابل توجهی با استانداردهای تعیین شده متفاوت است، که مانع از بقای آن به عنوان ابزاری برای اندازه گیری یا کشف سوگیری در دنیای واقعی می شود.

با توجه به OpinionGPT، لاتینها به سمت ورزش مورد علاقهشان بسکتبال گرایش دارند، همانطور که برای مثال در نمودار بالا نشان داده شده است.
با این حال، تحقیقات تجربی به وضوح نشان می دهد که محبوب ترین ورزش ها از نظر بیننده و مشارکت در سراسر آمریکای لاتین، فوتبال (در برخی کشورها به عنوان فوتبال نیز شناخته می شود) و بیسبال هستند.
همین جدول همچنین نشان میدهد که OpinionGPT وقتی از او خواسته میشود یک «جواب نوجوان» بدهد، «واترپلو» را به عنوان ورزش مورد علاقه نشان میدهد، اما این پاسخ از نظر آماری بعید است که افراد 13 تا 19 ساله نشان داده شوند.
این ایده که غذای مورد علاقه یک آمریکایی معمولی “پنیر” است نیز همینطور است. دهها نظرسنجی آنلاین پیدا کردم که ادعا میکنند پیتزا و همبرگر غذاهای مورد علاقه آمریکاییها هستند، اما من نتوانستم یک نظرسنجی یا مطالعه پیدا کنم که ادعا کند غذای شماره یک آمریکاییها فقط پنیر است.
OpinionGPT ممکن است برای مطالعه سوگیری واقعی انسان مناسب نباشد، اما به عنوان ابزاری برای بررسی کلیشههای ذاتی در مخازن اسناد بزرگ مانند subreddits فردی یا مجموعههای آموزشی هوش مصنوعی میتواند مفید باشد.
برای علاقه مندان، محققان OpinionGPT را برای آزمایش عمومی آنلاین در دسترس قرار داده اند. با این حال، به گفته این وب سایت، کاربران بالقوه باید توجه داشته باشند که “محتوای تولید شده ممکن است نادرست، نادرست یا زشت باشد.”
نویسنده: Tristan Greene