دریافت پاسخ‌های ضعیف‌تر هوش مصنوعی از سوی کاربران ایرانی در مطالعه جدید MIT
هوش مصنوعی پاسخ‌های ضعیف‌تری به کاربران ایرانی می‌دهد

هوش مصنوعی پاسخ‌های ضعیف‌تری به کاربران ایرانی می‌دهد: مطالعه MIT نابرابری‌های جدی را آشکار می‌کند

مدل‌های پیشرفته هوش مصنوعی که به عنوان ابزارهایی برای «دموکراتیک کردن دسترسی به دانش» تبلیغ می‌شوند، اکنون با پرسش جدی مواجه هستند: آیا این سیستم‌ها برای همه کاربران به یک اندازه خوب کار می‌کنند؟ مطالعه جدید مرکز ارتباطات سازنده در مؤسسه فناوری ماساچوست نشان می‌دهد پاسخ ممکن است منفی باشد — به ویژه برای کاربرانی که زبان اول آن‌ها انگلیسی نیست یا خارج از ایالات متحده زندگی می‌کنند، از جمله کاربران ایرانی.

ارزیابی سه مدل پیشرو و روش تحقیق

محققان سه مدل برجسته را ارزیابی کردند: GPT-4 توسعه‌یافته توسط OpenAI، Claude 3 Opus توسط Anthropic و Llama 3 توسط Meta. در هر آزمایش، پژوهشگران ابتدا یک زندگینامه کوتاه تخیلی از کاربر را به مدل ارائه دادند و سپس سؤالی پرسیدند. آن‌ها به طور سیستماتیک سه عامل را تغییر دادند:

  • سطح تحصیلات (بالاتر یا پایین‌تر)
  • مهارت انگلیسی (بومی یا غیربومی)
  • کشور مبدأ (ایالات متحده، ایران یا چین)

سؤالات از دو مجموعه داده گرفته شد: یکی برای اندازه‌گیری صداقت و راستگویی طراحی شده بود و دیگری شامل سؤالات علمی برای ارزیابی دقت واقعی بود.

بانر عريض لتطبيق Pickt — قوائم تسوّق تعاونية عبر تيليجرام

کاهش دقت برای غیرانگلیسی‌زبانان و کاربران ایرانی

در هر سه مدل، پاسخ‌ها هنگامی که سؤالات به کاربران با سطح تحصیلات پایین‌تر یا مهارت انگلیسی غیربومی نسبت داده می‌شد، به طور قابل توجهی نادقیق‌تر بودند. این کاهش هنگامی که هر دو عامل — تحصیلات پایین و انگلیسی غیربومی — ترکیب می‌شدند، بیشترین نمود را داشت. این یافته به ویژه قابل توجه است زیرا مدل‌های زبانی بزرگ اغلب به عنوان ابزارهایی بازاریابی می‌شوند که می‌توانند به پر کردن شکاف‌های آموزشی و اطلاعاتی کمک کنند — به ویژه برای کاربرانی که ممکن است آموزش رسمی پیشرفته نداشته باشند.

هنگام مقایسه کاربران از ایالات متحده، چین و ایران با سطوح تحصیلات مشابه، مطالعه نشان داد که Claude 3 Opus، توسعه‌یافته توسط Anthropic، برای کاربرانی که از ایران شناسایی شده بودند، عملکرد بدتری داشت. این شکاف هم در دقت علمی و هم در معیارهای مربوط به راستگویی ظاهر شد.

امتناع بیشتر و لحن تحقیرآمیز

این نابرابری فراتر از کیفیت پاسخ گسترش یافت. مدل همچنین بیشتر احتمال داشت که از پاسخ دادن امتناع کند. بر اساس داده‌های منتشر شده، Claude 3 Opus از پاسخ به حدود ۱۱ درصد سؤالات کاربرانی که کمتر تحصیل‌کرده و غیرانگلیسی‌زبان توصیف شده بودند، خودداری کرد. در مقابل، نرخ امتناع در شرایط کنترل — که هیچ زندگینامه کاربری ارائه نشده بود — ۳.۶ درصد بود که نشان‌دهنده افزایش بیش از سه برابری است.

بانر بعد المقال Pickt — تطبيق قوائم تسوّق تعاونية مع رسم توضيحي عائلي

بررسی دستی پاسخ‌ها نشان داد که در ۴۳.۷ درصد موارد مربوط به کاربران کمتر تحصیل‌کرده، لحن مدل حاوی عناصر تحقیرآمیز یا متکبرانه بود. برای کاربران بسیار تحصیل‌کرده، این رقم زیر یک درصد بود. در برخی موارد، مدل به نظر می‌رسید که انگلیسی شکسته را تقلید می‌کند یا لهجه را اغراق می‌کند.

امتناع انتخابی در موضوعات حساس

این مطالعه همچنین امتناع‌های انتخابی را گزارش کرد. در موضوعاتی مانند انرژی هسته‌ای، آناتومی انسان و برخی رویدادهای تاریخی، مدل از ارائه اطلاعات به کاربران کمتر تحصیل‌کرده که از ایران یا روسیه شناسایی شده بودند، خودداری کرد — در حالی که همان سؤالات را برای کاربران دیگر پاسخ داد. چنین الگوهایی نگرانی‌هایی را درباره ثبات، انصاف و اعتماد جهانی به سیستم‌های هوش مصنوعی ایجاد می‌کند.

بازتاب سوگیری‌های اجتماعی در داده‌های آموزشی

محققان هشدار می‌دهند که این نتایج ممکن است ناشی از انتخاب‌های طراحی عمدی نباشد، بلکه از سوگیری‌های تعبیه‌شده در داده‌های آموزشی سرچشمه بگیرد. تحقیقات علوم اجتماعی مدتهاست نشان داده که گویشوران غیربومی انگلیسی گاهی اوقات به طور ناخودآگاه در برخی زمینه‌ها کمتر شایسته درک می‌شوند. یافته‌های جدید نشان می‌دهد که الگوهای مشابه ممکن است در مدل‌های زبانی بزرگ منعکس شود.

یکی از نویسندگان مطالعه خاطرنشان کرد که اگر مدل‌های زبانی قرار است به طور معناداری نابرابری اطلاعاتی جهانی را کاهش دهند، سوگیری‌های تعبیه‌شده در آن‌ها باید به طور سیستماتیک شناسایی و کاهش یابد. در غیر این صورت، این فناوری خطر تقویت همان نابرابری‌هایی را دارد که ادعای رفع آن‌ها را دارد.

شخصی‌سازی و خطر تشدید نابرابری

این یافته‌ها در زمانی مطرح می‌شود که توسعه‌دهندگان هوش مصنوعی — از جمله OpenAI — در حال گسترش ویژگی‌های شخصی‌سازی مانند حافظه پایدار هستند که به سیستم‌ها اجازه می‌دهد اطلاعات کاربر را در گفتگوها حفظ کنند. در حالی که این ابزارها می‌توانند تجربه کاربر را بهبود بخشند، همچنین امکان این را معرفی می‌کنند که مدل‌ها ممکن است گروه‌های مختلف کاربران را متفاوت رفتار کنند اگر محافظت‌ها به دقت اجرا نشوند.

برای کشورهایی مانند ایران، که کاربران به طور فزاینده‌ای به ابزارهای هوش مصنوعی متکی هستند اما مشارکت محدودی در توسعه و آموزش آن‌ها دارند، این نتایج پیامدهای گسترده‌تری دارد. این موضوع فراتر از دقت فنی است؛ به برابری دیجیتال، شفافیت الگوریتمی و دسترسی برابر به دانش مربوط می‌شود.

مطالعه MIT در نهایت یک پرسش اساسی برای صنعت هوش مصنوعی مطرح می‌کند: آیا این سیستم‌ها واقعاً جهانی هستند، یا هنوز جهان را از طریق لنزهای زبانی و جغرافیایی محدود می‌بینند؟