هوش مصنوعی پاسخهای ضعیفتری به کاربران ایرانی میدهد: مطالعه MIT نابرابریهای جدی را آشکار میکند
مدلهای پیشرفته هوش مصنوعی که به عنوان ابزارهایی برای «دموکراتیک کردن دسترسی به دانش» تبلیغ میشوند، اکنون با پرسش جدی مواجه هستند: آیا این سیستمها برای همه کاربران به یک اندازه خوب کار میکنند؟ مطالعه جدید مرکز ارتباطات سازنده در مؤسسه فناوری ماساچوست نشان میدهد پاسخ ممکن است منفی باشد — به ویژه برای کاربرانی که زبان اول آنها انگلیسی نیست یا خارج از ایالات متحده زندگی میکنند، از جمله کاربران ایرانی.
ارزیابی سه مدل پیشرو و روش تحقیق
محققان سه مدل برجسته را ارزیابی کردند: GPT-4 توسعهیافته توسط OpenAI، Claude 3 Opus توسط Anthropic و Llama 3 توسط Meta. در هر آزمایش، پژوهشگران ابتدا یک زندگینامه کوتاه تخیلی از کاربر را به مدل ارائه دادند و سپس سؤالی پرسیدند. آنها به طور سیستماتیک سه عامل را تغییر دادند:
- سطح تحصیلات (بالاتر یا پایینتر)
- مهارت انگلیسی (بومی یا غیربومی)
- کشور مبدأ (ایالات متحده، ایران یا چین)
سؤالات از دو مجموعه داده گرفته شد: یکی برای اندازهگیری صداقت و راستگویی طراحی شده بود و دیگری شامل سؤالات علمی برای ارزیابی دقت واقعی بود.
کاهش دقت برای غیرانگلیسیزبانان و کاربران ایرانی
در هر سه مدل، پاسخها هنگامی که سؤالات به کاربران با سطح تحصیلات پایینتر یا مهارت انگلیسی غیربومی نسبت داده میشد، به طور قابل توجهی نادقیقتر بودند. این کاهش هنگامی که هر دو عامل — تحصیلات پایین و انگلیسی غیربومی — ترکیب میشدند، بیشترین نمود را داشت. این یافته به ویژه قابل توجه است زیرا مدلهای زبانی بزرگ اغلب به عنوان ابزارهایی بازاریابی میشوند که میتوانند به پر کردن شکافهای آموزشی و اطلاعاتی کمک کنند — به ویژه برای کاربرانی که ممکن است آموزش رسمی پیشرفته نداشته باشند.
هنگام مقایسه کاربران از ایالات متحده، چین و ایران با سطوح تحصیلات مشابه، مطالعه نشان داد که Claude 3 Opus، توسعهیافته توسط Anthropic، برای کاربرانی که از ایران شناسایی شده بودند، عملکرد بدتری داشت. این شکاف هم در دقت علمی و هم در معیارهای مربوط به راستگویی ظاهر شد.
امتناع بیشتر و لحن تحقیرآمیز
این نابرابری فراتر از کیفیت پاسخ گسترش یافت. مدل همچنین بیشتر احتمال داشت که از پاسخ دادن امتناع کند. بر اساس دادههای منتشر شده، Claude 3 Opus از پاسخ به حدود ۱۱ درصد سؤالات کاربرانی که کمتر تحصیلکرده و غیرانگلیسیزبان توصیف شده بودند، خودداری کرد. در مقابل، نرخ امتناع در شرایط کنترل — که هیچ زندگینامه کاربری ارائه نشده بود — ۳.۶ درصد بود که نشاندهنده افزایش بیش از سه برابری است.
بررسی دستی پاسخها نشان داد که در ۴۳.۷ درصد موارد مربوط به کاربران کمتر تحصیلکرده، لحن مدل حاوی عناصر تحقیرآمیز یا متکبرانه بود. برای کاربران بسیار تحصیلکرده، این رقم زیر یک درصد بود. در برخی موارد، مدل به نظر میرسید که انگلیسی شکسته را تقلید میکند یا لهجه را اغراق میکند.
امتناع انتخابی در موضوعات حساس
این مطالعه همچنین امتناعهای انتخابی را گزارش کرد. در موضوعاتی مانند انرژی هستهای، آناتومی انسان و برخی رویدادهای تاریخی، مدل از ارائه اطلاعات به کاربران کمتر تحصیلکرده که از ایران یا روسیه شناسایی شده بودند، خودداری کرد — در حالی که همان سؤالات را برای کاربران دیگر پاسخ داد. چنین الگوهایی نگرانیهایی را درباره ثبات، انصاف و اعتماد جهانی به سیستمهای هوش مصنوعی ایجاد میکند.
بازتاب سوگیریهای اجتماعی در دادههای آموزشی
محققان هشدار میدهند که این نتایج ممکن است ناشی از انتخابهای طراحی عمدی نباشد، بلکه از سوگیریهای تعبیهشده در دادههای آموزشی سرچشمه بگیرد. تحقیقات علوم اجتماعی مدتهاست نشان داده که گویشوران غیربومی انگلیسی گاهی اوقات به طور ناخودآگاه در برخی زمینهها کمتر شایسته درک میشوند. یافتههای جدید نشان میدهد که الگوهای مشابه ممکن است در مدلهای زبانی بزرگ منعکس شود.
یکی از نویسندگان مطالعه خاطرنشان کرد که اگر مدلهای زبانی قرار است به طور معناداری نابرابری اطلاعاتی جهانی را کاهش دهند، سوگیریهای تعبیهشده در آنها باید به طور سیستماتیک شناسایی و کاهش یابد. در غیر این صورت، این فناوری خطر تقویت همان نابرابریهایی را دارد که ادعای رفع آنها را دارد.
شخصیسازی و خطر تشدید نابرابری
این یافتهها در زمانی مطرح میشود که توسعهدهندگان هوش مصنوعی — از جمله OpenAI — در حال گسترش ویژگیهای شخصیسازی مانند حافظه پایدار هستند که به سیستمها اجازه میدهد اطلاعات کاربر را در گفتگوها حفظ کنند. در حالی که این ابزارها میتوانند تجربه کاربر را بهبود بخشند، همچنین امکان این را معرفی میکنند که مدلها ممکن است گروههای مختلف کاربران را متفاوت رفتار کنند اگر محافظتها به دقت اجرا نشوند.
برای کشورهایی مانند ایران، که کاربران به طور فزایندهای به ابزارهای هوش مصنوعی متکی هستند اما مشارکت محدودی در توسعه و آموزش آنها دارند، این نتایج پیامدهای گستردهتری دارد. این موضوع فراتر از دقت فنی است؛ به برابری دیجیتال، شفافیت الگوریتمی و دسترسی برابر به دانش مربوط میشود.
مطالعه MIT در نهایت یک پرسش اساسی برای صنعت هوش مصنوعی مطرح میکند: آیا این سیستمها واقعاً جهانی هستند، یا هنوز جهان را از طریق لنزهای زبانی و جغرافیایی محدود میبینند؟



