مهندسان اپل نشان می‌دهند که «استنتاج» هوش مصنوعی چقدر می‌تواند شکننده باشد

مهندسان اپل نشان می‌دهند که «استنتاج» هوش مصنوعی چقدر می‌تواند شکننده باشد

مدتی است که شرکت هایی مانند OpenAI و Google از قابلیت های پیشرفته «استنتاج» به عنوان گام بزرگ بعدی در آخرین مدل های هوش مصنوعی خود استفاده می کنند. با این حال، اکنون، یک مطالعه جدید توسط شش مهندس اپل نشان می‌دهد که «استنتاج ریاضی» ارائه‌شده توسط مدل‌های پیشرفته زبان بزرگ می‌تواند در مواجهه با تغییرات به‌ظاهر بی‌اهمیت در مسائل استاندارد رایج، بسیار شکننده و غیرقابل اعتماد باشد.

شکنندگی برجسته‌شده در این یافته‌های جدید به حمایت از تحقیقات قبلی کمک می‌کند که نشان می‌دهد استفاده از MBA برای تطبیق الگوی احتمالی، درک رسمی مفاهیم اساسی مورد نیاز برای توانایی‌های استدلال ریاضی واقعاً قابل اعتماد را از دست می‌دهد. پژوهشگران بر اساس این یافته‌ها فرضیه‌ای را مطرح می‌کنند: «MBA‌های فعلی قادر به تفکر منطقی واقعی نیستند». در عوض، آنها سعی می‌کنند مراحل تفکر مشاهده شده در داده‌های آموزشی خود را تکرار کنند.»

مخلوطش کن

در «GSM-Symbolic: Understanding Limits of Mathematical Inference in Large Language Models» – که اکنون به عنوان یک مقاله پیش چاپ در دسترس است – شش محقق اپل با مجموعه استاندارد شده GSM8K از بیش از 8000 مشکل کلمه ریاضی در سطح کلاس شروع کردند. اغلب به عنوان معیاری برای توانایی های استدلال پیچیده LLM های مدرن استفاده می شود. آنها سپس رویکرد جدید اصلاح بخشی از این مجموعه آزمایشی را برای جایگزینی پویا نام‌ها و اعداد خاص با مقادیر جدید در پیش می‌گیرند – بنابراین سؤالی در مورد دریافت 31 ساخت توسط سوفی برای برادرزاده‌اش در GSM8K می‌تواند به سؤالی در مورد دریافت 19 بیلد برای بیل تبدیل شود. برادرش در ارزیابی GSM -New Symbolic.

این رویکرد کمک می کند تا از هرگونه «آلودگی داده» بالقوه که می تواند ناشی از سؤالات استاتیک GSM8K باشد که مستقیماً به داده های آموزشی مدل هوش مصنوعی وارد می شود، جلوگیری می کند. در عین حال، این تغییرات اتفاقی به هیچ وجه دشواری واقعی استدلال ریاضی ذاتی را تغییر نمی‌دهند، به این معنی که مدل‌ها از نظر تئوری باید در هنگام آزمایش روی GSM-Symbolic به عنوان GSM8K یکسان عمل کنند.

در عوض، زمانی که محققان بیش از 20 LLM را روی سیستم GSM-Symbolic آزمایش کردند، دریافتند که دقت متوسط ​​در مقایسه با GSM8K با کاهش عملکرد بین 0.3 تا 9.2 درصد، بسته به مدل، کاهش یافته است. نتایج همچنین تنوع قابل توجهی را در بین 50 اجرا جداگانه GSM-Symbolic با نام ها و مقادیر مختلف نشان داد. فاصله تا 15 درصد دقت بین بهترین و بدترین اجراها در یک مدل رایج بود و بنا به دلایلی، تغییر اعداد منجر به دقت بدتر از تغییر نام می‌شد.

این نوع تنوع – هم در اجراهای مختلف GSM-Symbolic و هم در مقایسه با نتایج GSM8K – کمی شگفت‌انگیز است زیرا، همانطور که محققان اشاره می‌کنند، “مراحل استنتاج کلی مورد نیاز برای حل این سوال یکسان باقی می‌ماند.” این واقعیت که چنین تغییرات کوچکی منجر به چنین نتایج متغیری می‌شود، به محققان نشان می‌دهد که این مدل‌ها هیچ استدلال «رسمی» انجام نمی‌دهند، بلکه سعی می‌کنند نوعی تطبیق الگوهای توزیعی را انجام دهند، سؤالات و نتایج داده شده را مطابقت دهند. مراحل حل با مراحل مشابه که در داده های آموزشی ظاهر می شود.

حواس پرت نشو

با این حال، واریانس کلی توضیح داده شده در آزمون‌های GSM-Symbolic اغلب در طرح کلان چیزها نسبتاً کوچک بود. به عنوان مثال، دقت ChatGPT-4o OpenAI از 95.2 درصد در GSM8K به 94.9 درصد در GSM-Symbolic کاهش یافته است که هنوز هم چشمگیر است. این میزان موفقیت با استفاده از هر یک از معیارها بسیار بالاست، صرف نظر از اینکه آیا خود مدل از منطق “رسمی” در پشت صحنه استفاده می کند یا خیر (اگرچه دقت کلی بسیاری از مدل ها به طور چشمگیری کاهش می یابد وقتی محققان فقط یک یا دو مرحله منطقی اضافی را به مشکلات اضافه می کنند). .

با این حال، زمانی که محققان اپل استاندارد GSM-Symbolic را با افزودن «داده‌های به ظاهر مرتبط اما در نهایت بی‌اهمیت» به سؤالات اصلاح کردند، آزمون‌های LLM آزمایش‌شده بسیار بدتر عمل کردند. برای مجموعه معیار “GSM-NoOp” (مخفف “بدون عملیات”)، یک سوال در مورد تعداد کیوی هایی که شخصی در طی چند روز انتخاب می کند، ممکن است اصلاح شود تا جزئیات گاه به گاه را شامل شود که “پنج مورد از آنها (کیوی ها) کمی کوچکتر از آن هستند. متوسط.»

افزودن این مصنوعات قرمز منجر به آنچه محققان به عنوان “افت عملکرد فاجعه بار” در دقت در مقایسه با GSM8K توصیف کردند، بسته به مدل آزمایش شده از 17.5 درصد تا 65.7 درصد، منجر شد. محققان نوشتند که این کاهش چشمگیر در دقت، محدودیت‌های ذاتی استفاده از «تطبیق الگو» ساده برای «تبدیل داده‌ها به عملیات بدون درک واقعی معنای آن» را برجسته می‌کند.

منبع: https://www.wired.com/story/apple-ai-llm-reasoning-research/

تحریریه مجله اچ پی