مدتی است که شرکت هایی مانند OpenAI و Google از قابلیت های پیشرفته «استنتاج» به عنوان گام بزرگ بعدی در آخرین مدل های هوش مصنوعی خود استفاده می کنند. با این حال، اکنون، یک مطالعه جدید توسط شش مهندس اپل نشان میدهد که «استنتاج ریاضی» ارائهشده توسط مدلهای پیشرفته زبان بزرگ میتواند در مواجهه با تغییرات بهظاهر بیاهمیت در مسائل استاندارد رایج، بسیار شکننده و غیرقابل اعتماد باشد.
شکنندگی برجستهشده در این یافتههای جدید به حمایت از تحقیقات قبلی کمک میکند که نشان میدهد استفاده از MBA برای تطبیق الگوی احتمالی، درک رسمی مفاهیم اساسی مورد نیاز برای تواناییهای استدلال ریاضی واقعاً قابل اعتماد را از دست میدهد. پژوهشگران بر اساس این یافتهها فرضیهای را مطرح میکنند: «MBAهای فعلی قادر به تفکر منطقی واقعی نیستند». در عوض، آنها سعی میکنند مراحل تفکر مشاهده شده در دادههای آموزشی خود را تکرار کنند.»
مخلوطش کن
در «GSM-Symbolic: Understanding Limits of Mathematical Inference in Large Language Models» – که اکنون به عنوان یک مقاله پیش چاپ در دسترس است – شش محقق اپل با مجموعه استاندارد شده GSM8K از بیش از 8000 مشکل کلمه ریاضی در سطح کلاس شروع کردند. اغلب به عنوان معیاری برای توانایی های استدلال پیچیده LLM های مدرن استفاده می شود. آنها سپس رویکرد جدید اصلاح بخشی از این مجموعه آزمایشی را برای جایگزینی پویا نامها و اعداد خاص با مقادیر جدید در پیش میگیرند – بنابراین سؤالی در مورد دریافت 31 ساخت توسط سوفی برای برادرزادهاش در GSM8K میتواند به سؤالی در مورد دریافت 19 بیلد برای بیل تبدیل شود. برادرش در ارزیابی GSM -New Symbolic.
این رویکرد کمک می کند تا از هرگونه «آلودگی داده» بالقوه که می تواند ناشی از سؤالات استاتیک GSM8K باشد که مستقیماً به داده های آموزشی مدل هوش مصنوعی وارد می شود، جلوگیری می کند. در عین حال، این تغییرات اتفاقی به هیچ وجه دشواری واقعی استدلال ریاضی ذاتی را تغییر نمیدهند، به این معنی که مدلها از نظر تئوری باید در هنگام آزمایش روی GSM-Symbolic به عنوان GSM8K یکسان عمل کنند.
در عوض، زمانی که محققان بیش از 20 LLM را روی سیستم GSM-Symbolic آزمایش کردند، دریافتند که دقت متوسط در مقایسه با GSM8K با کاهش عملکرد بین 0.3 تا 9.2 درصد، بسته به مدل، کاهش یافته است. نتایج همچنین تنوع قابل توجهی را در بین 50 اجرا جداگانه GSM-Symbolic با نام ها و مقادیر مختلف نشان داد. فاصله تا 15 درصد دقت بین بهترین و بدترین اجراها در یک مدل رایج بود و بنا به دلایلی، تغییر اعداد منجر به دقت بدتر از تغییر نام میشد.
این نوع تنوع – هم در اجراهای مختلف GSM-Symbolic و هم در مقایسه با نتایج GSM8K – کمی شگفتانگیز است زیرا، همانطور که محققان اشاره میکنند، “مراحل استنتاج کلی مورد نیاز برای حل این سوال یکسان باقی میماند.” این واقعیت که چنین تغییرات کوچکی منجر به چنین نتایج متغیری میشود، به محققان نشان میدهد که این مدلها هیچ استدلال «رسمی» انجام نمیدهند، بلکه سعی میکنند نوعی تطبیق الگوهای توزیعی را انجام دهند، سؤالات و نتایج داده شده را مطابقت دهند. مراحل حل با مراحل مشابه که در داده های آموزشی ظاهر می شود.
حواس پرت نشو
با این حال، واریانس کلی توضیح داده شده در آزمونهای GSM-Symbolic اغلب در طرح کلان چیزها نسبتاً کوچک بود. به عنوان مثال، دقت ChatGPT-4o OpenAI از 95.2 درصد در GSM8K به 94.9 درصد در GSM-Symbolic کاهش یافته است که هنوز هم چشمگیر است. این میزان موفقیت با استفاده از هر یک از معیارها بسیار بالاست، صرف نظر از اینکه آیا خود مدل از منطق “رسمی” در پشت صحنه استفاده می کند یا خیر (اگرچه دقت کلی بسیاری از مدل ها به طور چشمگیری کاهش می یابد وقتی محققان فقط یک یا دو مرحله منطقی اضافی را به مشکلات اضافه می کنند). .
با این حال، زمانی که محققان اپل استاندارد GSM-Symbolic را با افزودن «دادههای به ظاهر مرتبط اما در نهایت بیاهمیت» به سؤالات اصلاح کردند، آزمونهای LLM آزمایششده بسیار بدتر عمل کردند. برای مجموعه معیار “GSM-NoOp” (مخفف “بدون عملیات”)، یک سوال در مورد تعداد کیوی هایی که شخصی در طی چند روز انتخاب می کند، ممکن است اصلاح شود تا جزئیات گاه به گاه را شامل شود که “پنج مورد از آنها (کیوی ها) کمی کوچکتر از آن هستند. متوسط.»
افزودن این مصنوعات قرمز منجر به آنچه محققان به عنوان “افت عملکرد فاجعه بار” در دقت در مقایسه با GSM8K توصیف کردند، بسته به مدل آزمایش شده از 17.5 درصد تا 65.7 درصد، منجر شد. محققان نوشتند که این کاهش چشمگیر در دقت، محدودیتهای ذاتی استفاده از «تطبیق الگو» ساده برای «تبدیل دادهها به عملیات بدون درک واقعی معنای آن» را برجسته میکند.
منبع: https://www.wired.com/story/apple-ai-llm-reasoning-research/
تحریریه مجله اچ پی