AMD از AMD OLMo، اولین LLM با پارامتر 1B با منطق قدرتمند رونمایی کرد

AMD

AMD اولین سری از مدل‌های زبان بزرگ (LLM) کاملاً متن‌باز و با میلیارد پارامتر به نام AMD OLMo را معرفی کرده است که برنامه‌های مختلفی را هدف قرار می‌دهند و از قبل بر روی پردازنده‌های گرافیکی Instinct MI250 این شرکت آموزش دیده‌اند. گفته می شود که LLM ها توانایی های تفکر قوی، پیروی از دستورالعمل ها و چت را ارائه می دهند.

هدف نرم افزار منبع باز LLM AMD بهبود موقعیت این شرکت در صنعت هوش مصنوعی است و مشتریان خود (و همه افراد دیگر) را قادر می سازد تا این مدل های منبع باز را با سخت افزار AMD به کار گیرند. هدف AMD با منبع‌یابی آشکار داده‌ها، وزن‌ها، دستور العمل‌های آموزشی و کدها این است که توسعه‌دهندگان را قادر سازد نه تنها مدل‌ها را تکرار کنند، بلکه برای نوآوری‌های بیشتر بر روی آن‌ها بسازند. فراتر از استفاده در مراکز داده، AMD استقرار محلی مدل های OLMo را در رایانه های شخصی AMD Ryzen AI مجهز به واحدهای پردازش عصبی (NPU) فعال کرده است و به توسعه دهندگان این امکان را می دهد تا از مدل های هوش مصنوعی در دستگاه های شخصی استفاده کنند.

پیش تمرین چند مرحله ای

مدل های AMD OLMo بر روی مجموعه داده عظیمی از 1.3 تریلیون توکن در 16 گره آموزش داده شدند که هر کدام شامل چهار پردازنده گرافیکی AMD Instinct MI250 (مجموعاً 64 پردازنده) بود. مجموعه مدل های OLMo AMD در سه مرحله آموزش داده می شود.

(اعتبار تصویر: AMD)
  • نمونه اولیه AMD OLMo 1B که از قبل روی زیرمجموعه ای از Dolma v1.7 آموزش داده شده است، یک ترانسفورماتور فقط رمزگشا است که بر پیش بینی نشانه بعدی برای گرفتن الگوهای زبان و دانش عمومی تمرکز دارد.
  • نسخه دوم یک AMD OLMo 1B است که بر روی مجموعه داده Tulu V2 (مرحله اول) و سپس OpenHermes-2.5، WebInstructSub و مجموعه داده های Code-Feedback (مرحله دوم) آموزش داده شده است تا پیگیری و بهینه سازی دستورالعمل ها را بهبود بخشد. عملکرد آنها در وظایف مربوط به علوم، برنامه نویسی و ریاضیات.
  • پس از تنظیم دقیق، مدل AMD OLMo 1B SFT با استفاده از بهینه‌سازی اولویت مستقیم (DPO) با مجموعه داده UltraFeedback با اولویت‌های انسانی تراز شد، و در نتیجه DPO نهایی AMD OLMo 1B SFT برای اولویت‌بندی خروجی‌هایی که با بازخورد معمولی انسان سازگار است، انجام شد.

نتایج عملکرد

(اعتبار تصویر: AMD)

در آزمایش‌های خود AMD، مدل‌های AMD OLMo عملکرد چشمگیری را در برابر مدل‌های منبع باز با اندازه مشابه مانند TinyLlama-1.1B، MobiLlama-1B، و OpenELM-1_1B در معیارهایی برای توانایی‌های استدلال کلی و درک چند وظیفه‌ای نشان دادند.

(اعتبار تصویر: AMD)

مدل دو مرحله‌ای SFT پیشرفت‌های قابل‌توجهی در دقت داشت، با افزایش امتیازات MMLU به میزان 5.09 درصد و امتیازات GSM8k با افزایش 15.32 درصدی که نشان‌دهنده تأثیر رویکرد آموزشی AMD است. مدل نهایی AMD OLMo 1B SFT DPO حداقل 2.60 درصد از سایر مدل‌های IM منبع باز در بین معیارها بهتر عمل کرد.

(اعتبار تصویر: AMD)

وقتی صحبت از نتایج تنظیم‌شده توسط دستورالعمل‌ها برای مدل‌های AMD OLMo در معیارهای IM می‌شود، به‌ویژه در مقایسه مدل‌های AMD OLMo 1B SFT و AMD OLMo 1B SFT DPO با سایر مدل‌های تنظیم‌شده دستورالعمل، مدل‌های AMD از بهترین رقیب بعدی در AlpacaEval بهتر عمل کردند. نرخ برد 3.41% + نرخ برد AlpacaEval 2 LC 2.29% است. علاوه بر این، در تست MT-Bench، که قابلیت‌های چت چند نوبتی را اندازه‌گیری می‌کند، مدل SFT DPO نسبت به نزدیک‌ترین رقیب خود به افزایش عملکرد 0.97 درصدی دست یافت.

(اعتبار تصویر: AMD)

علاوه بر این، AMD معیارهای هوش مصنوعی مسئول را آزمایش کرده است، مانند ToxiGen (که زبان سمی را می سنجد، جایی که نمره کمتر بهتر است)، crowds_pairs (ارزیابی سوگیری) و TruthfulQA-mc2 (ارزیابی صداقت در پاسخ ها). مشخص شد که مدل‌های AMD OLMo در انجام وظایف اخلاقی و مسئولیت‌پذیر هوش مصنوعی با مدل‌های مشابه برابری می‌کنند.

منبع: https://www.tomshardware.com/tech-industry/artificial-intelligence/amd-unveils-amd-olmo-its-first-1b-parameter-llm-with-strong-reasoning

تحریریه مجله اچ پی