AMD اولین سری از مدلهای زبان بزرگ (LLM) کاملاً متنباز و با میلیارد پارامتر به نام AMD OLMo را معرفی کرده است که برنامههای مختلفی را هدف قرار میدهند و از قبل بر روی پردازندههای گرافیکی Instinct MI250 این شرکت آموزش دیدهاند. گفته می شود که LLM ها توانایی های تفکر قوی، پیروی از دستورالعمل ها و چت را ارائه می دهند.
هدف نرم افزار منبع باز LLM AMD بهبود موقعیت این شرکت در صنعت هوش مصنوعی است و مشتریان خود (و همه افراد دیگر) را قادر می سازد تا این مدل های منبع باز را با سخت افزار AMD به کار گیرند. هدف AMD با منبعیابی آشکار دادهها، وزنها، دستور العملهای آموزشی و کدها این است که توسعهدهندگان را قادر سازد نه تنها مدلها را تکرار کنند، بلکه برای نوآوریهای بیشتر بر روی آنها بسازند. فراتر از استفاده در مراکز داده، AMD استقرار محلی مدل های OLMo را در رایانه های شخصی AMD Ryzen AI مجهز به واحدهای پردازش عصبی (NPU) فعال کرده است و به توسعه دهندگان این امکان را می دهد تا از مدل های هوش مصنوعی در دستگاه های شخصی استفاده کنند.
پیش تمرین چند مرحله ای
مدل های AMD OLMo بر روی مجموعه داده عظیمی از 1.3 تریلیون توکن در 16 گره آموزش داده شدند که هر کدام شامل چهار پردازنده گرافیکی AMD Instinct MI250 (مجموعاً 64 پردازنده) بود. مجموعه مدل های OLMo AMD در سه مرحله آموزش داده می شود.
- نمونه اولیه AMD OLMo 1B که از قبل روی زیرمجموعه ای از Dolma v1.7 آموزش داده شده است، یک ترانسفورماتور فقط رمزگشا است که بر پیش بینی نشانه بعدی برای گرفتن الگوهای زبان و دانش عمومی تمرکز دارد.
- نسخه دوم یک AMD OLMo 1B است که بر روی مجموعه داده Tulu V2 (مرحله اول) و سپس OpenHermes-2.5، WebInstructSub و مجموعه داده های Code-Feedback (مرحله دوم) آموزش داده شده است تا پیگیری و بهینه سازی دستورالعمل ها را بهبود بخشد. عملکرد آنها در وظایف مربوط به علوم، برنامه نویسی و ریاضیات.
- پس از تنظیم دقیق، مدل AMD OLMo 1B SFT با استفاده از بهینهسازی اولویت مستقیم (DPO) با مجموعه داده UltraFeedback با اولویتهای انسانی تراز شد، و در نتیجه DPO نهایی AMD OLMo 1B SFT برای اولویتبندی خروجیهایی که با بازخورد معمولی انسان سازگار است، انجام شد.
نتایج عملکرد
در آزمایشهای خود AMD، مدلهای AMD OLMo عملکرد چشمگیری را در برابر مدلهای منبع باز با اندازه مشابه مانند TinyLlama-1.1B، MobiLlama-1B، و OpenELM-1_1B در معیارهایی برای تواناییهای استدلال کلی و درک چند وظیفهای نشان دادند.
مدل دو مرحلهای SFT پیشرفتهای قابلتوجهی در دقت داشت، با افزایش امتیازات MMLU به میزان 5.09 درصد و امتیازات GSM8k با افزایش 15.32 درصدی که نشاندهنده تأثیر رویکرد آموزشی AMD است. مدل نهایی AMD OLMo 1B SFT DPO حداقل 2.60 درصد از سایر مدلهای IM منبع باز در بین معیارها بهتر عمل کرد.
وقتی صحبت از نتایج تنظیمشده توسط دستورالعملها برای مدلهای AMD OLMo در معیارهای IM میشود، بهویژه در مقایسه مدلهای AMD OLMo 1B SFT و AMD OLMo 1B SFT DPO با سایر مدلهای تنظیمشده دستورالعمل، مدلهای AMD از بهترین رقیب بعدی در AlpacaEval بهتر عمل کردند. نرخ برد 3.41% + نرخ برد AlpacaEval 2 LC 2.29% است. علاوه بر این، در تست MT-Bench، که قابلیتهای چت چند نوبتی را اندازهگیری میکند، مدل SFT DPO نسبت به نزدیکترین رقیب خود به افزایش عملکرد 0.97 درصدی دست یافت.
علاوه بر این، AMD معیارهای هوش مصنوعی مسئول را آزمایش کرده است، مانند ToxiGen (که زبان سمی را می سنجد، جایی که نمره کمتر بهتر است)، crowds_pairs (ارزیابی سوگیری) و TruthfulQA-mc2 (ارزیابی صداقت در پاسخ ها). مشخص شد که مدلهای AMD OLMo در انجام وظایف اخلاقی و مسئولیتپذیر هوش مصنوعی با مدلهای مشابه برابری میکنند.
منبع: https://www.tomshardware.com/tech-industry/artificial-intelligence/amd-unveils-amd-olmo-its-first-1b-parameter-llm-with-strong-reasoning
تحریریه مجله اچ پی