هوش مصنوعی متا زیر ذره‌بین منتقدان

| علمی و فناوری | عمومی

۱۴۰۴/۰۱/۱۸

۱۴:۰۴:۰۲

| کد خبر: ۲۲۰۵۲۶۳

برنا - گروه علمی و فناوری: مدل جدید هوش مصنوعی متا به نام ماوریک در رتبه‌بندی LM Arena درخشان ظاهر شده، اما نسخه‌ای که آزمایش شده با نسخه‌ای که برای عموم منتشر شده تفاوت دارد. این موضوع باعث ایجاد تردید در اعتبار ارزیابی‌ها شده است.

شرکت متا به‌تازگی مدل‌های هوش مصنوعی جدید خود را معرفی کرده که در میان آنها، مدل پرچمدار «ماوریک» (Maverick) توانسته در رتبه‌بندی LM Arena جایگاه دوم را کسب کند. این رتبه‌بندی براساس ترجیح کاربران انسانی میان خروجی‌های مدل‌های مختلف انجام می‌شود اما به نظر می‌رسد نسخه‌ای که متا برای این آزمون استفاده کرده با نسخه‌ای که در اختیار توسعه‌دهندگان قرار گرفته، تفاوت دارد.

به گزارش تک کرانچ، براساس گزارش‌ها و اظهارنظر پژوهشگران حوزه هوش مصنوعی در شبکه اجتماعی ایکس، متا در اطلاعیه خود اشاره کرده که نسخه مورد استفاده در LM Arena، یک «نسخه آزمایشی گفت‌و‌گو محور» از ماوریک بوده است. همچنین در وب‌سایت رسمی Llama نیز آمده که مدل تست‌شده در LM Arena، نسخه‌ای از «Llama ۴ Maverick بهینه‌سازی‌شده برای مکالمه» بوده است.

این موضوع در حالی مطرح می‌شود که ارزیابی LM Arena پیش‌تر نیز به‌عنوان معیاری نسبتاً غیرقابل اتکا شناخته شده بود اما تا کنون کمتر سابقه داشته که شرکت‌ها مدل‌های خود را برای عملکرد بهتر در این آزمون به‌صورت ویژه تنظیم کنند — یا حداقل چنین چیزی را به‌صورت عمومی اعلام نکرده‌اند.

مشکل اصلی اینجاست که وقتی یک مدل به‌صورت ویژه برای یک آزمون بهینه می‌شود، اما نسخه عمومی آن منتشر نمی‌شود یا متفاوت است، توسعه‌دهندگان نمی‌توانند به‌درستی عملکرد مدل را در سناریو‌های واقعی پیش‌بینی کنند. این اقدام می‌تواند گمراه‌کننده باشد و اعتماد به معیار‌های استاندارد را زیر سؤال ببرد.

برخی از پژوهشگران همچنین به تفاوت‌های رفتاری چشمگیر بین نسخه قابل دانلود ماوریک و نسخه‌ای که در LM Arena استفاده شده اشاره کرده‌اند؛ از جمله استفاده زیاد از ایموجی و ارائه پاسخ‌های بسیار طولانی توسط نسخه آزمایشی.

انتهای پیام/

آیا این خبر مفید بود؟

ارسال به دیگران