
شرکت متا بهتازگی مدلهای هوش مصنوعی جدید خود را معرفی کرده که در میان آنها، مدل پرچمدار «ماوریک» (Maverick) توانسته در رتبهبندی LM Arena جایگاه دوم را کسب کند. این رتبهبندی براساس ترجیح کاربران انسانی میان خروجیهای مدلهای مختلف انجام میشود اما به نظر میرسد نسخهای که متا برای این آزمون استفاده کرده با نسخهای که در اختیار توسعهدهندگان قرار گرفته، تفاوت دارد.
به گزارش تک کرانچ، براساس گزارشها و اظهارنظر پژوهشگران حوزه هوش مصنوعی در شبکه اجتماعی ایکس، متا در اطلاعیه خود اشاره کرده که نسخه مورد استفاده در LM Arena، یک «نسخه آزمایشی گفتوگو محور» از ماوریک بوده است. همچنین در وبسایت رسمی Llama نیز آمده که مدل تستشده در LM Arena، نسخهای از «Llama ۴ Maverick بهینهسازیشده برای مکالمه» بوده است.
این موضوع در حالی مطرح میشود که ارزیابی LM Arena پیشتر نیز بهعنوان معیاری نسبتاً غیرقابل اتکا شناخته شده بود اما تا کنون کمتر سابقه داشته که شرکتها مدلهای خود را برای عملکرد بهتر در این آزمون بهصورت ویژه تنظیم کنند — یا حداقل چنین چیزی را بهصورت عمومی اعلام نکردهاند.
مشکل اصلی اینجاست که وقتی یک مدل بهصورت ویژه برای یک آزمون بهینه میشود، اما نسخه عمومی آن منتشر نمیشود یا متفاوت است، توسعهدهندگان نمیتوانند بهدرستی عملکرد مدل را در سناریوهای واقعی پیشبینی کنند. این اقدام میتواند گمراهکننده باشد و اعتماد به معیارهای استاندارد را زیر سؤال ببرد.
برخی از پژوهشگران همچنین به تفاوتهای رفتاری چشمگیر بین نسخه قابل دانلود ماوریک و نسخهای که در LM Arena استفاده شده اشاره کردهاند؛ از جمله استفاده زیاد از ایموجی و ارائه پاسخهای بسیار طولانی توسط نسخه آزمایشی.
انتهای پیام/