۲۰ سازمان اروپایی برای ساخت LLM‌های بومی متحد شدند

| علمی و فناوری | عمومی

۱۴۰۳/۱۱/۳۰

۰۸:۰۱:۰۲

| کد خبر: ۲۱۹۲۲۰۴

۲۰ سازمان اروپایی برای ساخت LLM‌های بومی متحد شدند

برنا - گروه علمی و فناوری: اتحادیه اروپا با راه‌اندازی پروژه OpenEuroLLM قصد دارد مدل‌های زبانی بازمتن را برای تمامی زبان‌های رسمی خود توسعه دهد. این پروژه با مشارکت ۲۰ سازمان علمی و صنعتی و بودجه ۳۷.۴ میلیون یورویی، گامی مهم در مسیر استقلال دیجیتال اروپا محسوب می‌شود.

مدل‌های زبانی بزرگ (LLM) هفته گذشته با اعلام برنامه‌ای جدید برای توسعه مجموعه‌ای از مدل‌های واقعاً متن‌باز که تمامی زبان‌های اتحادیه اروپا را پوشش دهند، به اولویت‌های حاکمیت دیجیتال اروپا اضافه شدند.

به گزارش تک کرانچ، این پروژه که OpenEuroLLM نام دارد، شامل ۲۴ زبان رسمی اتحادیه اروپا و همچنین زبان‌هایی از کشور‌های در حال مذاکره برای ورود به بازار اتحادیه، مانند آلبانی، خواهد بود. این طرح حاصل همکاری ۲۰ سازمان مختلف است و به‌صورت مشترک توسط یان هاژیک، زبان‌شناس رایانشی از دانشگاه چارلز در پراگ، و پیتر سارلین، مدیرعامل و هم‌بنیان‌گذار آزمایشگاه هوش مصنوعی Silo AI فنلاند (که سال گذشته توسط AMD به قیمت ۶۶۵ میلیون دلار خریداری شد)، هدایت می‌شود.

تلاش اروپا برای استقلال دیجیتال

این پروژه در راستای استراتژی گسترده‌تر اتحادیه اروپا برای حاکمیت دیجیتال تعریف شده است؛ تلاشی برای افزایش کنترل بر زیرساخت‌های حیاتی و ابزار‌های دیجیتال. در همین راستا، غول‌های ابری در حال سرمایه‌گذاری روی زیرساخت‌های محلی هستند تا داده‌های اتحادیه اروپا در داخل مرز‌های این قاره باقی بمانند. همچنین، OpenAI اخیراً امکان پردازش و ذخیره داده‌ها در اروپا را برای مشتریان خود فراهم کرده است.

در سطح کلان‌تر، اتحادیه اروپا اخیراً یک قرارداد ۱۱ میلیارد دلاری برای ایجاد یک منظومه ماهواره‌ای مستقل به‌منظور رقابت با استارلینک ایلان ماسک امضا کرده است.

با این حال، بودجه اختصاص‌یافته به OpenEuroLLM برای توسعه مدل‌ها تنها ۳۷.۴ میلیون یورو است که ۲۰ میلیون یورو آن از سوی برنامه دیجیتال اروپا تأمین می‌شود؛ رقمی ناچیز در مقایسه با سرمایه‌گذاری‌های شرکت‌های بزرگ هوش مصنوعی. هرچند، هزینه‌های اصلی پروژه مربوط به پردازش و رایانش است که از طریق مراکز ابررایانه EuroHPC در اسپانیا، ایتالیا، فنلاند و هلند تأمین خواهد شد. پروژه EuroHPC در مجموع ۷ میلیارد یورو بودجه دارد.

چالش هماهنگی میان ۲۰ سازمان

با توجه به حضور بیش از ۲۰ نهاد تحقیقاتی و صنعتی در این پروژه، برخی کارشناسان نسبت به امکان تحقق اهداف آن تردید دارند. آناستازیا استاسنکو، هم‌بنیان‌گذار شرکت Pleias، گفت: تجربیات اخیر نشان داده که موفقیت‌های اروپا در زمینه هوش مصنوعی بیشتر از سوی تیم‌های کوچک و متمرکزی مانند Mistral AI و LightOn رقم خورده است؛ شرکت‌هایی که به‌صورت مستقل تصمیم‌گیری می‌کنند و مسئولیت مستقیم انتخاب‌های خود را بر عهده دارند.

آیا OpenEuroLLM از صفر شروع می‌کند؟

پروژه OpenEuroLLM از جهاتی از صفر آغاز می‌شود، اما از جهاتی دیگر بر پایه پروژه‌های قبلی استوار است. از سال ۲۰۲۲، هاژیک پروژه‌ای موسوم به High Performance Language Technologies (HPLT) را هدایت کرده که هدف آن توسعه مجموعه داده‌های رایگان و مدل‌های مبتنی بر پردازش ابری است. بیشتر شرکای HPLT (به‌جز نهاد‌های بریتانیایی) در OpenEuroLLM نیز حضور دارند.

نسخه اولیه مدل‌های OpenEuroLLM تا اواسط سال ۲۰۲۶ منتشر خواهد شد و نسخه نهایی آن تا پایان پروژه در سال ۲۰۲۸ تکمیل می‌شود. با این حال، تاکنون تنها یک پروفایل اولیه در گیت‌هاب برای این پروژه ثبت شده است.

تمرکز بر کیفیت و شفافیت

یکی از اهداف کلیدی این پروژه، توسعه مدل‌های زبانی پایه برای هوش مصنوعی شفاف در اروپا است. این مدل‌ها باید تنوع زبانی و فرهنگی اتحادیه اروپا را حفظ کنند و شامل نسخه‌های سبک‌تر (Quantized) برای کاربرد‌های بهینه باشند.

در زمینه داده‌ها، پروژه HPLT تاکنون ۴.۵ پتابایت داده از وب و بیش از ۲۰ میلیارد سند را گردآوری کرده است. علاوه بر این، داده‌های جدیدی از Common Crawl (یک مخزن عمومی داده‌های اینترنتی) به این مجموعه اضافه خواهد شد.

با این حال، یکی از چالش‌های این پروژه، تعریف متن‌باز بودن است. بر اساس دستورالعمل حق نشر اتحادیه اروپا، این پروژه می‌تواند از تمامی منابع داده‌ای در دسترس استفاده کند، اما برخی از این داده‌ها ممکن است قابل انتشار عمومی نباشند و فقط در دسترس ناظران رسمی قرار گیرند.

رقابت با پروژه‌های مشابه

یکی از مسائل مطرح‌شده درباره OpenEuroLLM، وجود پروژه‌ای مشابه به نام EuroLLM است که چند ماه پیش فعالیت خود را آغاز کرد. EuroLLM نیز با حمایت اتحادیه اروپا و مشارکت ۹ شریک از جمله دانشگاه ادینبورگ و شرکت Unbabel، به دنبال توسعه مدل‌های زبانی متن‌باز برای ۲۴ زبان رسمی اتحادیه اروپا است.

آندره مارتینز، مدیر تحقیقات Unbabel، در شبکه‌های اجتماعی از تشابه این دو پروژه انتقاد کرد و گفت: *"امیدوارم این جوامع به‌جای تکرار کارهای یکدیگر، به همکاری و اشتراک‌گذاری تخصص بپردازند.

هاژیک نیز این وضعیت را "نامطلوب" خواند اما اظهار امیدواری کرد که این دو پروژه بتوانند همکاری کنند. با این حال، به دلیل محدودیت‌های تأمین مالی اتحادیه اروپا، OpenEuroLLM نمی‌تواند با نهادهای بریتانیا و سوئیس همکاری کند.

پیتر سارلین، هم‌بنیان‌گذار Silo AI، معتقد است که بودجه OpenEuroLLM برای توسعه مدل‌های پایه کافی است، زیرا این پروژه محصولی برای مصرف‌کنندگان یا شرکت‌ها ارائه نخواهد داد و صرفاً زیرساختی برای توسعه هوش مصنوعی در اروپا خواهد بود.

وی در این باره گفت: هدف ما توسعه یک مدل هوش مصنوعی متن‌باز است که شرکت‌های اروپایی بتوانند بر اساس آن محصولات خود را بسازند. ما نمی‌خواهیم یک چت‌بات مانند ChatGPT بسازیم، بلکه مدلی بنیادی ارائه می‌دهیم که زیرساخت آینده هوش مصنوعی در اروپا باشد.

در نهایت، هدف نهایی این پروژه، رقابت با شرکت‌های بزرگ فناوری نیست، بلکه حفظ حاکمیت دیجیتال اروپا و توسعه مدل‌های زبانی بومی و شفاف برای این قاره است.

هاژیک در پایان تأکید کرد: حتی اگر در نهایت مدل ما برترین مدل جهان نباشد، اما ما مدلی خواهیم داشت که تمام مؤلفه‌های آن در اروپا ساخته شده‌اند. این خود یک دستاورد مهم خواهد بود.

انتهای پیام/

آیا این خبر مفید بود؟

ارسال به دیگران