
یک استارتاپ آمریکایی به نام Zyphra از مدل هوش مصنوعی تبدیل متن به گفتار (TTS) جدیدی رونمایی کرده که قادر است تنها با پنج ثانیه نمونه صوتی، صدای افراد را شبیهسازی کند.
به گزارش رجیستر، این استارتاپ که توسط دنی مارتینلی و کریتیک پوتالات در سال ۲۰۲۱ تأسیس شد، در ابتدا با هدف توسعه یک سیستمعامل چندحالتی به نام MaiaOS فعالیت خود را آغاز کرد. تلاشهای این شرکت منجر به معرفی مدلهای زبانی کوچک Zamba و اخیراً مدلهای تبدیل متن به گفتار Zonos شده است.
ویژگیهای مدل Zonos:
این مدلها دارای ۱.۶ میلیارد پارامتر هستند و با ۲۰۰ هزار ساعت داده گفتاری آموزش دیدهاند. این دادهها شامل لحنهای خنثی مانند خوانش کتاب صوتی و لحنهای احساسی متنوع است. عمده دادههای آموزشی این مدل به زبان انگلیسی بوده، اما مجموعهای گسترده از زبانهای چینی، ژاپنی، فرانسوی، اسپانیایی و آلمانی نیز در فرآیند یادگیری آن به کار گرفته شده است.
طبق ادعای شرکت Zyphra، اطلاعات مورد استفاده در آموزش این مدلها از منابع آنلاین جمعآوری شده و از واسطههای داده خریداری نشده است. این مدلها عملکردی مشابه سایر هوشهای مصنوعی تبدیل متن به گفتار دارند و میتوانند در حوزههای مختلفی مانند دوبله، تولید محتوا و دستیارهای صوتی مورد استفاده قرار گیرند.
انتهای پیام/