هوش مصنوعی جدید “Voicebox” متا یک ابزار تبدیل متن به گفتار است که مانند ChatGPT یاد می گیرد.
به گزارش پایگاه خبری ارز دیجیتال موبو ارز،
متا ادعا می کند که Voicebox اولین هوش مصنوعی است که می تواند کارهای آموزش ندیده تبدیل متن به گفتار را تعمیم دهد و آن را “پیشگامانه” نامیده است.
متا AI اخیراً یک ژنراتور تبدیل متن به گفتار (TTS) را معرفی کرد که نتایجی را تا ۲۰ برابر سریعتر از مدلهای هوش مصنوعی پیشرفته با عملکرد قابل مقایسه تولید میکند.
این سیستم جدید که Voicebox نام دارد، از معماری سنتی TTS به نفع مدلی مشابه ChatGPT OpenAI و Bard گوگل دوری میکند.
یکی از تفاوتهای کلیدی بین Voicebox و مدلهای مشابه TTS مانند Prime Voice AI Eleven Labs این است که محصول متا میتواند از طریق یادگیری درون متنی تعمیم یابد.
مانند ChatGPT و سایر مدل های Transformer، Voicebox از مجموعه داده های آموزشی بزرگ استفاده می کند. تلاشهای قبلی با استفاده از مقادیر زیادی از دادههای صوتی منجر به کاهش قابل توجه خروجی صدا شد. به همین دلیل، اکثر سیستمهای TTS از مجموعه دادههای کوچک، بسیار مدیریتشده و دارای برچسب استفاده میکنند.
متا این محدودیت را از طریق یک طرح آموزشی جدید که برچسب گذاری و نظارت معماری را که می تواند اطلاعات صوتی را “جاسازی” کند، لغو می کند، غلبه می کند.
همانطور که Meta AI در یک پست وبلاگی در ۱۶ ژوئن گفت، Voicebox “اولین مدلی است که می تواند به وظایف تولید گفتار تعمیم داده شود که به طور خاص برای دستیابی به عملکرد پیشرفته آموزش ندیده اند.”
این به Voicebox اجازه می دهد تا متن را به گفتار ترجمه کند، گفتار جایگزین را برای حذف نویزهای ناخواسته ترکیب کند، و صدای گوینده را در خروجی های زبانی مختلف اعمال کند.
طبق یک مقاله تحقیقاتی همراه که توسط متا منتشر شده است، سیستم Voicebox از پیش آموزش دیده متا می تواند همه اینها را تنها با استفاده از متن خروجی مورد نیاز و یک کلیپ صوتی ۳ ثانیه ای به دست آورد.
ظهور تولید گفتار قدرتمند در زمان حساسی اتفاق میافتد، زیرا شرکتهای رسانههای اجتماعی همچنان با اعتدال دست و پنجه نرم میکنند، و انتخابات ریاستجمهوری ایالات متحده نزدیک است و تهدید میکند محدودیتهای تشخیص اطلاعات نادرست آنلاین را بار دیگر آزمایش کند.
به عنوان مثال، دونالد ترامپ، رئیس جمهور سابق ایالات متحده، اکنون با اتهامات سوء استفاده از مواد طبقه بندی شده دولتی پس از ترک قدرت مواجه است. از جمله شواهدی که در شکایت علیه وی ذکر شده است، یک فایل صوتی ضبط شده است که گفته می شود در آن به اشتباه احتمالی اعتراف کرده است.
در حالی که در حال حاضر هیچ نشانه ای مبنی بر اینکه رئیس جمهور سابق قصد دارد آنچه در فایل های صوتی گفته شده را انکار کند، وجود ندارد، پرونده وی نشان می دهد که یکپارچگی داده ها در قلب سیستم حقوقی ما و در نتیجه دموکراسی ما قرار دارد.
Voicebox اولین در نوع خود نیست، اما به نظر می رسد یکی از قوی ترین ها باشد. بنابراین، Meta’s ابزاری را برای تعیین اینکه آیا گفتار توسط گفتار تولید می شود یا خیر، ایجاد کرده است. این شرکت ادعا می کند که به آن اجازه می دهد تا به راحتی تفاوت بین صدای واقعی و جعلی را تشخیص دهد. طبق پست وبلاگ:
ما تشخیص میدهیم که مانند هر نوآوری جدید و قدرتمند هوش مصنوعی، این فناوری میتواند منجر به استفاده نادرست و آسیبهای ناخواسته شود. در این مقاله، نحوه ساخت یک طبقهبندی بسیار موثر را توضیح میدهیم که میتواند بین گفتار واقعی و گفتار تولید شده توسط جعبه صوتی تمایز قائل شود.
در دنیای ارزهای رمزنگاری شده، هوش مصنوعی به اندازه اینترنت و برق در فعالیتهای روزمره اکثر شرکتها یکپارچه شده است. رباتهای تجاری رایج شدهاند و بزرگترین صرافیها از چترباتهای هوش مصنوعی برای تعامل با مشتری و تحلیل احساسات استفاده میکنند.
مربوط: Bybit برای ابزارهای معاملاتی مبتنی بر هوش مصنوعی به ChatGPT متصل می شود
ظهور سیستمهای تبدیل متن به گفتار قوی مانند Voicebox همراه با معاملات خودکار، شکافی را برای معاملهگران ارز دیجیتال مشتاق که در حال حاضر به سیستمهای TTS متکی هستند و ممکن است با اصطلاحات رمزنگاری و پشتیبانی چند زبانه مشکل داشته باشند، پر میکند.
نویسنده: Tristan Greene